OpenAI的加强版“Her”正式开放压过了Gemini的“生产级”大升级……-品论天涯网

今天真是AI圈久违了的热闹一天啊！昨天刚被奥特曼发的那篇AI小作文搞得一头雾水，现在他这波操作的意图就呼之欲出了。奥特曼想临门狙击的正是宿敌Google，更确切地说，是Google今天刚刚更新的两款升级版Gemini模型：Gemini-1.5-Pro-002和Gemini-1.5-Flash-002。狙击方式简单粗暴：直接宣布万众期待的GPT语音功能今天起正式开放。8xX品论天涯网

两个小时不到，就双叒抢走了Google好不容易的高光时刻。我要是Google我得气吐血吧。8xX品论天涯网

8xX品论天涯网

GPT高级语音来了，会50多种语言8xX品论天涯网

OpenAI称，ChatGPT的高级语音模式（AdvancedVoiceMode）将在本周内逐步向所有Plus和团队用户推出。8xX品论天涯网

在人们耐心等待的同时，团队完善了部分功能，包括新增自定义指令、记忆功能、5种新声音，并改进了口音。8xX品论天涯网

8xX品论天涯网

由于实在被大家念叨了太久，OpenAI特别表示了一下：“它能用50多种语言说出’抱歉，我迟到了‘。”8xX品论天涯网

并且放了一个从英文切换到普通话的示例：“奶奶对不起，我迟到了。我不是故意让您等这么久的，我可以怎么补偿您呢？”8xX品论天涯网

——好家伙，这一下子都当上GPT的奶奶辈了，硬逼着我原谅你啊。8xX品论天涯网

视频中可以看到，语音模式现在以一个跳动的蓝色球体表示，而不是OpenAI在5月展示技术时使用的黑色动画点。8xX品论天涯网

当获得访问权限时，应用内会弹出一个提示。先是对Plus和Teams层级用户开通，下周起扩展到企业和教育用户。8xX品论天涯网

8xX品论天涯网

ChatGPT还添加了五种新语音以供体验：Arbor、Maple、Sol、Spruce和Vale。至此，加上之前的Breeze、Juniper、Cove和Ember，ChatGPT的语音总数已达到了9种（Google的GeminiLive语音数量为10种）。8xX品论天涯网

可能你也注意到了，这些名字都是从大自然中汲取灵感的，从“枫树”、“微风”到“太阳”、“山谷”，也许是为了让使用感觉更加自然。一个缺席的声音是Sky，也是OpenAI在春季发布会时展示的语音，因涉及与电影《Her》主演斯嘉丽·约翰逊的法律争议而下架。8xX品论天涯网

OpenAI还将ChatGPT的一些定制功能扩展到了高级语音模式，包括允许用户个性化回应的“自定义指令”功能，以及允许ChatGPT记住对话供以后参考的记忆功能。8xX品论天涯网

比如下面视频里，在系统设置的自定义ChatGPT菜单中，输入“我的名字是夏洛特，我住在旧金山湾区。”再询问周末户外活动时，GPT就会以夏洛特称呼用户，提供符合本地天气和交通的建议。8xX品论天涯网

OpenAI称团队改进了部分外语中的响应速度、流畅性以及口音。语音会根据对话语气进行调整，你可以创建场景，提示它扮演不同的角色。声音延迟非常低，理解力也更强，真的像是和另一个人自然对话。8xX品论天涯网

不过OpenAI四个月前展示过的视频和屏幕共享功能此次并未更新。当时工作人员向GPT询问纸上的数学题和电脑屏幕上的代码，通过自然语音对话获得了实时解答。目前，OpenAI尚未提供这项多模态功能的推出时间表。8xX品论天涯网

此外高级语音模式也暂时不对欧盟、英国、瑞士、冰岛、挪威和列支敦士登等地区开放。8xX品论天涯网

尽管如此，终于能亲自上手OpenAI版的“her”，对已经混AI圈混到审美疲劳的人们来说，确实算一件值得兴奋的事了。加上才制造了一波热潮的o1-preview，OpenAI又妥妥硬控业界一周。8xX品论天涯网

8xX品论天涯网

这一激动也把大伙儿整地间歇性失忆了：8xX品论天涯网

话说Google今天是发了个啥来着？8xX品论天涯网

Gemini1.5升级两款新模型，价格减半，速率提升8xX品论天涯网

Google这次的更新其实也很重磅，至少对于开发者来说。8xX品论天涯网

根据GoogleBlog，这次他们更新了两个生产级Gemini模型：Gemini-1.5-Pro-002和Gemini-1.5-Flash-002。所谓“生产级”，是指AI模型经过了充分的开发、测试和优化，已准备好商业化部署，能处理大量用户请求、应用于产品服务中，而不仅仅是用于实验或研究。8xX品论天涯网

作为今年5月I/O大会亮相的Gemini1.5系列模型的重大升级，新模型更快、更强大，也更具成本效益。8xX品论天涯网

8xX品论天涯网

主要亮点概括为：8xX品论天涯网

1.价格大幅降低：1.5Pro的输入和输出价格下降约50%，大幅降低了构建成本，尤其是对小于128Ktoken的提示。8xX品论天涯网

8xX品论天涯网

2.整体质量改进：尤其在数学、代码生成、长文本上下文和视觉任务上的性能提升显著，包括在MATH、HiddenMath等基准测试中提高约20%，视觉和代码应用提高2%-7%。8xX品论天涯网

8xX品论天涯网

3.速率限制提高：1.5Flash和1.5Pro的速率限制分别从每分钟1000RPM（RequestsPerMinute）和360RPM提高至每分钟2000RPM和1000RPM，使开发者能够更快构建和处理任务。8xX品论天涯网

4.更快输出和更低延迟：输出速度提升2倍，延迟降低3倍，为更高效的应用场景提供支持。8xX品论天涯网

8xX品论天涯网

5.更简洁的响应：响应风格更简洁、成本更低，输出长度缩短5%-20%，同时在许多话题上减少了拒绝和回避的次数，并保持高有用性。8xX品论天涯网

6.多模态和长上下文支持：1.5Pro的200万token长上下文窗口支持处理长文本和多模态任务，如1000页PDF或长视频的内容生成。8xX品论天涯网

7.更新的过滤设置：模型的默认安全过滤器不再自动应用，开发者可以根据需要定制模型的安全设置。8xX品论天涯网

开发者可以通过GoogleAIStudio和GeminiAPI免费访问这两个最新模型。大型组织和GoogleCloud客户也可在VertexAI上使用新模型。8xX品论天涯网

笼罩在GPT阴影下的Gemini8xX品论天涯网

但在同行对比下，不少普通用户对Google这次动作表达了失望，觉得这甚至算不上真正意义的“发布”。8xX品论天涯网

Abacus.AICEO、知名博主BinduReddy说，“唉，OpenAI发布了通过智商测试的o1，而Google只是对Gemini1.5进行了一些小更新。他们拥有100倍的资源、10倍的人才和10倍的所有东西，怎么会这样呢？”8xX品论天涯网

8xX品论天涯网

尽管开发者中还是有些人为Google说话，比如Reddit讨论区就有网友表示：8xX品论天涯网

“对于那些实际在构建应用并试图降低成本、增加利润的人来说，这些都是有用的东西。我正在做的应用有一个每次操作的固定成本，由token长度决定，这让我的利润提高了大约30%以上。这对大多数人来说可能没什么意思。我知道很多人会因为Google的这个“公告”而生气——但实际上这对开发人员来说是一个不错的更新。”8xX品论天涯网

8xX品论天涯网

价格对半砍、速率提升、延迟降低，这些确实正中开发者下怀。但正如大家所说，吸引力也许仅限于开发者群体了。8xX品论天涯网

8xX品论天涯网

甚至连一些开发者也嗤之以鼻：“我没看到跟Claude或o1的比较，而我们马上就要迎来下一代OpenAI和Anthropic模型。DeepMind其实拥有远超目前的模型，但他们在走直接面向企业的路线，绕过了大众。Gemini令人印象深刻吗？完全不，简直令人失望透顶。”8xX品论天涯网

Google对于模型的糟糕命名也被网友群嘲，认为其冗长且易混淆。8xX品论天涯网

8xX品论天涯网

TheInformation近期发布了一篇名为《WhyAIDevelopersAreSkippingGoogle’sGemini》的文章。其中通过对多位AI公司创始人和Google内部员工的采访，讲述了Gemini如何被开发者“抛弃”，在追赶ChatGPT时遇到的阻滞和困境。8xX品论天涯网

比如，相比竞争对手的技术，调用Gemini对于开发者和企业来说过于复杂。Topology创始人AidanMcLaughlin表示，他首次使用OpenAI的API仅用了30秒，而使用Gemini则花了4个小时。同时Google的大模型性能却排在OpenAI和Anthropic之后，并不值得他跨过这些障碍。8xX品论天涯网

相较于ChatGPT，Gemini在开发者中的不受欢迎似乎是现实世界公开的秘密。8xX品论天涯网

企业软件初创公司Retool在6月份对750多名科技员工进行的调查发现，仅有2.6%的受访者表示他们最常使用Gemini来构建AI应用，超过76%的人选择使用GPT。8xX品论天涯网

Similarweb追踪的网站流量数据显示，6月至8月期间，OpenAI的应用开发者页面访问量达8280万次，而Google的页面访问量为840万次。8xX品论天涯网

较小的非正式调查也提供了类似的证据。上月底，Finetune的创始人JulianSaks向他在旧金山联合办公空间的50名AI初创企业开发者询问他们最常使用的对话式AI模型。几乎所有人都表示，他们主要使用的是Anthropic或OpenAI的模型，没有人提起Gemini。8xX品论天涯网

尽管Gemini模型在分析长文档或长代码库时非常有用，但许多开发者表示，Google的模型选项种类繁多，步骤复杂，开发者系统也与OpenAI的不同，更难使用。并且有时，Google提供的不同服务还会在它自己的搜索结果中互相竞争，使得人们在试图搞清楚这些工具时很容易被“绊住”。8xX品论天涯网

Gemini因此经常在X上被嘲笑。安全初创公司Xbow的AI研究员BrendanDolan-Gavitt本月早些时候发了一条推文，详细介绍了他通过Vertex开始使用Gemini所需的众多步骤，迅速走红。其他开发者纷纷评论区表示同情。8xX品论天涯网

在一个“世界上领先的工程师都在使用OpenAI、Claude或Cursor”的环境中，开发者们确实没有必要再去尝试其它。而反过来说，使用量的走低又无法让Gemini获得ChatGPT一样多的数据反馈，致使Google在改进模型上会面临更模糊的路线图。8xX品论天涯网

失望是因为人们对Google期待很高8xX品论天涯网

Google正试图改变这种看法，包括通过在X上回应对Gemini的批评，将更多OpenAI等公司的明星技术专家纳入麾下、将部分重叠的开发功能合并等。他们还通过举办开发者活动来宣传Gemini。8xX品论天涯网

今天与Gemini-1.5-Pro-002推出同步进行的，还有一场GeminiforWork的线上活动，Google花了大量篇幅宣讲Gemini目前在BestBuy、Snap、UPSCapital、Wayfair等公司的应用案例。据悉，他们正试图通过提供一定程度的“白手套”服务来拉拢更多大企业客户。8xX品论天涯网

只是在根深蒂固的市场份额面前，Google的反击之路可能没那么好走。8xX品论天涯网

AIStudio的产品负责人LoganKilpatrick今年4月加入前曾于OpenAI负责开发者关系，他表示：“实际情况是，OpenAI在LLMAPI开发者工具方面领先于Google。我们必须与他们当前在开发者中根深蒂固的市场份额作斗争。”8xX品论天涯网

稍早前AI圈知名博主RowanCheung曾预告，自己完成了一个关于AI模型重大升级的采访，今天开发者们将迎来一个大日子。8xX品论天涯网

那篇推文下面，LoganKilpatrick的笑脸字符表情在一大片“怎么不是ClaudeOpus3.5”的遗憾声中略显尴尬。8xX品论天涯网

保守、争议、滞后是今天Google这位AI巨头给社区留下的刻板印象。Gemini-1.5-Pro-002的推出似乎也并未打破这一僵局。8xX品论天涯网

人们对这家公司的失望，都是来自对它的期待很高：这么强的实力和人才储备，却无法给世界更多的“替代”OpenAI的选项，谁都会感到遗憾。8xX品论天涯网

OpenAI的加强版“Her”正式开放 压过了Gemini的“生产级”大升级……

OpenAI的加强版“Her”正式开放压过了Gemini的“生产级”大升级……