ChatGPT-4o：OpenAI的一小步人类“AI助理”的一大步-品论天涯网

5月13日，OpenAI用一场春季发布会，再次搅动了整个AI行业。在SamAltman缺席的情况下，OpenAICTOMiraMurati担纲介绍了新的ChatGPT产品ChatGPT-4o。短短26分钟的发布会，却几乎是科幻电影《Her》的现实演绎。当你打开ChatGPT，你面对的不再是一个只会帮你生成内容、或者进行僵硬语音聊天的工具——你唤起的将是一个“无所不能”的语音助手，或者说，一个越来越接近人类的“物种”。sc4品论天涯网

它长出了“眼睛”，可以通过摄像头看到你，比如它通过研究员上扬的嘴角判断他的心情、通过他周围的环境背景判断了他正在做什么、甚至给出了造型建议；它能“看到”你的电脑桌面，直接帮你查看写的代码有什么问题。sc4品论天涯网

它有了更灵敏的“耳朵”，能听懂的不只是语言，还能听懂研究员过于急促的呼吸声，并引导他慢慢平稳呼吸、放松下来。sc4品论天涯网

sc4品论天涯网

OpenAICTOMuraMurati宣布推出ChatGPT-4o|图片来源：OpenAIsc4品论天涯网

它有了更灵活的“嘴巴”，对话不再有延时，你能随时打断它、它能随时接住你的话。它的声音能带入感情，比如更冷静一点、更激昂一点、甚至讽刺一点。它还能唱歌。sc4品论天涯网

它也有了更聪明的“大脑”。它能帮研究员一步步解不等式，还可以做同声翻译、你可以通过它跟不同语种的人们交流。sc4品论天涯网

这些强大的能力背后，源自OpenAI推出的新模型GPT-4o。与现有模型相比，GPT-4o的最大进步在于，它可以实时对音频、视觉和文本进行推理——换句话说，它让ChatGPT实现了真正意义上的多模态交互。sc4品论天涯网

这不仅仅是技术进步的追求，更是应用普及的追求。OpenAI的使命之一是让AI普惠每个人，让用户能顺滑地用上AI是至关重要的。在“模型即应用”的时代，这种交互体验最终还是靠模型能力的提升。OpenAI称，GPT-4o（“o”代表“omni”）是迈向更自然的人机交互的一步。sc4品论天涯网

发布会上，MiraMurati宣布ChatGPT-4o将免费向所有用户开放，而付费和企业用户，可以抢先获得体验。sc4品论天涯网

电影《Her》上映于2013年，它讲述了一位人类爱上一位人工智能语音助理的故事。从今天ChatGPT呈现的能力来看，这样的想象正在加速成为现实。sc4品论天涯网

ChatGPT的惊人进步：变身人类“超级助理”，甚至不需要人类参与sc4品论天涯网

在OpenAI的官网上，呈现了ChatGPT作为个人语音“超级助理”的更多惊人应用场景。sc4品论天涯网

首先是面向单个用户，和人一样，它提供的主要是“情绪价值”与“认知价值”。比如它能讲笑话、唱生日快乐歌、玩游戏、逗小狗、给人催眠、让人放松等等；它能充当面试官，给人提供面试建议；它还能给一位盲人提供环境观察，给他讲述看到的景色、提醒他过马路的路况。sc4品论天涯网

sc4品论天涯网

盲人用户使用ChatGPT-4o“观察”整个世界|图片来源：OpenAIsc4品论天涯网

接着是面向多个用户，它提供的更多是一种“协同价值”。比如给两个语言不通的人充当翻译，让他们能无障碍沟通；给两个人做“剪刀石头布”的游戏裁判，先喊口令让游戏开始、之后还能准确判断是哪个人赢了；充当一名“家教”，帮一位父亲辅导他的孩子做作业；甚至作为一名“会议第三方”，主持和记录多人会议。sc4品论天涯网

最有意思的还是，不同ChatGPT之间的对话。这种无需人类参与的沟通，不仅充满了科幻感，更让人开始想象无需人类协作、而让机器代替人类协作的未来。在一段演示中，一位用户要求一部手机的ChatGPT代表自己，向另一部手机的ChatGPT申请售后，结果这两个ChatGPT毫无阻碍地聊了两分钟，顺利帮这位用户“换了货”。而OpenAI总裁GregBrockman则做了一个调皮的演示，他让两个ChatGPT互动并唱了歌。sc4品论天涯网

sc4品论天涯网

OpenAI总裁GregBrockman演示两个GPT的互动｜图片来源：OpenAIsc4品论天涯网

一位曾在10年前就开始做“AI语音助理”的前大厂高管对极客公园表示，他当时就设想过AI助理的终极形态应该是“多模态、无所不能”，但彼时技术并不支持，他认为ChatGPT会加速这种设想实现的可能——只是他没想到，这个过程会来得这么快。sc4品论天涯网

他认为，实现AGI的一个关键标志是，机器是否能具备了自主学习、自主迭代、自主解决问题等能力。这个突破看起来很遥远，但当两个ChatGPT开始互相聊天的时候，这个鸿沟看起来似乎浅了一点点。sc4品论天涯网

GPT-4o多模态大模型的技术进步、以及安全性sc4品论天涯网

这些惊艳的产品表现，根本上源自于GPT-4o多模态大模型的技术进步。后者分为文本、语音、图像三部分，GPT-4o在这三块都有提升，尤其是后两者。sc4品论天涯网

在文本方面，据OpenAI的技术报告，GPT-4o在MMLU（语言）、GPQA（知识）、MATH（数学）、HumanEval（编程）的评测指标上，都超出了GPT-4T、GPT-4(23年3月最初发布版本)，以及竞品Claude3Opus、GeminiPro1.5、Llama3400b、GeminiUltra1.0。比如在0-shotCOTMMLU上，GPT-4o创下了88.7%的新高分。sc4品论天涯网

sc4品论天涯网

GPT-4o在文本上的成绩相当优异|图片来源：OpenAIsc4品论天涯网

最关键的，是音频、多语言和视觉上的进步。sc4品论天涯网

在音频方面，过去ChatGPT的音频缺陷是需要经过三个独立的模型，从而存在延迟、且无法承载丰富信息。它先由第一个模型将音频转录为文本，再由GPT-3.5或GPT-4接收文本并输出文本，最后由第三个模型将该文本转换回音频——一方面，它使得音频的传输存在延迟，GPT-3.5的平均延迟为2.8秒，GPT-4的平均延迟为5.4秒。另一方面，模型会丢失大量信息，从而无法直接观察音调、多个说话者或背景噪音，也无法输出笑声、歌唱或表达情感。sc4品论天涯网

而GPT-4o的解决办法是，跨文本、视觉和音频端到端地训练了一个新模型，这意味着所有输入和输出都由同一神经网络处理。OpenAI称这是其突破深度学习界限的最新举措。目前，GPT-4o可以在短至232毫秒、平均320毫秒的时间内响应音频输入，与人类的响应时间相似。同时在音频ASR性能和翻译性能上，GPT-4o都比Whisper-v3（OpenAI的语音识别模型）的性能更优。sc4品论天涯网

M3Exam基准测试既能用于多语言评估，也可以用于视觉评估。它由多项选择题组成，包括图形和图表。在所有语言的基准测试中，GPT-4o都比GPT-4更强。另外在视觉理解评估上，GPT-4o在视觉感知基准上都实现了最先进的性能。sc4品论天涯网

sc4品论天涯网

GPT-4o在视觉理解上同样能力不错|图片来源：OpenAIsc4品论天涯网

一位大模型训练者曾对极客公园表示，模型的技术领先性从来不是靠打榜评分，而是靠用户最真实的感受和体验。从这个角度来说，GPT-4o的技术领先性将很容易见分晓。sc4品论天涯网

OpenAI表示，GPT-4o的文本和图像功能将于发布会当天在ChatGPT中推出。免费用户就可以使用，不过Plus付费用户能享受高达5倍的消息容量。在未来几周内，OpenAI会在ChatGPTPlus中推出新版本的语音模式GPT-4oalpha。sc4品论天涯网

而开发人员现在就可以在API中访问GPT-4o的文本和视觉模型。与GPT-4Turbo相比，GPT-4o速度提高了2倍、价格降低了一半、速率限制提高了5倍。在未来几周内，OpenAI计划向一小部分值得信赖的合作伙伴推出GPT-4o的新音频和视频功能。sc4品论天涯网

一项强大的技术最令外界担忧的，就是它的安全可控性。这也是OpenAI最核心的考虑之一。sc4品论天涯网

OpenAI表示，GPT-4o通过过滤训练数据和通过训练后细化模型行为等技术，在跨模式设计中内置了安全性。其还创建了新的安全系统，为语音输出提供防护。为了保证更好的安全性，OpenAI表示在接下来的几周和几个月里，将致力于技术基础设施、培训后的可用性以及发布其他模式所需的安全性。sc4品论天涯网

OpenAI从没让外界失望，再次引领科技圈的未来sc4品论天涯网

作为这波AI浪潮的开启者、引领者，OpenAI的每一次发布和更新，都关系着其庞大用户量的涨跌、公司竞争的进退、以及整个行业的关注和走向。sc4品论天涯网

在这次发布会之前，外界对OpenAI颇多谣传、也包括质疑。一周前，外媒报道此次OpenAI要发布的是一款搜索引擎——在一年最重要的新闻发布时刻，这家公司没有推出GPT-5，这引来外界对其创新力的颇多怀疑。而如果无法拿出足够创新力的技术和产品，这家公司将难以重振用户的增长、满足整个市场对它的期待。sc4品论天涯网

自2022年底推出ChatGPT后，这家公司的用户量经历了大起大落。据Similarweb估计，其全球访问量在2023年5月达到18亿次的峰值。但进入2023年下半年后，其用户量则有所下降，至今仍未追平去年5月的全球访问量峰值记录。sc4品论天涯网

sc4品论天涯网

自2022年11月以来，ChatGPT在全球和美国的流量增长情况｜图片来源：Similarwebsc4品论天涯网

这次发布会，直接关系着其用户量的增长情况。sc4品论天涯网

外界对搜索引擎还是颇为关注的，Similarweb表示这个消息当天让ChatGPT流量大涨。不过，在发布会前两天，OpenAICEOSamAltman才对外澄清，此次既不会发GPT-5、也不会发搜索引擎，“但我们一直在努力开发一些我们认为人们会喜欢的新东西！对我来说感觉就像魔法一样。”他把这件事描述得更小了。sc4品论天涯网

或许，人们是在一种低期待中观看这次OpenAI的发布会。但最终，他们收获到的是一次强烈的震撼。这或许正是OpenAI想要的反差效果。sc4品论天涯网

无论是最初的GPT-3.5，还是去年这个时候的GPT-4，还是去年底的GPTs，又或者是今年年初的Sora——OpenAI再一次证明，它不会让世人失望。尽管Google、Claude、CharacterAI、Perplexity等竞争对手正攫走更多新用户、以及资本的青睐，但OpenAI依然证明自己有能力引领着科技创新的“高地”。sc4品论天涯网

sc4品论天涯网

ChatGPT和其他聊天机器人的访问量对比｜图片来源：Similarwebsc4品论天涯网

在此次OpenAI推出基于GPT-4o的“超级智能助理”之后，这似乎也将成为接下来各科技大厂争先追赶的方向。sc4品论天涯网

据外媒报道，近期Google一直在测试使用人工智能打电话。传闻，它将推出一款名为“Pixie”的多模态个人助理，作为“GoogleAssistant”的替代品。它可以通过摄像头查看物体，并执行人类指令。这在明天的GoogleI/O大会上就会见分晓。sc4品论天涯网

而近日，外媒亦报道，苹果即将与OpenAI达成协议——在6月份苹果举办的年度全球开发者大会上，苹果或将在iOS18中引入由ChatGPT提供支持的“聊天机器人”，这或将对苹果的个人语音助理Siri带来颠覆性影响。sc4品论天涯网

难以想象，仅仅一年半的时间，OpenAI就将技术推到了今天这个地步、让“超级助理”的想象这么快发生在我们眼前。然而，这也只是OpenAI释放的技术实力的一角。毕竟，我们今天谈到的仅仅是GPT-4的更新，还没有说到GPT-5。OpenAI到底会给我们带来多少震撼、以及随之会产生多少忧虑，都是未知的问题。sc4品论天涯网

如果站在科技的未来隧道往回看，今天GPT-4o“超级语音助理”的诞生，或许会成为科技史上一个标志性的时刻。但或许又如同OpenAI首席运营官BradLightcap几天前所说，“在接下来的12个月里，我们应该会觉得今天使用的（AI）系统糟糕得可笑。”sc4品论天涯网

ChatGPT-4o：OpenAI的一小步 人类“AI助理”的一大步

ChatGPT-4o：OpenAI的一小步人类“AI助理”的一大步