OpenAI新一代旗舰生成模型：GPT-4o完全免费实时语音视频交互直接进入科幻时代-品论天涯网

ChatGPT问世才17个月，OpenAI就拿出了科幻电影里的超级AI，而且完全免费，人人可用。太震撼了！当各家科技公司还在追赶大模型多模态能力，把总结文本、P图等功能放进手机里的时候，遥遥领先的OpenAI直接开了大招，发布的产品连自家CEO奥特曼都惊叹：就像电影里一样。cal品论天涯网

cal品论天涯网

5月14日凌晨，OpenAI在首次“春季新品发布会”上搬出了新一代旗舰生成模型GPT-4o、桌面App，并展示了一系列新能力。这一次，技术颠覆了产品形态，OpenAI用行动给全世界的科技公司上了一课。cal品论天涯网

今天的主持人是OpenAI的首席技术官MiraMurati，她表示，今天主要讲三件事：cal品论天涯网

cal品论天涯网

第一，以后OpenAI做产品就是要免费优先，为的就是让更多的人能使用。cal品论天涯网

第二，因此OpenAI此次发布了桌面版本的程序和更新后的UI，其使用起来更简单，也更自然。cal品论天涯网

第三，GPT-4之后，新版本的大模型来了，名字叫GPT-4o。GPT-4o的特别之处在于它以极为自然的交互方式为每个人带来了GPT-4级别的智能，包括免费用户。cal品论天涯网

ChatGPT的这次更新以后，大模型可以接收文本、音频和图像的任意组合作为输入，并实时生成文本、音频和图像的任意组合输出——这才是属于未来的交互方式。cal品论天涯网

最近，ChatGPT不用注册也可以使用了，今天又增加了桌面程序，OpenAI的目标就是让人们可以随时随地的无感使用它，让ChatGPT集成在你的工作流中。这AI现在就是生产力了。cal品论天涯网

cal品论天涯网

GPT-4o是面向未来人机交互范式的全新大模型，具有文本、语音、图像三种模态的理解力，反应极快还带有感情，也很通人性。cal品论天涯网

在现场，OpenAI的工程师拿出一个iPhone演示了新模型的几种主要能力。最重要的是实时语音对话，MarkChen说：“我第一次来直播的发布会，有点紧张。”ChatGPT说，要不你深呼吸一下。cal品论天涯网

好的，我深呼吸。cal品论天涯网

cal品论天涯网

ChatGPT立即回答说，你这不行，喘得也太大了。cal品论天涯网

如果你之前用过Siri之类的语音助手，这里就可以看出明显的不同了。首先，你可以随时打断AI的话，不用等它说完就可以继续下一轮对话。其次，你不用等待，模型反应极快，比人类的回应还快。第三，模型能够充分理解人类的情感，自己也能表现出各种感情。cal品论天涯网

随后是视觉能力。另一个工程师在纸上现写的方程，让ChatGPT不是直接给答案，而是让它解释要一步步怎么做。看起来，它在教人做题方面很有潜力。cal品论天涯网

cal品论天涯网

ChatGPT说，每当你为数学焦头烂额的时候，我就在你身边。cal品论天涯网

接下来尝试GPT-4o的代码能力。这有一些代码，打开电脑里桌面版的ChatGPT用语音和它交互，让它解释一下代码是用来做什么的，某个函数是在做什么，ChatGPT都对答如流。cal品论天涯网

输出代码的结果，是一个温度曲线图，让ChatGPT以一句话的方式回应所有有关此图的问题。cal品论天涯网

cal品论天涯网

最热的月份在几月，Y轴是摄氏度还是华氏度，它都能回答得上来。cal品论天涯网

OpenAI还回应了一些X/Twitter上网友们实时提出的问题。比如实时语音翻译，手机可以拿来当翻译机来回翻译西班牙语和英语。cal品论天涯网

又有人问道，ChatGPT能识别你的表情吗？cal品论天涯网

看起来，GPT-4o已经能够做到实时的视频理解了。cal品论天涯网

接下来，就让我们详细了解下OpenAI今天放出的核弹。cal品论天涯网

全能模型GPT-4ocal品论天涯网

首先介绍的是GPT-4o，o代表Omnimodel（全能模型）。cal品论天涯网

第一次，OpenAI在一个模型中集成了所有模态，大幅提升了大模型的实用性。cal品论天涯网

OpenAICTOMuriMurati表示，GPT-4o提供了“GPT-4水准”的智能，但在GPT-4的基础上改进了文本、视觉和音频方面的能力，将在未来几周内“迭代式”地在公司产品中推出。cal品论天涯网

“GPT-4o的理由横跨语音、文本和视觉，”MuriMurati说道：“我们知道这些模型越来越复杂，但我们希望交互体验变得更自然、更简单，让你完全不用关注用户界面，而只关注与GPT的协作。”cal品论天涯网

GPT-4o在英语文本和代码上的性能与GPT-4Turbo的性能相匹配，但在非英语文本上的性能显著提高，同时API的速度也更快，成本降低了50%。与现有模型相比，GPT-4o在视觉和音频理解方面尤其出色。cal品论天涯网

它最快可以在232毫秒的时间内响应音频输入，平均响应时长320毫秒，与人类相似。在GPT-4o发布之前，体验过ChatGPT语音对话能力的用户能够感知到ChatGPT的平均延迟为2.8秒(GPT-3.5)和5.4秒(GPT-4)。cal品论天涯网

这种语音响应模式是由三个独立模型组成的pipeline：一个简单模型将音频转录为文本，GPT-3.5或GPT-4接收文本并输出文本，第三个简单模型将该文本转换回音频。但OpenAI发现这种方法意味着GPT-4会丢失大量信息，例如模型无法直接观察音调、多个说话者或背景噪音，也无法输出笑声、歌唱或表达情感。cal品论天涯网

而在GPT-4o上，OpenAI跨文本、视觉和音频端到端地训练了一个新模型，这意味着所有输入和输出都由同一神经网络处理。cal品论天涯网

“从技术角度来看，OpenAI已经找到了一种方法，可以将音频直接映射到音频作为一级模态，并将视频实时传输到transformer。这些需要对token化和架构进行一些新的研究，但总体来说是一个数据和系统优化问题（大多数事情都是如此）。”英伟达科学家JimFan如此评论道。cal品论天涯网

cal品论天涯网

GPT-4o可以跨文本、音频和视频进行实时推理，这是向更自然的人机交互（甚至是人-机器-机器交互）迈出的重要一步。cal品论天涯网

OpenAI总裁GregBrockman也在线“整活”，不仅让两个GPT-4o实时对话，还让它们即兴创作了一首歌曲，虽然旋律有点“感人”，但歌词涵盖房间的装饰风格、人物穿着特点以及期间发生的小插曲等。cal品论天涯网

此外，GPT-4o在理解和生成图像方面的能力比任何现有模型都要好得多，此前很多不可能的任务都变得“易如反掌”。cal品论天涯网

比如，你可以让它帮忙把OpenAI的logo印到杯垫上：cal品论天涯网

cal品论天涯网

经过这段时间的技术攻关，OpenAI应该已经完美解决了ChatGPT生成字体的问题。cal品论天涯网

同时，GPT-4o还拥有3D视觉内容生成的能力，能够从6个生成的图像进行3D重建：cal品论天涯网

cal品论天涯网

这是一首诗，GPT-4o可以将其排版为手写样式：cal品论天涯网

cal品论天涯网

更复杂的排版样式也能搞定：cal品论天涯网

cal品论天涯网

与GPT-4o合作，你只需要输入几段文字，就能得到一组连续的漫画分镜：cal品论天涯网

cal品论天涯网

而下面这些玩法，应该会让很多设计师有点惊讶：cal品论天涯网

cal品论天涯网

这是一张由两张生活照演变而来的风格化海报：cal品论天涯网

cal品论天涯网

还有一些小众的功能，比如“文本转艺术字”：cal品论天涯网

cal品论天涯网

GPT-4o性能评估结果cal品论天涯网

OpenAI技术团队成员在X上表示，之前在LMSYSChatbotArena上引起广泛热议的神秘模型“im-also-a-good-gpt2-chatbot”就是GPT-4o的一个版本。cal品论天涯网

cal品论天涯网

在比较困难的prompt集上——特别是编码方面：GPT-4o相比于OpenAI之前的最佳模型，性能提升幅度尤其显著。cal品论天涯网

cal品论天涯网

具体来说，在多项基准测试中，GPT-4o在文本、推理和编码智能方面实现了GPT-4Turbo级别的性能，同时在多语言、音频和视觉功能上实现了新高。cal品论天涯网

cal品论天涯网

推理提升：GPT-4o在5-shotMMLU（常识问题）上创下了87.2%的新高分。（注：Llama3400b还在训练中）cal品论天涯网

cal品论天涯网

音频ASR性能：GPT-4o相比Whisper-v3显著提高了所有语言的语音识别性能，特别是对于资源匮乏的语言。cal品论天涯网

cal品论天涯网

GPT-4o在语音翻译方面取得了新的SOTA水平，并且在MLS基准测试中优于Whisper-v3。cal品论天涯网

cal品论天涯网

M3Exam基准测试既是多语言评估基准也是视觉评估基准，由来自多个国家/地区的标准化测试多项选择题组成，并包括图形、图表。在所有语言基准测试中，GPT-4o都比GPT-4更强。cal品论天涯网

未来，模型能力的提升将实现更自然、实时的语音对话，并能够通过实时视频与ChatGPT进行对话。例如，用户可以向ChatGPT展示一场现场体育比赛，并要求它解释规则。cal品论天涯网

ChatGPT用户将免费获得更多高级功能cal品论天涯网

每周都有超过一亿人使用ChatGPT，OpenAI表示GPT-4o的文本和图像功能今天开始免费在ChatGPT中推出，并向Plus用户提供高达5倍的消息上限。cal品论天涯网

cal品论天涯网

现在打开ChatGPT，我们发现GPT-4o已经可以使用了。cal品论天涯网

cal品论天涯网

使用GPT-4o时，ChatGPT免费用户现在可以访问以下功能：体验GPT-4级别智能；用户可以从模型和网络获取响应。cal品论天涯网

此外，免费用户还可以有以下选择——cal品论天涯网

分析数据并创建图表：cal品论天涯网

cal品论天涯网

和拍摄的照片对话：cal品论天涯网

cal品论天涯网

上传文件以获取总结、写作或分析方面的帮助：cal品论天涯网

cal品论天涯网

发现并使用GPTs和GPT应用商店：cal品论天涯网

cal品论天涯网

以及使用记忆功能打造更有帮助的体验。cal品论天涯网

不过，根据使用情况和需求，免费用户可以使用GPT-4o发送的消息数量会受到限制。当达到限制时，ChatGPT将自动切换到GPT-3.5，以便用户可以继续对话。cal品论天涯网

此外，OpenAI还将在未来几周内在ChatGPTPlus中推出新版本的语音模式GPT-4oalpha，并通过API向一小部分值得信赖的合作伙伴推出对GPT-4o更多新的音频和视频功能。cal品论天涯网

当然了，通过多次的模型测试和迭代，GPT-4o在所有模态下都存在一些局限性。在这些不完美的地方，OpenAI表示正努力改进GPT-4o。cal品论天涯网

可以想到的是，GPT-4o音频模式的开放肯定会带来各种新的风险。在安全性问题上，GPT-4o通过过滤训练数据和通过训练后细化模型行为等技术，在跨模态设计中内置了安全性。OpenAI还创建了新的安全系统，为语音输出提供防护。cal品论天涯网

新的桌面app简化用户工作流程cal品论天涯网

对于免费和付费用户，OpenAI还推出了适用于macOS的新ChatGPT桌面应用程序。通过简单的键盘快捷键（Option+Space），用户可以立即向ChatGPT提问，此外，用户还可以直接在应用程序中截取屏幕截图并进行讨论。cal品论天涯网

cal品论天涯网

现在，用户还可以直接从计算机与ChatGPT进行语音对话，GPT-4o的音频和视频功能将在未来推出，通过点击桌面应用程序右下角的耳机图标来开始语音对话。cal品论天涯网

cal品论天涯网

从今天开始，OpenAI将向Plus用户推出macOS应用程序，并将在未来几周内更广泛地提供该应用程序。此外今年晚些时候OpenAI会推出Windows版本。cal品论天涯网

奥特曼：你们开源，我们免费cal品论天涯网

在发布结束后，OpenAICEO山姆・奥特曼久违地发表了一篇博客文章，介绍了推动GPT-4o工作时的心路历程：cal品论天涯网

在我们今天的发布中，我想强调两件事。cal品论天涯网

首先，我们使命的一个关键部分是将强大的人工智能工具免费（或以优惠的价格）提供给人们。我非常自豪地宣布，我们在ChatGPT中免费提供世界上最好的模型，没有广告或类似的东西。cal品论天涯网

当我们创立OpenAI时，我们的最初构想是：我们要创造人工智能并利用它为世界创造各种利益。现在情况有所变化，看起来我们将创造人工智能，然后其他人将使用它来创造各种令人惊奇的事物，我们所有人都会从中受益。cal品论天涯网

当然，我们是一家企业，会发明很多收费的东西，这将帮助我们向数十亿人提供免费、出色的人工智能服务（希望如此）。cal品论天涯网

其次，新的语音和视频模式是我用过的最好的计算交互界面。感觉就像电影里的人工智能一样，我仍然有点惊讶于它竟然是真的。事实证明，达到人类水平的响应时间和表达能力是一个巨大的飞跃。cal品论天涯网

最初的ChatGPT暗示了语言界面的可能性，而这个新事物（GPT-4o版本）给人的感觉有本质上的不同——它快速、智能、有趣、自然且能给人带来帮助。cal品论天涯网

对我来说，与电脑交互从来都不是很自然的事情，事实如此。而当我们添加（可选）个性化、访问个人信息、让AI代替人采取行动等等能力时，我确实可以看到一个令人兴奋的未来，我们能够使用计算机做比以往更多的事情。cal品论天涯网

最后，非常感谢团队为实现这一目标付出了巨大的努力！cal品论天涯网

cal品论天涯网

值得一提的是，上个星期奥特曼在一次采访中表示，虽然全民免费收入（universalbasicincome）难以实现，但我们可以实现“全民免费计算universalbasiccompute”。在未来，所有人都可以免费获得GPT的算力，可以使用、转售或捐赠。cal品论天涯网

“这个想法是，随着AI变得更加先进，并嵌入到我们生活的方方面面，拥有像GPT-7这样的大语言模型单元可能比金钱更有价值，你拥有了部分生产力，”奥特曼解释道。cal品论天涯网

GPT-4o的发布，或许就是OpenAI朝着这方面努力的一个开始。cal品论天涯网

是的，这还只是个开始。cal品论天涯网

最后提一句，今天OpenAI博客中展示的“GuessingMay13th’sannouncement.”的视频，几乎完全撞车Google明天I/O大会的一个预热视频，这无疑是对Google的贴脸开大。不知道看完今天OpenAI的发布，Google有没感到巨大压力？cal品论天涯网

cal品论天涯网

参考内容：cal品论天涯网

https://openai.com/index/hello-gpt-4o/cal品论天涯网

https://openai.com/index/gpt-4o-and-more-tools-to-chatgpt-free/cal品论天涯网

https://blog.samaltman.com/gpt-4ocal品论天涯网

https://www.businessinsider.com/openai-sam-altman-universal-basic-income-idea-compute-gpt-7-2024-5cal品论天涯网

OpenAI新一代旗舰生成模型 ：GPT-4o完全免费 实时语音视频交互直接进入科幻时代

OpenAI新一代旗舰生成模型：GPT-4o完全免费实时语音视频交互直接进入科幻时代