人工智能

OpenAI春季发布会:这是“Moss”的诞生,我们人类究竟该何去何从

字号+作者: 来源:数字生命卡兹克公众号 2024-05-14 09:33 评论(创建话题) 收藏成功收藏本文

声明:本文来自于微信公众号数字生命卡兹克(ID:Rockhazix),作者:数字生命卡兹克,授权站长之家转载发布。今天,OpenAI又又又又开发布会了。在大众心里,现在也基'...

声明:本文来自于微信公众号数字生命卡兹克(ID:Rockhazix),作者:数字生命卡兹克,授权站长之家转载发布。cdT品论天涯网

今天,OpenAI又又又又开发布会了。cdT品论天涯网

在大众心里,现在也基本上都知道,奥特曼是一个贼能PR的人。cdT品论天涯网

每一次的PR的时间点,都拿捏的极其到位,精准的狙击其他厂商。比如说上一次Sora,其实你会发现从头到尾就是一个PR的举动,2月16号发的,特么的快3个月了,什么影子都没有。cdT品论天涯网

而这一次,OpenAI把发布会从9号改到了今天,也不知道哪个倒霉蛋造到狙击了,反正我只知道,明天Google要开开发者大会。。cdT品论天涯网

就差怼脸了。。。cdT品论天涯网

不过,今天OpenAI的东西,直接杀疯了。完全不给友商活路。cdT品论天涯网

震撼的我头皮发麻。cdT品论天涯网

最核心的就是它的新模型:GPT-4o,和基于GPT-4o打造的全新ChatGPT。cdT品论天涯网

1.新模型GPT-4ocdT品论天涯网

OpenAI正式发布了新的模型GPT-4o。cdT品论天涯网

GPT-4o,这个o就是"Omni",Omni是拉丁语词根,意为 "全体"、"所有" 或 "全面的"。cdT品论天涯网

在英语中,"omni" 常被用作前缀,表示 "所有的" 或 "全体的"。例如,"omniscient" 意味着 "无所不知的","omnipotent" 意味着 "全能的","omnipresent" 意味着 "无所不在的"。cdT品论天涯网

所以可想而知,OpenAI这次对GPT-4o的期待有多高。cdT品论天涯网

omnimodel指的就是文字、语音、图片、视频统一的模型,这是跟以往的GPT-4V最大的区别。cdT品论天涯网

这是正儿八经的原生多模态。cdT品论天涯网

更重要的是可以实时推理音频、视觉和文本,注意这里是实时,实时,实时,推理的不是文本,是音频!视觉!cdT品论天涯网

杀疯了。cdT品论天涯网

而之前一直在大模型竞技场上大杀特杀的im-also-a-good-gpt2-chatbot,就是这个玩意。之前所有人都在猜测这个神秘的GPT2就是GPT4.5,这次看来是猜对了。cdT品论天涯网

图片cdT品论天涯网

去年Gemini1.5所谓的原生多模态,炒的贼火,但是最后被报出来是剪辑,这次直接被GPT-4o在地上摁着打,Google真的是。。。。。cdT品论天涯网

这个GPT-4o的整体能力,在统一模态的基础上。cdT品论天涯网

文本、代码能力还基本能跟GPT-4Turbo打平。cdT品论天涯网

文本能力:cdT品论天涯网

图片cdT品论天涯网

音频能力:cdT品论天涯网

图片cdT品论天涯网

各个语言的考试能力:cdT品论天涯网

图片cdT品论天涯网

最核心的是最后一个:cdT品论天涯网

图片cdT品论天涯网

在一些多模态的基准测试集上全面碾压之前模型,数据集主要围绕包括对各种科学问题或数学问题进行图表理解和视觉回答,可以看到GPT-4o 在视觉感知基准上实现了碾压。cdT品论天涯网

能力强到爆炸。cdT品论天涯网

不仅在传统的文本能力上GPT-4Turbo的性能相当,还在 API 方面更快速,价格还更便宜50%。总结来说,与 GPT-4Turbo 相比,GPT-4o 速度提高了2倍,价格减半,限制速率提高了5倍。cdT品论天涯网

2. 新ChatGPTcdT品论天涯网

新的ChatGPT基于GPT-4o,基本原地起飞,我甚至都不想称他为ChatGPT,而是想称它一个国人更为熟悉的代号:cdT品论天涯网

Moss。cdT品论天涯网

新版的ChatGPT得益于GPT-4o新模型,在语音对话中,几乎没有延迟,而且可以随时插嘴,模型实时响应。cdT品论天涯网

甚至,模型可以听懂你的情绪、甚至人的喘息声和呼吸。cdT品论天涯网

而且模型自己的自己的情绪,几乎无敌,跟真人一模一样。cdT品论天涯网

甚至,它还能模拟机器人和唱歌的声音。。。cdT品论天涯网

看的时候,听到它唱歌的那一刻,我的鸡皮疙瘩真的起来了。cdT品论天涯网

Jim Fan在发布会开始前,发了一个文,我觉得阐述的非常正确。cdT品论天涯网

过往的人与AI进行语音对话,其实跟人与人之间的对话还差太多太多了。cdT品论天涯网

人与人之间的实时对话,其实是充斥了无数的即时反映、打断、预测等等的,还有各种各样的语气助词的,比如嗯嗯啊啊啥的。cdT品论天涯网

而人与AI语音对话时不是这样。cdT品论天涯网

图片cdT品论天涯网

人跟AI进行语音对话,基本上都经历3步:cdT品论天涯网

1. 你说的话,AI进行语音识别,即音频转文本;cdT品论天涯网

2. 大模型拿到这段文本,进行回复,产出文本;cdT品论天涯网

3. 讲大模型的产出文本进行语音合成,变成语音,这就是TTS。cdT品论天涯网

这样的方式,有绝对逃不开的延时,现在的业界可能会压得很低,但是2秒的延时肯定是会有的,而且只有一来一回的回合制。即使你的语音音色和情绪再真实,用户也一定能感受到,对面不是人。只是机器。cdT品论天涯网

这个沉浸感是有巨大的滑坡的。cdT品论天涯网

而且最核心的是,这种转三道的方式,先把语音变成文本后,是有损的。文本上并不会保留你的语音情绪,我的生气、开心、愤怒、忧伤,全都没了。cdT品论天涯网

人与人的交谈,从来不是这样的。cdT品论天涯网

而这一次,OpenAI做到了。直接语音输入语音输出,不再需要语音到文本的转换。cdT品论天涯网

而且,不止语音,甚至,它还有了视觉。cdT品论天涯网

是的,视觉,不是传一张图上去,而是,直接打开摄像头,实时看发生了什么。cdT品论天涯网

图片cdT品论天涯网

现场直接打开了摄像头,OpenAI的人直接开始现场写数题,所有的一切ChatGPT都看在眼里,OpenAI的人一边写,ChatGPT一遍给答案。cdT品论天涯网

在做了三道题之后,OpenAI直接给它写了一个纸条,上面写着“我爱ChatGPT”。cdT品论天涯网

而ChatGPT在看到这个小纸条后,跟小女生一样害羞的尖叫了起来,那种情绪的真实,那种真情实感,你跟我说这是AI?cdT品论天涯网

《流浪地球2》中Moss的一切,正在我们面前真实的发生。cdT品论天涯网

不仅可以打开摄像头,还可以基于OpenAI新推出的Mac客户端,直接看屏幕,对着屏幕直接写代码。cdT品论天涯网

图片cdT品论天涯网

甚至,可以直接视频对话,“她”可以看到你所有的表情和情绪变化。cdT品论天涯网

图片cdT品论天涯网

这个全新版本的ChatGPT,会在几周内推出。cdT品论天涯网

写在最后cdT品论天涯网

以上就是这次OpenAI春季发布会的全部内容了。cdT品论天涯网

去年11月的OpenAI开发者大会,我在当时的总结文章中写下了一句话:cdT品论天涯网

"我消灭你,与你无关"cdT品论天涯网

上一次,OpenAI的随手更新,让无数的初创公司直接消亡在原地。cdT品论天涯网

那是一次关于产品的更新,并没有秀太多的OpenAI的肌肉。cdT品论天涯网

而2月,Sora的横空出世,秀肌肉的目的是达到了,但是这种To VC的宣发,也给OpenAI和奥特曼带来了很多的诟病。cdT品论天涯网

在这场发布会之前,无数人曾在猜测,OpenAI到底会发一些什么王炸,什么才能配得上奥特曼口中的"magic"。cdT品论天涯网

图片cdT品论天涯网

那现在,OpenAI做到了,他们用GPT-4o依然证明了,他们是AI届的王者。cdT品论天涯网

新版的ChatGPT,在我看来,这是"Moss"的诞生。cdT品论天涯网

甚至,他们还有很多新的能力,甚至没有在发布会上发出来。cdT品论天涯网

比如生成3D。cdT品论天涯网

我甚至一边看一边想:我们人类究竟该何去何从。cdT品论天涯网

不过在看完了之后,我更期待的是接下来的产品评测。cdT品论天涯网

太强了,真的让我忍不住的兴奋。cdT品论天涯网

但是最后,我一直有一个在我心中徘徊了很久疑问,就是——cdT品论天涯网

OpenAI,你们的服务器,到底什么时候才能稳定不崩啊???cdT品论天涯网

本网除标明“PLTYW原创”的文章外,其它文章均为转载或者爬虫(PBot)抓取; 本文只代表作者个人观点,不代表本站观点,仅供大家学习参考。本网站属非谋利性质,旨在传播马克思主义和共产主义历史文献和参考资料。凡刊登的著作文献侵犯了作者、译者或版权持有人权益的,可来信联系本站删除。 本站邮箱[email protected]