声明:本文来自于微信公众号 吴晓波频道(ID:wuxiaobopd),作者:巴九灵,授权站长之家转载发布。
5月14日凌晨,OpenAI2024年春季发布会上线。
这场发布会,表面看有点简陋(全程只有26分钟,现场只有几十名观众),却是科技圈公认的魔法时刻。因为OpenAI上线了一款可以跟人“谈恋爱”的大模型——GPT-4o。
GPT-4o是GPT-4的升级版,后面的o代表“omni”(全知全能)。GPT-4o能同时输入和输出文本、音频和图像信息,反应速度最短达到了232毫秒,完全可做到与人类在正常对话中同频。
腾讯新闻评价,GPT-4o的发布,使得ChatGPT进入实时互动纪元。
最近,专业人士曾对所有的大模型做了评分测试,结果发现,GPT-4o的得分高达1310,性能远超GPT-4Turbo、GPT-4、Gemini等模型,刷新业界水平。怪不得OpenAI创始人、CEO山姆·奥特曼说:“(GPT)对我来说就像魔法一样”。
在发布会上,为了展现GPT-4o的魅力,OpenAI的三位高管米拉·穆拉蒂(Mira Murati)、陈马克(Marc Chen)和巴雷特·琐法(Barret Zoph)在台上做起了演示,向观众展示了五大应用场景。
在第一个场景里,陈先生表示自己上台很紧张,然后假装喘粗气。GPT捕捉到了这个细节,就用幽默的语气安慰陈先生,“别紧张,你不是吸尘器”。然后GPT细心地指导陈先生如何做深呼吸。
在第二个场景里,陈先生要求GPT给巴雷特讲一个睡前故事。当GPT讲得正起劲的时候,Marc一次又一次地打岔,要求GPT一遍又一遍地重讲,还希望它以唱歌的语调结束故事。GPT没有抱怨也没有迟疑,而是很丝滑地完成了任务。
在第三个场景里,巴雷特希望GPT辅导自己做数学题,但不能直接说答案,而是要一步一步给出解题思路。这个任务对GPT-4o就是小菜一碟,于是巴雷特加大了任务难度,把一串源代码展现给GPT-4o看,然后要求GPT-4o用一句话描述这段代码的含义。没有一秒钟迟疑,GPT-4o就给出了巴雷特想要的答案。
最后一个场景是,米拉说意大利语,陈先生说英语,让GPT-4o做翻译。然后GPT-4o就做起了同声传译,效果非常好。
看完场景演示后,很多网友们都惊出一身冷汗。尤其是做心理医生、语文老师、数学老师、程序员和翻译员的朋友,没想到这么快AI杀到自家工位了。
5月14日,国际货币基金组织总裁表示,未来两年,对于发达经济体而言,人工智能可能会影响60%的工作岗位;而对于全球所有国家而言,人工智能可能将冲击40%的工作岗位。
当然也有乐观者表示,就算旧职业消失了,也会有新职业出现,没什么可担心的。他们关心的是ChatGPT的使用方法和价格变化。之前有人因为付费问题,放弃了ChatGPT。
所以当OpenAI技术总监米拉·穆拉蒂宣布“GPT-4o向所有人免费开放”开放时,现场响起了雷鸣的掌声。
OpenAI越风光,谷歌、微软等友商的压力就越大。就在OpenAI发布GPT-4o的24个小时后,谷歌召开了“I/O大会”,发布了类似GPT-4o的个人数字助理Pixie。本月21日,微软也将召开“Build开发者大会”,市场猜测其大概率会将OpenAI最新能力集成到自家产品线中。
而大洋彼岸的中国人,也时刻关注以OpenAI为代表的美国AI产业的发展进度。大家都想知道,国产大模型与GPT-4o的差距有多大。为此,我们咨询了几位技术专家和产业观察者,一起来听听他们的看法吧。
胡延平
FutureLabs未来实验室首席专家
我认为这次OpenAl发布会,准确来讲是一次伪装成春季update的智能交互变革,貌似一小步的一大步,可以说OpenAl将再次制造一波焦虑。
从这次发布会里,我觉得可以总结出6个信号。
1.大模型从此呆瓜变"真人”。
之前的模型,只能读文看图和迟滞感明显的语音交互,如今GPT-4o可以实现实时多模态的自然交互。
这意味着实时能看懂、能插嘴说、能思考响应,还能有各种小情绪自然交互的能力,让智能真正成为智能。也意味着,应用场景、用户基数等会被几何级放大。
2.GPT-4o的多模态自然交互能力,是GPT-5能力的选择性释放。
GPT-4o的能力,不只是包含了GPT4的后端能力+前端Chatbot聊天机器人,还有GPT-5的部分能力,说明OpenAI在控制节奏,不会也不愿意一次性把GPT-5全都放出来。
3.巨大的冲击。
一批基于GPT做语音等多模态自然交互的企业,一批基于家庭做情感陪伴的企业,一批基于机器人做具身智能交互界面的企业,他们的智能硬件底层逻辑都需要进一步重构,手机厂商中做自研模型的,也要更努力了。
助手、教育、翻译等岗位更危险了……套壳GPT或OTT的商业模式,都会被GPT-4o反手盖帽。
4.与其他模型拉开差距。
苹果的Siri呆若木鸡,Anthropic的Claude相形失色,谷歌的Gemini,能力有限……
客观而言,其它的或闭源或开源大模型,没有如此能打的。而且有了GPT-4o,估计付费用户里没几个人再愿用GPT-4。
5.GPT-4o免费使用,是典型的营销漏斗策略。
GPT-4o目前是免费可限次数使用,付费可无限使用,和之前开放免费的GPT-3.5类似,是典型的营销漏斗策略。
不过在付费层次上还没充分拉开梯度,估计需求量较大的非开发者和非企业用户,在使用GPT-4o时会更频繁地遭遇更严重的受限情况。
6.移动终端的生产力爆发力,将不输AI PC等生产力场景。
要重新理解摄像头、机器视觉和听觉了。未来手机等移动终端和碎片场景下的应用生产爆发力,将不输AI PC等生产力场景,甚至移动终端会率先引爆,走在最前面,这意味着,未来涉及到的改变不只是几亿用户,而是几十亿用户。
目前GPT的竞品,在一些基准测试成绩如何接近GPT-4,会是竞争维度之一,假设OpenAl手里还藏着未打出来的牌,那么接下来竞争的维度可能会有好几个,竞争对手短时间不会那么容易追赶上。
张孝荣
深度科技研究院院长
OpenAI发布的GPT-4o模型在过去的基础上,又往前迈了一大步。
简单来说,在技术层面,他们提升了机器的理解能力,反应速度和交互水平,提升了系统安全性和性价比
技术突破主要体现在5个方面:
1.多模态理解与生成:GPT-4o能够处理文本、音频和图像的任意组合输入,并生成相应的输出,且视觉能力得到了提升,能够快速回答有关图片或桌面屏幕的问题,这在图像识别和理解方面是一大突破。
2.实时推理响应:GPT-4o在音频输入的平均响应时间为320毫秒,最短响应时间为232毫秒,与人类的响应时间相似。
3.语音交互能力:GPT-4o能进行自然的对话,并且能模拟不同的情感表达,如兴奋、友好甚至讽刺,使得语音交互更加自然和人性化。同时,GPT-4o支持多达50种语言,并显著提高了非英语语言的性能,这意味着模型具有更广泛的应用范围。
4.增强安全性:GPT-4o在设计中内置了跨模式的安全性,并创建了新的安全系统,为语音输出提供护栏,这表明模型安全性更高了。
5.性能提升与成本降低:与GPT-4Turbo相比,GPT-4o的速度提高了2倍,价格降低了一半,速率限制提高了5倍,这在提效降本方面是重大进步。
目前GPT-4o在文本、推理、编码等方面实现了与GPT-4Turbo相当的性能,同时在多语言、音频和视觉功能方面创下了新高,但还有待进一步测评,才能判断是否是业界性能最强的模型。
现在GPT-4o对所有用户免费开放,具有两重意义。
◎第一重是行业意义。
这意味着更广泛的用户群体可以接触到这一先进的AI技术,从而推动技术的普及和应用,而且可以激励开发者和企业探索新的应用场景。
当然免费提供模型,也是OpenAI扩大市场份额和影响力的一种策略,可以获取更多用户,用户的引入,会生产大量数据,从而扩大OpenAI自身数据训练范围,进一步提升模型精准度。
◎第二重是用户意义。
普通人可以更方便地利用AI技术解决问题。在多语言支持、音频和视觉理解方面的改进,使得普通人可以在更多场景下使用GPT-4o,比如语言学习、内容创作、编程辅助、教育辅导、日常任务处理和娱乐互动。
相比以往模型,GPT-4o新增了实时语音对话和图像识别功能。用户在使用这些功能的时候,体验也会更好一些。
接下来,GPT-4o可能替代的岗位,主要在数据处理和语言交互方面,比如客服、翻译、内容审核和数据录入等工作。
这次GPT-4o的发布,意味着美国在AI发展方向上,又前进了一步,不过AI技术成熟度依然有待提升。
张津京
BT财经创始人
这次OpenAI发布的GPT-4o,更多是进行商业化的探索,技术上并没有太先进。
因为GPT-4o基本上就是一个对话大模型,本质是将文字对话变成语音,中间加上了一部分联想,相当于把Sora对于自然语言的处理算法结合进来了,但是这部分算法结合的能力也不会太强,在使用过程中,GPT-4o的错误率也很高。
GPT-4o,底层算法还是GPT-4,而且是能力上降了级的GPT-4,但超过了GPT-3.5,相当于OpenAI把GPT-4做成了不同层级的应用。
之所以这样分层,是因为OpenAI在针对不付费、也不注册的客户,以此在免费人群里拓展,成本会受限。
而OpenAI的更深层次目的,是想不断地探索GPT商业化的前景。
目前OpenAI的商业逻辑越来越清晰了。不仅开放了GPT-4不注册也可使用的限制,而且把GPT-4的能力降级,变得更加偏功能化,这样就能在不同的应用上打造不同的模型,并形成不同的细分收费赛道,从而建立起整个商业模式。
不过OpenAI的规划虽然有一定的操作性,但能不能把GPT作为真正的必需品让大家付费,能不能持久下去,而不是用户因为觉得有意思,付一段时间后又不付了,一切都还未定。
目前来看,这种对话式大模型到底有多强的生命力,也无法确定。
OpenAI依然还是在互联网思维下做大模型产品,而我们的大模型是在不断地接近生产生活的一线,让更多的一些超乎想象的东西诞生出来。
这也是大模型现在的两个方向。
【查看完整讨论话题】 | 【用户登录】 | 【用户注册】