人工智能

上手了刷屏一天的GPT-4o 我感觉目前也就那样

字号+作者: 来源:差评 2024-05-15 01:26 评论(创建话题) 收藏成功收藏本文

没有所谓的AI搜索引擎,也没有炸裂的GPT-5,但OpenAI还是让大伙儿感受到了,什么叫做“OnlyOpenAICanDo”。就在今天凌晨,OpenAI的春季发布会终于是来了。他们'...

没有所谓的AI搜索引擎,也没有炸裂的GPT-5,但OpenAI还是让大伙儿感受到了,什么叫做“OnlyOpenAICanDo”。就在今天凌晨,OpenAI的春季发布会终于是来了。ewF品论天涯网


ewF品论天涯网

他们也没多讲几句废话,整场发布会就二十来分钟,其中,最重磅的无异于GPT-4o新模型的发布。ewF品论天涯网

关于GPT-4o起名的缘由,OpenAI官方是这么解释的:“o“的全称是“omni”,也就是“全能”的意思。ewF品论天涯网

之所以说它全能,是因为它能把文本、视觉、音频全打通了。换句话说,你跟GPT-4o对话就跟真人似的。ewF品论天涯网

最重要的是,GPT-4o是免费向用户开放的,不开Plus会员也能用,只不过Plus会员要多一些使用次数。ewF品论天涯网

反正跟世超一起蹲守直播的同事们看了,都直呼想要……ewF品论天涯网


ewF品论天涯网

就连奥特曼也在Twitter上毫不避讳地,把GPT-4o跟科幻电影《Her》联系起来。(这部电影讲的是人和AI语音助理谈恋爱的故事)ewF品论天涯网


ewF品论天涯网

评论区的网友们也纷纷表示“见证历史”“电影终于要照进现实了”,甚至还用奥特曼的照片,整出来了个“him”。ewF品论天涯网


ewF品论天涯网

玩笑归玩笑,但世超觉得,OpenAI这次GPT-4o的现场演示效果,特别是实时语音和视频交互的能力,确实甩了其他现役大模型好几个车尾灯ewF品论天涯网

不过光这么说,大伙儿对GPT-4o的感受可能也不深,咱直接来看演示。ewF品论天涯网

像演示人员让GPT-4o从一数到十,中途就嫌它语速太慢了,让它说快点儿,GPT-4o能立马反应过来,后续随时插话它都能瞬间get到。ewF品论天涯网

就这一个接一个的连续对话实力,说实话世超还没在AI身上体验过。ewF品论天涯网

给GPT-4o一个麦克风和摄像头权限,它能分分钟化身成面试指导官,比方视频里的这个老哥,说自己要去OpenAI面试,让GPT-4o给点着装建议。ewF品论天涯网

它迅速“打量”了下这位老哥,礼貌不失幽默地给出了“抓个头发”的中肯建议。但老哥打算走个不听劝的人设,顺手拿出个帽子,问能不能戴它去面试。ewF品论天涯网

GPT-4o这边反应贼快,识破了老哥明知故问地恶作剧,顺着他的话茬说,也不是不行,最起码能让你在人群中脱颖而出。ewF品论天涯网

如果不给世超看演示画面,光听声音我可能会以为,这就是两个朋友之间在开玩笑。ewF品论天涯网

当然,以GPT-4o的知识储备和多模态能力,它也有相当正儿八经的应用场景ewF品论天涯网

一扭头,就能直接化身成视障人士的眼睛,帮他们识别所在的位置,要是想知道眼前都有啥场景,GPT-4o也能够绘声绘色地描绘出来,甚至还能一步一步指导视障人士打车。ewF品论天涯网

再摇身一变,GPT-4o还能化身成数学老师,把屏幕的权限开放给它,它能一步步指导你做题,你在题目上写了啥画了啥GPT-4o也都能看得一清二楚。ewF品论天涯网

有一说一,这跟世超上中学时爸妈请的家教没啥两样……ewF品论天涯网

看完官方的案例视频,相信大伙儿跟世超一样,已经被震撼得没边儿了。ewF品论天涯网

而为了做到这些,OpenAI在底层的模型上可是下了不少苦功。ewF品论天涯网

之前咱们用ChatGPT的语音对话,都是一轮一轮的来。它得先把咱说的话转换成文字输给GPT-4,等GPT-4生成文字答案之后,才能再转成语音输出。ewF品论天涯网

也就是说,以前和ChatGPT语音对个话,它得动用三个模型,一个管音频转文本,一个GPT-4管文本转文本,另外还有一个管文本转音频。ewF品论天涯网

一整套流程下来,耐心都快给磨没了,而且中间除非咱们手动暂停,否则根本没插话的机会。ewF品论天涯网


ewF品论天涯网

但GPT-4o不一样,它是一个原生的多模态模型,无论文字音频,还是视频啥的,所有的输入和输出都在同一个神经网络里处理ewF品论天涯网

这种打娘胎里自带多模态的特性,让GPT-4o能够听懂好赖话,表达自己的情绪,和它对话也能像吃了德芙一样丝滑。ewF品论天涯网

不过,上面那些视频终归还是“PPT”,没到手实测一波,世超也不敢轻易下定论这玩意儿是不是真的有这么强。毕竟前段时间,Sora生成的《气球人》短片才被传出加了大量的人类后期。ewF品论天涯网

而在实际用这块,OpenAI还是一如既往的狗,嘴上说GPT-4o都能免费用,但也要分先来后到,而且功能也慢慢开放ewF品论天涯网

现在能用上GPT-4o的只有Plus账号,而且最重磅的实时视频和语音功能,毛都看不着。ewF品论天涯网


ewF品论天涯网

但有总归比没有强,世超手边恰好也有个Plus账号,而且官方也说了,GPT-4o生成的速度还会比GPT-4快上两倍ewF品论天涯网

所以咱这波,就先提前给差友们试试GPT-4o的实力。ewF品论天涯网

先让它给咱讲一个童话故事,顺便再画出整个故事的分镜图。GPT-4o没犹豫几秒,库吃库吃就开始写了。ewF品论天涯网


ewF品论天涯网

写完中间也没带停顿,直接开始画分镜了。ewF品论天涯网


ewF品论天涯网

而同样的问题再抛给GPT-4,它一开始就得磨蹭半天在问题上……ewF品论天涯网


ewF品论天涯网

讲清楚要求后才肯继续写,而且写完之后也不继续画分镜图,还得等世超我再亲自强调一波。ewF品论天涯网


ewF品论天涯网


ewF品论天涯网

不过虽然GPT-4比GPT-4o墨迹了不少,但从内容来看,我还是会觉得GPT-4会更丰富一点ewF品论天涯网

再借我司老员工火锅的照片一用,分别让GPT-4和GPT-4o生成一张像素风的图片。ewF品论天涯网


ewF品论天涯网

在生成速度上GPT-4o完胜,但要抠细节的话两个就半斤八两了。ewF品论天涯网

GPT-4识别出了火锅嘴里叼着的是袋子,GPT-4o多识别出了一只拖鞋,非要比的话,其实GPT-4的金毛更像火锅一些……ewF品论天涯网

(左边GPT-4,右边GPT-4o)ewF品论天涯网


ewF品论天涯网

接着,我又让GPT-4o把咱差评的LOGO换成3D图片,结果它整出来字,翻遍整本新华字典,估计都找不到。ewF品论天涯网


ewF品论天涯网

但不识汉字也是历代ChatGPT的老毛病了,换成英文再要求它,你别说,这次出来的整体效果还可以,就是经不起细看,不少英文拼写都是错的。。ewF品论天涯网


ewF品论天涯网

整个上手试下来,GPT-4o给我最大的印象就是快,非常快ewF品论天涯网

但说实话,除了快,世超真没觉得有啥特别的了,与其说GPT-4o是GPT-4的智商进化版,倒不如说是把GPT-4的交互能力单拎出来强化了一波。ewF品论天涯网

就像奥特曼在博客里提到的,“达到人类响应时间和表达水平”是AI的巨大变化。大模型的终极形态,也应该是让人和AI的交流回归到最原始、最简单的形态。ewF品论天涯网

在未来,咱们面对一台电脑、一部手机,直接说话交流,就是最主要的交互方式。ewF品论天涯网


ewF品论天涯网

不过这次GPT-4o最厉害的杀手锏:视频交流功能,还没放出来,等到时候咱能体验到了再下结论也不迟。ewF品论天涯网

另外,网友们也没干坐着,也在各种研究GPT-4o的,结果,却扒出了一些番外的料……ewF品论天涯网

也不知道GPT-4o的中文语料库是哪儿来的,里面有不少的钓鱼网站的违禁词,像什么“日本x片免费视频”这类的。ewF品论天涯网


ewF品论天涯网

给人老外都整无语了。。ewF品论天涯网


ewF品论天涯网

像这样的乐子,以后指不定还要冒出来不少。但言归正传,GPT-4o的出现确实又给AI开了个新副本ewF品论天涯网

按照之前ChatGPT问世之后,其他友商步步紧逼的尿性。世超盲猜,在GPT-4o之后,类似的“Claude-o”“Gemini-o”应该很快就会出现。ewF品论天涯网

刚好明天就是Google的I/O了,咱们也浅浅期待一手好吧。ewF品论天涯网

本网除标明“PLTYW原创”的文章外,其它文章均为转载或者爬虫(PBot)抓取; 本文只代表作者个人观点,不代表本站观点,仅供大家学习参考。本网站属非谋利性质,旨在传播马克思主义和共产主义历史文献和参考资料。凡刊登的著作文献侵犯了作者、译者或版权持有人权益的,可来信联系本站删除。 本站邮箱[email protected]