人工智能

仅仅一天,Gemini就夺回了GPT-4o拿走的头名

字号+作者:机器之心 来源:机器之心 2024-11-22 16:24 评论(创建话题) 收藏成功收藏本文

一周前,谷歌的Gemini-Exp-1114模型取代GPT-4o,坐上了Arena榜单的头把交椅。对于苦苦追赶OpenAI几个月的谷歌来说,这次在基准测试上的胜利十分振奋人心。可'...

一周前,谷歌的Gemini-Exp-1114模型取代GPT-4o,坐上了Arena榜单的头把交椅。对于苦苦追赶OpenAI几个月的谷歌来说,这次在基准测试上的胜利十分振奋人心。可惜振奋的时间不长:昨天,GPT-4o一个更新,把第一名的位置抢回来了。LI8品论天涯网



LI8品论天涯网



LI8品论天涯网

奥特曼庆功的话音刚落,Gemini-Exp-1121杀出来,又把第一名抢走了。LI8品论天涯网



LI8品论天涯网

谷歌工程师还顺带嘲讽了一波:LI8品论天涯网



LI8品论天涯网

位次的变化实在太快,让人有点恍惚了。难道接下来,大模型迭代要以「周」为单位了吗?LI8品论天涯网



LI8品论天涯网

狂卷基准测试,真有意义吗?LI8品论天涯网

有人猜测,莫非这就是谷歌逐渐过渡到Gemini2的发布方式?但这种可能性不大,因为最近的两个模型版本都还达不到「次世代」的水准。再加上又有传言,各家在训练阶段的ScalingLaw上都遇到了一些瓶颈,提升模型能力的希望更多转向了后训练阶段。我们最终看到的下一代大模型,或许和目前的技术路线大不相同。LI8品论天涯网



LI8品论天涯网

目前,Gemini-Exp-1114和Gemini-Exp-1121在GoogleAIStudio上均为可用状态:LI8品论天涯网



LI8品论天涯网

从官方发布的介绍来看,Gemini-Exp-1114的亮点主要在于质量改进,而最新的Gemini-Exp-1121重点改进了编码、推理和视觉能力。LI8品论天涯网



LI8品论天涯网

这场争夺战的出现,却引出了另外一个角度的话题:当前的人工智能基准测试方法可能大大简化了模型评估。LI8品论天涯网

就比如一周前,当研究人员控制了响应格式和长度等表面因素时,Gemini-Exp-1114的表现下降到第四位,因为传统指标可能会夸大感知能力。LI8品论天涯网

这种差异揭示了人工智能评估中的一个根本问题:模型可以通过优化表面特征而不是展示推理或可靠性的真正改进来获得高分。对定量基准的关注引发了一场争夺更高分数的竞赛,行业对排行榜的依赖也会催生一些不良激励方式,而这些都无关于人工智能的真正进步。LI8品论天涯网

各个厂商针对特定测试场景优化模型,同时可能忽略安全性、可靠性和实用性等更广泛的问题。这种方法产生的AI系统擅长完成狭隘的预定任务,但在处理细微的现实世界互动时却举步维艰。LI8品论天涯网

比如有人就发现在LiveBench上,一周后更新的Gemini-Exp-1121版本,在数学和推理能力上反而比不上Gemini-Exp-1114,令人疑惑。LI8品论天涯网



LI8品论天涯网

厂商之间为获得更高的基准分数而展开的竞争并不会停止,但真正的竞争可能在于如何开发全新的框架来评估和确保人工智能系统的安全性和可靠性。LI8品论天涯网

OpenAI考虑用浏览器挑战谷歌霸主地位LI8品论天涯网

谷歌和OpenAI不仅在大模型领域有点针锋相对,在浏览器方面,OpenAI正在加紧追赶。LI8品论天涯网



LI8品论天涯网

当谷歌Chrome浏览器深陷反垄断之际,OpenAI出手了。LI8品论天涯网

据《Information》周四报道,OpenAI最近考虑开发一款可与其ChatGPT聊天机器人集成的web浏览器,并推出了NLWeb(NaturalLanguageWeb)搜索技术,以增强对旅游、食品、房地产和零售等行业的搜索。LI8品论天涯网

报道还称,OpenAI已与CondeNast、Redfin、Eventbrite和Priceline等网站和应用程序开发商讨论过这款搜索产品。LI8品论天涯网

据知情人士透漏,为了达到这一目标,OpenAI聘请了谷歌Chrome团队创始成员BenGoodger以及其他前Chrome关键开发人员进行研发,展现了OpenAI对开发浏览器浓厚的兴趣。LI8品论天涯网



LI8品论天涯网

领英资料显示,此前BenGoodger是Chrome团队的创始成员,今年6月加入OpenAILI8品论天涯网

这一系列举措可能会让OpenAI与占据浏览器和搜索市场最大份额的谷歌展开竞争。此前,OpenAI已经通过SearchGPT进入搜索市场。LI8品论天涯网

报道还称,OpenAI讨论了为三星制造的设备提供人工智能功能,而三星是谷歌的主要商业合作伙伴。LI8品论天涯网

此前,OpenAI已经与苹果建立了合作伙伴关系,AppleIntelligence功能现已使用OpenAI的技术。LI8品论天涯网

不过,目前尚不清楚OpenAI何时会推出浏览器,《Information》报道称,OpenAI距离推出浏览器还差得很远。LI8品论天涯网

如今看来,谷歌不仅面临来自OpenAI的压力,在美国司法部认为谷歌应该出售其Chrome浏览器以结束其在在线搜索领域的垄断地位后,谷歌在浏览器市场的主导地位变得岌岌可危。LI8品论天涯网

如果OpenAI成功推出新的浏览器,它将成为谷歌最大的竞争对手。LI8品论天涯网

吃瓜网友们也是纷纷看好OpenAI,表示道「OpenAI是非常有潜力开发出一款非常棒的浏览器的,因为他们现在已经有了搜索功能。」LI8品论天涯网



LI8品论天涯网

不过也有网友并不看好:「就我个人而言,浏览器对我已经没什么用了,因为我现在只需向聊天机器人提问,就能立即得到答案,而且无需广告或尝试多个页面。」LI8品论天涯网



LI8品论天涯网

还有人用一个故事表达了自己的观点:「NicholasNegroponte曾经讨论过超级计算机的应用,并讲述了一个关于他们展示科学计算器应用的故事。所有的投资者都非常生气——『我们花费了数百万美元,而你们所做的只是重新创建了计算器?我们已经有计算器了!』如果OpenAI开发一款浏览器,我认为可能会发生同样的事情。」LI8品论天涯网



LI8品论天涯网

我们暂且不管OpenAI何时推出浏览器,单就最近几天这两家机构在模型更新速度上,就已经相当激烈了,OpenAI正面刚谷歌还会继续。LI8品论天涯网

https://www.theinformation.com/articles/openai-considers-taking-on-google-with-browserLI8品论天涯网

https://x.com/btibor91/status/1859716045004734739LI8品论天涯网

本网除标明“PLTYW原创”的文章外,其它文章均为转载或者爬虫(PBot)抓取; 本文只代表作者个人观点,不代表本站观点,仅供大家学习参考。本网站属非谋利性质,旨在传播马克思主义和共产主义历史文献和参考资料。凡刊登的著作文献侵犯了作者、译者或版权持有人权益的,可来信联系本站删除。 本站邮箱[email protected]