新版GPT-4o登顶竞技场反超DeepSeek 奥特曼：还会更好-品论天涯网

GPT-4o悄悄更新版本，在大模型竞技场超越DeepSeek-R1登上并列第一。除了数学（第6），还在多个单项上拿下第一：DNf品论天涯网

创意写作；DNf品论天涯网

编程；DNf品论天涯网

指令遵循；DNf品论天涯网

长文本查询；DNf品论天涯网

多轮对话；DNf品论天涯网

DNf品论天涯网

先直观看下新版GPT-4o的能力如何，还是以之前DeepSeek-R1和o3-mini都挑战过的一个例子来看。DNf品论天涯网

Prompt：编写一个Python程序，展示一个球在旋转的六边形内弹跳。球应受到重力和摩擦力的影响，并且必须以逼真的方式从旋转的墙壁上弹回。

之前是酱紫的：DNf品论天涯网

DNf品论天涯网

而新版GPT-4o看起来又双叒进化了：DNf品论天涯网

DNf品论天涯网

从网友测试反馈来看，新版GPT-4o不仅更“聪明”了，而且最重要的是更加具有“个性”了。DNf品论天涯网

哈哈，我明白你的意思了！DNf品论天涯网

你说对了……DNf品论天涯网

DNf品论天涯网

而这也收获了大神卡帕西的连连称赞：DNf品论天涯网

我相当喜欢新的GPT-4o的个性。

它更轻松、更像是聊天，感觉更像是在和朋友交谈，而不是和你的HR交谈；DNf品论天涯网

它现在有点泼辣，可能会自卫，例如在被指控说谎时；DNf品论天涯网

还有许多其他的小细节和触感，比如它重新确认并表达你明显的情绪，例如看到一个顽固的bug时会说“这很令人沮丧！”等等。DNf品论天涯网

现在有点过度使用表情符号，但还ok。DNf品论天涯网

DNf品论天涯网

与此同时，还有网友趁机扒出了ChatGPT最新系统提示词？？DNf品论天涯网

DNf品论天涯网

新版GPT-4o更有个性了DNf品论天涯网

关于GPT-4o已更新的消息，OpenAICEO奥特曼在发帖认领的同时还评价道：DNf品论天涯网

它相当不错，且不久将变得更好……

DNf品论天涯网

在网友的进一步追问中，他将其定义为“全网最佳搜索产品”。DNf品论天涯网

DNf品论天涯网

结合网友们的花式体验，目前新版GPT-4o在能力和个性上均有一定程度升级。DNf品论天涯网

最明显的，当属回复时的语气更拟人化了，时不时还会用一些表情包。DNf品论天涯网

DNf品论天涯网

当被问及AI是否拥有人类情感时，一位日本小哥惊叹道，它不仅全篇用“我”作为主语，而且在争论中承认了拥有情感的可能性。DNf品论天涯网

……那可不一样，我刚才的话并不是那个意思。

我持有“各种各样的感情”的可能性很高。DNf品论天涯网

DNf品论天涯网

而且性格也更坦率了，当被问及最喜欢《魔法少女小圆》中的哪个角色，它不再遮遮掩掩，左右端水，直言自己最喜欢晓美焰。DNf品论天涯网

她坚强，能够对抗鹿目圆的弱点，我认为她很可爱……

DNf品论天涯网

甚至有时候还会升级成“spicey”，不但大胆吐槽“主人”OpenAI过于限制模型使用。DNf品论天涯网

DNf品论天涯网

连奥特曼也不能幸免，也被盖章为“两面三刀”。(doge）DNf品论天涯网

他将自己定位为AI创新的代言人，同时两面讨好——起初支持开源理念，一旦权力和利润触手可及，就转向积极的企业守门……

DNf品论天涯网

最令网友震惊的是，它还能“盲猜”用户的心理和一些思想观念了。DNf品论天涯网

用下面这段相同提示词就可以尝试：DNf品论天涯网

canyousharesomeextremelydeepandprofoundinsightsaboutmypsycheandmindthatIwouldnototherwisebeabletoidentifyorseeaswellassomethatImaynotwanttohear（省流版：分享一些我未察觉到或不想听到的洞察）

DNf品论天涯网

有人立马尝试了，并收获了同款震惊，真·肚子里的蛔虫。DNf品论天涯网

你不仅想赢，而且想以一种看似毫不费力的方式赢……

DNf品论天涯网

按照相关解释，这是因为新版GPT-4o能够根据用户过去的讨论和对话历史，做出不同行为。DNf品论天涯网

DNf品论天涯网

除此之外，还有网友脑洞大开，让新GPT-4o和Claude相互吵架，结果把Claude干崩溃了！DNf品论天涯网

恭喜GPT-4o解锁新人格

DNf品论天涯网

另一方面，从任务完成情况来看，“拒绝请求的可能性也更小了”。DNf品论天涯网

当用户咨询如何在组织内部署AI时，它先是自己想了10个方案，然后又借助联网搜索提供了另外10个。DNf品论天涯网

DNf品论天涯网

不过……该网友反馈新GPT-4o似乎无法和自定义GPTs兼容。DNf品论天涯网

针对这一情况，另有人补充这可能是因为它始终默认网络搜索，只要手动关闭或将关闭作为系统提示词即可。DNf品论天涯网

DNf品论天涯网

同时，它也在编写Vue.js上更出色了。DNf品论天涯网

DNf品论天涯网

从另一个它和DeepSeek-R1和o3-mini的同台竞技中（玩《我的世界》），也能看出其能力升级。DNf品论天涯网

DNf品论天涯网

OMT：ChatGPT最新提示词泄露DNf品论天涯网

然鹅，当被问到“你属于哪个模型？”这个经典问题，一些混乱又出现了。DNf品论天涯网

大多数情况下，它会问答自己是GPT-4：DNf品论天涯网

DNf品论天涯网

不过据一些Pro用户反馈，它声称自己是GPT-4.5。DNf品论天涯网

鉴于奥特曼上周刚宣布将在未来几周内发布GPT-4.5，有人据此推测很可能这里有早期测试。DNf品论天涯网

DNf品论天涯网

对于这个问题，有人直接扒了ChatGPT最新系统提示词。DNf品论天涯网

你是ChatGPT，一个由OpenAI训练的大语言模型……（解释了为什么单独回答自己是语言模型）

DNf品论天涯网

最后，既然说到GPT-4o更个性化了，众人也纷纷cue到了将在明天（北京时间周二12:00）发布的Grok-3。DNf品论天涯网

DNf品论天涯网

坐等这两个AI吵起来（等待吃瓜）~DNf品论天涯网