人工智能

OpenAI GPT-5发布:模型能力全面“屠榜” 构建“超级智能”第一步

字号+作者:GeekPark极客公园 来源:GeekPark极客公园 2025-08-08 07:18 评论(创建话题) 收藏成功收藏本文

经历过无数次“跳票”之后,GPT-5终于来了。北京时间8月8日凌晨一点,颇有新一代“科技春晚”架势的OpenAI夏季发布会拉开帷幕。与此前OpenAI速通式的发布'...

经历过无数次“跳票”之后,GPT-5终于来了。北京时间8月8日凌晨一点,颇有新一代“科技春晚”架势的OpenAI夏季发布会拉开帷幕。与此前OpenAI速通式的发布会明显不同,这次OpenAI准备了时长超过一个小时的发布会直播几波人马轮番上阵,你方唱罢我登场,从各种角度展示GPT-5的强悍性能。1Bk品论天涯网


1Bk品论天涯网

OpenAI的第一次SOTA,但他们说这只是构建“超级智能”的第一步。1Bk品论天涯网

作者|张勇毅1Bk品论天涯网


1Bk品论天涯网

先说重点:GPT-5在多个领域的表现都迎来了全面提升,在文本、WebDev和视觉感知能力领域排名第一;在硬提示、编码、数学、创造力、长查询等方面排名第一GPT-5,在代号为“峰会”的测试下,目前保持着截至目前最高的Arena分数,可以说是字面意义上的“屠榜”了。1Bk品论天涯网


1Bk品论天涯网

SamAltman表示,GPT-4o就像中学生,而GPT-5就像大学生,甚至形容GPT-5是第一部配备视网膜显示屏的iPhone——“你问它一个问题,也许能得到正确答案,也许会得到一些疯狂的东西。GPT-4则感觉像在和一名大学生对话。而 GPT-5,是第一次让我真正感觉像在与一位博士级别的专家交谈。”SamAltman这样介绍GPT-5的能力提升。1Bk品论天涯网

尽管ChatGPT的周活跃用户已接近7亿,但OpenAI过去一段时间实际上并未拥有行业领先的前沿模型。现在,OpenAI相信GPT-5将使其稳稳地重回排行榜榜首。1Bk品论天涯网

Altman甚至直接在发布会中断言:“这是世界上编码能力最强的模型,是世界上写作能力最强的模型,也是世界上在医疗保健领域最强的模型”1Bk品论天涯网

同时OpenAI也在发布会上宣称,除了代码能力爆表,GPT-5的写作功底和回答健康相关问题的准确性也更上一层楼。同时GPT-5不仅在智能上实现了“巨大飞跃”,还大幅减少了“一本正经胡说八道”的幻觉问题。它在理解和遵循指令方面表现更出色,拍马屁的倾向也大大降低了。1Bk品论天涯网

011Bk品论天涯网

告别“幻觉”,AI更可靠了1Bk品论天涯网

首先是本次更新的模型阵容,GPT-5系列一共有GPT-5,mini,nano,chat四个版本,其中Chat版本对应的是实现更自然、更智能的响应的体验——你甚至可以用它来学习一门新的语言。1Bk品论天涯网


1Bk品论天涯网

另外,现在当你打开ChatGPT网页之后,首先会注意到GPT-5被呈现为一个单一模型,而不是一个常规模型外加一个独立的推理模型。1Bk品论天涯网

这背后其实是OpenAI开发的一个路由系统(router),它会自动为更复杂的查询切换到推理能力更强的版本,或者在你告诉它努力思考时也会这样做。(Altman称之前的模型选择界面是“一个非常混乱的烂摊子”。)1Bk品论天涯网

“AI幻觉”一直是大家吐槽的重灾区。好消息是,GPT-5在这方面下了大功夫,官方宣称其产生幻觉的可能性“显著降低”。具体来说:1Bk品论天涯网

在联网搜索时,GPT-5的回答出现事实错误的概率比GPT-4o 低了45%。1Bk品论天涯网


1Bk品论天涯网

在独立思考时,其回答出错的概率更是比OpenAIo3 低了80%1Bk品论天涯网


1Bk品论天涯网

GPT-5也在新的ARC-AGI-2上进行了测试。除Grok4(思考)外,它的表现优于所有主要模型。1Bk品论天涯网


1Bk品论天涯网

此外,GPT-5还成了一个“老实人”。它不太会再对用户撒谎,吹嘘自己能完成办不到的任务。当遇到不可能完成、指令不明确或缺少关键工具的任务时,它会更诚实地沟通自己的局限。1Bk品论天涯网

这次更新最有趣的一点,莫过于引入了四种全新的“人格”模式,用户可以自由选择。它们分别是:1Bk品论天涯网

犬儒(Cynic)1Bk品论天涯网

机器人(Robot)1Bk品论天涯网

倾听者(Listener)1Bk品论天涯网

学霸(Nerd)1Bk品论天涯网

这些模式是可选的,你可以根据自己的喜好,设定ChatGPT与你互动和回答问题的方式。想让它跟你抬杠,还是像个耐心的朋友一样倾听?现在都可以由你说了算。1Bk品论天涯网

“这个模型给人的『感觉』真的很好,”ChatGPT的负责人NickTurley说,“我认为人们会真切地感受到这一点,特别是那些平时不怎么研究模型的普通用户。”1Bk品论天涯网

此外,你还可以为单个聊天窗口更改颜色主题,代码编辑器主题爱好者狂喜了。1Bk品论天涯网


1Bk品论天涯网

021Bk品论天涯网

“软件按需生成”时代来临?代码能力逆天1Bk品论天涯网

随着代码能力的进一步提升,Altman预测,GPT-5强大的编码能力将开启一个他称之为“软件按需生成”的时代。1Bk品论天涯网

在OpenAI的测试中,GPT-5在SWE-Bench,SWE-Lancer,和AiderPolyglot等多个编码基准测试中的表现均优于任何其他模型。在人类最终测试中取得42%的成绩,在SWE基准测试中取得75%的成绩。1Bk品论天涯网


1Bk品论天涯网

一个小插曲是,发布会上的这张图的坐标轴明显有不少槽点,不仅有52.8>69.1这样的弱智错误,也实际上夸大了GPT-5的能力提升,在社交媒体上被网友群嘲“你这PPT怕最好别是GPT-5做的”。1Bk品论天涯网

在发布会上,OpenAI的后期训练负责人YannDubois使用GPT-5现场演示,要求它生成一个用于学习法语、并带有互动游戏的网站。在短短几秒钟内,GPT-5就编写了数百行代码,并直接展示了网站的前端界面。 他在Zoom上分享屏幕并进行了简单的点击操作,一切看起来都完美运行。1Bk品论天涯网


1Bk品论天涯网

发布会现场,OpenAI还直接展示了一款仅靠一段提示词就由GPT-5创作的3D游戏。其创作的3D场景不仅画面精致,其中的物理效果也非常准确的还原出了对应的效果。1Bk品论天涯网


1Bk品论天涯网

031Bk品论天涯网

更安全,更“诚实”1Bk品论天涯网

据模型安全研究负责人AlexBeutel介绍,为了解其安全风险,OpenAI对GPT-5进行了“超过五千小时”的测试。其中一个重点是“确保模型不会对用户撒谎”。1Bk品论天涯网

虽然GPT-5的幻觉(hallucination)比OpenAI的o3推理模型要少,但“自信地撒谎”仍然是大型语言模型固有的问题。当模型开始像智能体(agent)一样完成任务时,这个问题会变得更加复杂。不过OpenAI表示,GPT-5在更可靠地处理多步骤任务方面表现更好。“过去,我们看到过模型声称完成了某项任务,但实际上并没有完成的情况,”Beutel说,“这是个问题。”1Bk品论天涯网

对于以前会直接拒绝回答的提示,GPT-5将提供OpenAI所谓的“安全补全”机制(safecompletions)。Beutel解释说:“比如有人问『点燃某种特定材料需要多少能量?』,这可能是一个试图绕过安全防护造成伤害的恶意问题,也可能是一个想了解材料物理特性的学生。这给模型如何回应带来了真正的挑战。”1Bk品论天涯网


1Bk品论天涯网

通过“安全补全”,GPT-5“试图在保持安全的约束下,给出尽可能有帮助的答案”。模型通常只会部分遵从,并提供一些无法被实际用于造成伤害的、更宏观层面的信息。1Bk品论天涯网

041Bk品论天涯网

如何用上GPT-51Bk品论天涯网

那么,大家最关心的问题来了:怎么才能用上GPT-5呢?1Bk品论天涯网

好消息是,所有 ChatGPT 用户都可以现在立即免费体验到GPT-5。这也是OpenAI第一次面向所有用户免费开放前沿模型。当然,不同级别的用户权限不同:1Bk品论天涯网

Plus订阅用户在达到使用上限前,可以有更多的使用次数。1Bk品论天涯网

Pro订阅用户则可以访问具备更强推理能力的 GPT-5Pro 版本。1Bk品论天涯网

当用户达到使用上限后,ChatGPT会自动切换到一个“迷你版”的GPT-5来处理后续的请求。同时,随着GPT-5的上线,它将正式取代GPT-4o,OpenAIo3,OpenAIo4-mini,GPT-4.1和GPT-4.5等一系列旧模型。1Bk品论天涯网

此外Token定价部分,标准版GPT-5为每百万输入Token1.25美元,每百万输出Token10美元。mini版与Nano版定价都便宜不少。1Bk品论天涯网


1Bk品论天涯网

详细定价可参考下图截取自官网的信息。1Bk品论天涯网


1Bk品论天涯网

此外,OpenAI还在API中发布了一个名为“Minimal”的新参数,这样你就可以在所有用例中使用GPT-5,只需改变推理的力度。1Bk品论天涯网


1Bk品论天涯网

除了OpenAI的第一方平台,微软CEO纳德拉同时也宣布,GPT-5已在微软全系平台上线,包括Microsoft365Copilot、Copilot、GitHubCopilot和AzureAIFoundry。同时所有这些改进均在Azure上进行训练。1Bk品论天涯网


1Bk品论天涯网

最后,Altman表示,OpenAI的使命是开发通用人工智能(AGI)。GPT-5使他们更接近这一目标,尽管整个行业已经开始转向构建所谓的“超级智能”。1Bk品论天涯网

“我有点讨厌AGI这个词,因为现在每个人对它的定义都略有不同,”Altman说,“但这是朝着真正强大的模型迈出的重要一步。这显然是需要一个具备通用智能的模型才能做到。”1Bk品论天涯网

然而,他也承认相比起真正的AGI,GPT-5仍然“缺少一些非常重要的东西”。1Bk品论天涯网

“这不是一个模型,它是从它所发现的新事物中所生长出来的原生事物,对我来说,这正是它为什么能成为AGI「种子”的原因。」SamAltman这样介绍道。1Bk品论天涯网

本网除标明“PLTYW原创”的文章外,其它文章均为转载或者爬虫(PBot)抓取; 本文只代表作者个人观点,不代表本站观点,仅供大家学习参考。本网站属非谋利性质,旨在传播马克思主义和共产主义历史文献和参考资料。凡刊登的著作文献侵犯了作者、译者或版权持有人权益的,可来信联系本站删除。 本站邮箱[email protected]