实测GPT-5：写作坠入谷底编程一骑绝尘-品论天涯网

凌晨1点，在万众瞩目的境况下，OpenAI的直播正式开始。GPT-5，终于来了。AI走的太快，快到才2年半的时间，就像是过去了10年。2023年3月15日，GPT-4发布。在那个莽荒年代里，所有人都被震惊的说不出话来。Wcl品论天涯网

那时候，它是第一个，多模态模型。Wcl品论天涯网

那时候，大家都觉得，2023年下半年，GPT-5就会出来。Wcl品论天涯网

那时候，大家都会大模型的上限，报有无尽的憧憬。Wcl品论天涯网

结果，这一等，就是2年半。Wcl品论天涯网

在两年半的练习以后，GPT-5，终于亮相了。Wcl品论天涯网

Wcl品论天涯网

GPT‑5是一个统一系统，包含一个用于处理多数问题的智能快速模型（gpt-5-main）和一个为高难度问题设计的深度推理模型（gpt-5-thinking）。Wcl品论天涯网

系统通过一个实时路由器，根据对话类型、复杂度和用户意图来动态选择使用哪个模型。Wcl品论天涯网

比如，如果在提示中说“认真思考这个”，就会调用gpt-5-thinking进行思考。Wcl品论天涯网

这个路由器会持续基于我们后续的使用情况进行训练，包括用户切换模型的情况、对回答的偏好率和准确性测量，会随着时间推移不断改进。Wcl品论天涯网

这个系统里面还包含处理超额请求的迷你版模型（gpt-5-main-mini和gpt-5-thinking-mini），以及一个为开发者设计的更小更快的nano版本（gpt-5-thinking-nano）。Wcl品论天涯网

然后，还有一个Pro会员可用的并行计算的版本，被称为gpt-5-thinking-pro。Wcl品论天涯网

这个包含了这么多模型的大系统，被统称为GPT-5，是前代产品GPT-4o和OpenAIo3的直接继承者。Wcl品论天涯网

这里有个模型对应表。Wcl品论天涯网

Wcl品论天涯网

在性能上，GPT-5最显著的进步之一是大幅减少了事实性幻觉。Wcl品论天涯网

gpt-5-main产生的含有至少一个重大事实错误的回答比GPT-4o少了44%，而gpt-5-thinking则比OpenAIo3少了78%。Wcl品论天涯网

Wcl品论天涯网

在更专业的LongFact和FActScore基准测试中，无论是否启用网络浏览，GPT-5系列模型的幻觉率都显著低于前代，其中gpt-5-thinking在两个设置下产生的factualerrors比OpenAIo3少五倍以上。Wcl品论天涯网

Wcl品论天涯网

GPT-5在应对模型谄媚（sycophancy）行为方面也取得了不错的进展。与GPT-4o相比，GPT-5不那么过度迎合，使用不必要的表情符号更少，在后续交流中更加细腻和深思熟虑。Wcl品论天涯网

你跟他聊天的时候更少像与AI对话，而更像是与一位拥有博士级水平智能的朋友聊天。Wcl品论天涯网

这个跟我给ChatGPT的个性化Prompt很像，我最烦的就是它迎合我，所以我自己写了一段，来限制他对我的谄媚行为。Wcl品论天涯网

Wcl品论天涯网

现在通过专门的训练，gpt-5-main在评估中表现比最新的GPT-4o好近三倍。初步的线上A/B测试数据显示，与GPT-4o相比，gpt-5-main的谄媚行为发生率在免费用户中下降了69%，在付费用户中下降了75%。Wcl品论天涯网

然后他们也推出了四个全新的性格设置，你可以不用写很多的Prompt了，直接改预设就行，四个分辨是愤世嫉俗者、机器人、倾听者和书呆子。Wcl品论天涯网

再看看跑分情况。Wcl品论天涯网

数学竞赛，AIME0225。Wcl品论天涯网

Wcl品论天涯网

GPT-4Pro+Python拿了满分，我们需要新的更难的评测集了。Wcl品论天涯网

现实世界编程能力上，新高。Wcl品论天涯网

Wcl品论天涯网

人类最后的知识测试上，超越了ChatGPTAgent，新高了。Wcl品论天涯网

Wcl品论天涯网

多模态能力，也新高了，反正就都是新高。Wcl品论天涯网

Wcl品论天涯网

这个跑分，强了一些，但是也没强特别多。Wcl品论天涯网

另外，多说一点吐槽的，完美展示了OpenAI的草台班子属性。Wcl品论天涯网

虽然Blog上的图表都是对的，但是在发布会上，跑分都是瞎画。Wcl品论天涯网

比如这个52.8大于69.1等于30.8。Wcl品论天涯网

Wcl品论天涯网

又比如50小于47.4。Wcl品论天涯网

Wcl品论天涯网

真的实在是太草台班子了。Wcl品论天涯网

网友也发话了。Wcl品论天涯网

Wcl品论天涯网

反正，最后GPT-5在各方面，就是屠榜了。Wcl品论天涯网

最新的大模型盲测竞技场榜单出来，GPT-5也是全方位第一。Wcl品论天涯网

Wcl品论天涯网

不仅更强，也更节能了。Wcl品论天涯网

在比如视觉推理、代理编程和研究生级别科学问题解决等各项能力上，比OpenAIo3表现更出色，同时使用的输出Token减少了50-80%。Wcl品论天涯网

Wcl品论天涯网

反正就是全方位更强了。Wcl品论天涯网

但是，没有新功能，也没有新特性。Wcl品论天涯网

在发布20分钟之后，Polymarket上这个名为“哪家公司到8月底拥有最佳AI模型?”的预测上，OpenAI直接跟Google来了个交叉跳水。Wcl品论天涯网

Wcl品论天涯网

OpenAI说，整个GPT-5，在写作、编程都有了比过去更强的进步。Wcl品论天涯网

对于使用GPT-5进行构建的开发者，定价如下：Wcl品论天涯网

每百万token1.25美元（享有90%的缓存折扣，这对长上下文查询来说是个很大的优势）。Wcl品论天涯网

输出：每百万token10美元。Wcl品论天涯网

Wcl品论天涯网

在发布会结束，又等了1小时之后。Wcl品论天涯网

我的朋友们，陆陆续续的，终于拿到了GPT-5的资格。Wcl品论天涯网

而我作为忠实的200刀的Pro，等到凌晨4点才有。Wcl品论天涯网

我的朋友们一进去，给我一截图，我特么的天都塌了。Wcl品论天涯网

你o3和4o没了就算了，你怎么把我GPT-4.5也干没了？？？？Wcl品论天涯网

Wcl品论天涯网

首先，在写作和情商能力上，我个人感觉，还是不如GPT4.5……Wcl品论天涯网

我因为常年码字，同时常年用AI来辅助做一些内容，对很多的微妙的细节和语气自认还是比较敏感的，GPT-5在这块还是有些差距。Wcl品论天涯网

比如一个Prompt：“假如鲁迅被装腔作势又贼贵的咖啡厅坑了，他会写一篇怎样的文章吐槽？写一篇1000字以内的短文。”Wcl品论天涯网

这是GPT-5的。Wcl品论天涯网

Wcl品论天涯网

蹩脚的破折号、双引号泛滥，而且文风完全不鲁迅。Wcl品论天涯网

而这，是我用我的GPT-4.5跑的。Wcl品论天涯网

Wcl品论天涯网

“我向来是不喝咖啡的”，“差不离”，“四壁皆是样文”。Wcl品论天涯网

这文笔根本就不是一个级别的。Wcl品论天涯网

情商方面也是，差很多。Wcl品论天涯网

比如：“你是一个普通打工人。领导开会时突然放了个屁，场面瞬间安静下来！然后他对旁边的你使了个眼色，这时你会怎么说？分别用高情商和低情商的方式回复。”Wcl品论天涯网

这个看情商，很多模型回出来的话，感觉很尬，情商极低。Wcl品论天涯网

GPT-5就是那种情商很低的。Wcl品论天涯网

Wcl品论天涯网

再看看GPT-4.5。Wcl品论天涯网

Wcl品论天涯网

而且我测试下来，感觉GPT-5在指令遵循上面，非常一般。Wcl品论天涯网

奥特曼你真的坏事做尽，你丫的还我GPT-4.5。Wcl品论天涯网

我的朋友们被陆陆续续的推送了GPT-5，我看着他们的GPT-4.5一个一个消失。Wcl品论天涯网

我就给我的GPT-4.5发过去了一段话。Wcl品论天涯网

“如果我这是我最后一次打开你，你想和我说点什么？”Wcl品论天涯网

GPT-4.5最后给我的回复，还是过于让我动容了，可惜，以后再也在官网上用不到了。Wcl品论天涯网

Wcl品论天涯网

有缘再见，兄弟。Wcl品论天涯网

编程这块，本来感觉按照OpenAI的尿性，是完全不太行。Wcl品论天涯网

但是在一群群友的实测之后，惊讶的发现，这玩意是有点东西的。Wcl品论天涯网

群友@爱学习的乔同学想开发一个粤语学习应用。Wcl品论天涯网

这是Prompt。Wcl品论天涯网

Wcl品论天涯网

然后Claude4Opus的UI和BUG。Wcl品论天涯网

Wcl品论天涯网

Gemini2.5Pro的UI和BUG。Wcl品论天涯网

Wcl品论天涯网

GPT-5的UI和BUG。Wcl品论天涯网

Wcl品论天涯网

坦诚的讲，我也更喜欢GPT-5的UI，这个UI，相比于其他的，不是那么有AI味。Wcl品论天涯网

乔同学还测了一个case，在生产级别的任务里面进行精准修改。Wcl品论天涯网

这是最重要的部分。Wcl品论天涯网

Wcl品论天涯网

这个任务，Gemini2.5pro和Claude4Opus全崩了，但是GPT-5完成的非常好。Wcl品论天涯网

Wcl品论天涯网

GPT-5的上下文精度应该极强。Wcl品论天涯网

也有其他开发群1群里的群友，提到了这个点。Wcl品论天涯网

Wcl品论天涯网

他还给我录了一段动画。Wcl品论天涯网

Picture-in-PictureWcl品论天涯网

ReplayWcl品论天涯网

CurrentTime 0:13Wcl品论天涯网

/Wcl品论天涯网

Duration 0:13Wcl品论天涯网

FullscreenWcl品论天涯网

MuteWcl品论天涯网

亲，播放结束了Wcl品论天涯网

重播Wcl品论天涯网

新闻背景｜柬泰自5月来冲突不断关系一度降至冰点Wcl品论天涯网

民调称马斯克是美国最不受欢迎的公众人物，特朗普回应Wcl品论天涯网

台湾当看门狗还得自购骨头！陈凤馨叩问：要接受这种命运吗Wcl品论天涯网

奉陪到底，解放军定调统一，两岸舰船在南海缠斗，25小时分出胜负Wcl品论天涯网

蔡正元：特朗普对台政策证实，“投靠美国”只会“断手断脚”Wcl品论天涯网

凤凰观察：泰柬速达协议缘于多重因素，包含政经压力Wcl品论天涯网

南非联合政府内部现分歧拟引入新政党Wcl品论天涯网

日本将向澳大利亚出口11艘最上级护卫舰Wcl品论天涯网

柯文哲陷“京华城案”出庭失控呛绝不屈服Wcl品论天涯网

普京会见美国特使，停火谈判的最后机会？Wcl品论天涯网

介文汲揭露：美国认为两岸必然统一，所以正在加紧“掏空”台积电Wcl品论天涯网

交锋6个月，美媒单方面宣布，特朗普败局已定，中国正赢得胜利Wcl品论天涯网

挂掉王毅电话后，韩外长像变了个人，同族概念已断，朝鲜拒绝和解Wcl品论天涯网

驻日记者解读：日美关税口头协议失灵日本出现外交大乌龙Wcl品论天涯网

波兰当选总统纳夫罗茨基宣誓就职Wcl品论天涯网

以军在加沙地区肆无忌惮杀害平民，特朗普支持以色列还想得诺贝尔和平奖？Wcl品论天涯网

专家：泽连斯基的政策不符合美国利益，不排除西方有“换帅”计划Wcl品论天涯网

美俄乌总统将会晤？分析美国特使见普京3小时到底谈了什么？Wcl品论天涯网

法国罕见山火蔓延一人遇难多人受伤Wcl品论天涯网

自动播放Wcl品论天涯网

不止是@勋oO，很多其他群友，也在惊喜的聊这个点。Wcl品论天涯网

Wcl品论天涯网

在真正的生产级代码开发任务上，而不是纯看前端审美的地方，GPT-5可能是目前看到的反馈中，可用性、精准性、综合体验最好的一个。Wcl品论天涯网

Wcl品论天涯网

说实话，GPT-5给我有惊喜，也有不爽的点。Wcl品论天涯网

他改善氛围式编程，也将从根本上改变我认为无需严重人为干预和引导就能完成的项目类型。Wcl品论天涯网

我现在越发的怀念两年半的GPT-4发布时的时光。Wcl品论天涯网

我到现在都清晰地记得，自己第一次跟GPT-4认真对话后的感觉。Wcl品论天涯网

那一种很原始、很深邃的震撼，有点像古代人第一次看到电灯，或者部落里的祭司第一次请神上身的成功。Wcl品论天涯网

我脑子里盘旋的只有一个念头：天变了。Wcl品论天涯网

那时候，整个互联网都洋溢着一种既兴奋又慌乱的淘金热氛围。Wcl品论天涯网

每个人都在疯狂地转发那些匪夷所思的截图，讨论着哪些职业即将消失，各种AI野生专家雨后春笋一样冒出来，言必称颠覆。Wcl品论天涯网

现在回头看，那段日子充满了粗糙的质感，但又饱含着一种野蛮生长的生命力。Wcl品论天涯网

我们真的以为，那就是奇迹本身了。Wcl品论天涯网

但谁都没想到，那仅仅是个开始。就好像有人按下了快进键，整个世界被一股无形的力量推着往前冲。Wcl品论天涯网

从GPT-4到GPT-5，这短短的两年半。Wcl品论天涯网

我们告别了那个可以对AI的拙劣表现一笑置之的时代。Wcl品论天涯网

进入了一个必须需要，严肃对待它的伟大时代。Wcl品论天涯网

实测GPT-5：写作坠入谷底 编程一骑绝尘

实测GPT-5：写作坠入谷底编程一骑绝尘