人工智能

实测GPT4.5:更像人了,有惊喜但提升微妙

字号+作者:AI寒武纪 来源:AI寒武纪 2025-02-28 09:45 评论(创建话题) 收藏成功收藏本文

北京时间凌晨4点钟OpenAI举行一个14分钟左右的直播发布,GPT4.5终于发布了!凌晨4点爬起来第一时间给大家更新,废话不多说,先看看SamAltman的对GPT4.5的感受:S'...

北京时间凌晨4点钟OpenAI举行一个14分钟左右的直播发布,GPT4.5终于发布了!凌晨4点爬起来第一时间给大家更新,废话不多说,先看看SamAltman的对GPT4.5的感受:6xB品论天涯网

Sam:6xB品论天涯网


6xB品论天涯网

GPT-4.5准备好了!6xB品论天涯网

好消息:它是我遇到的第一个感觉像是在和一位有思想的人交谈的模型。我有好几次都向后靠在椅子上,惊讶于竟然能从人工智能那里得到真正的好建议6xB品论天涯网

坏消息:这是一个庞大且昂贵的模型。我们真的想同时向Plus和Pro用户推出它,但我们的用户增长非常迅速,以至于GPU不够用了。我们将在下周增加数万个GPU,然后向Plus用户层推出它。(数十万个即将到来,而且我确信你们会用完我们能部署的每一个。)6xB品论天涯网

这不是我们希望的运营方式,但很难完美预测导致GPU短缺的增长激增。6xB品论天涯网

温馨提示:这并非一个推理模型,也不会在基准测试中表现突出。这是一种不同类型的智能,并且它有一种我以前从未感受过的魔力。真的非常激动能让大家试试它!6xB品论天涯网

是不是觉得泛善可陈?下面我们来看看GPT4.5长什么样子(发布会视频附在文章最后):6xB品论天涯网

发布会一开始上,OpenAI先展示了一个例子。当用户表达“朋友又取消了我的约会,我太生气了,想发消息骂他”这种负面情绪时,GPT-4.5展现出了惊人的理解能力和情商:6xB品论天涯网

老模型(o1)的回复:直接按照指令输出了愤怒的骂人短信,虽然完成了任务,但显得冷冰冰,甚至有点“火上浇油”。6xB品论天涯网

GPT-4.5的回复:它不仅给出了更温和、更建设性的短信建议,还“听”出了用户言语背后的真实需求——TA可能只是需要倾诉和安慰,而不是真的想和朋友闹翻!6xB品论天涯网


6xB品论天涯网

这种细微的情感理解和微妙回应,正是GPT-4.5的亮点之一!它不再是冷冰冰的机器,能够更好地理解我们的真实意图和情感需求6xB品论天涯网

知识更渊博,能力更全面6xB品论天涯网

除了情商升级,GPT-4.5的知识储备和能力也得到了显著提升。发布会上OpenAI对比了GPT系列模型回答“为什么海洋是咸的”这个问题:6xB品论天涯网

GPT-1:完全懵圈6xB品论天涯网

GPT-2:有点沾边,但还是错误答案。6xB品论天涯网

GPT-3.5Turbo:给出了正确答案,但解释很生硬,细节冗余。6xB品论天涯网

GPT-4Turbo:答案不错,但有点“炫技”,不够简洁明了。6xB品论天涯网

GPT-4.5:完美答案!简洁、清晰、有条理,第一句话“海洋是咸的,因为雨水、河流和岩石”更是朗朗上口,充满趣味性!6xB品论天涯网


6xB品论天涯网

更强,更快,更安全6xB品论天涯网

按照OpenAI的说法这些进步背后,是GPT-4.5在技术上的全面升级:6xB品论天涯网

更强的模型:更大的模型规模,更多的计算资源投入,带来更强大的语言理解和生成能力。6xB品论天涯网

创新的训练机制:采用新的训练机制,使用更小的资源footprint就能微调如此巨大的模型。6xB品论天涯网

多迭代优化:通过监督微调和人类反馈强化学习(RLHF)的组合进行多轮迭代训练,不断提升模型性能。6xB品论天涯网

多数据中心预训练:为了充分利用计算资源,GPT-4.5甚至跨多个数据中心进行预训练!这规模,想想都震撼!6xB品论天涯网

低精度训练和推理优化:采用低精度训练和新的推理系统,保证模型又快又好。6xB品论天涯网

更安全的模型:经过严格的安全评估和准备度评估,确保模型可以安全可靠地与世界分享6xB品论天涯网

性能表现6xB品论天涯网

发布会上OpenAI还展示了GPT-4.5在各种benchmark上表现:6xB品论天涯网

GBQA(推理密集型科学评估):大幅提升!虽然还落后于OpenAI-03Mini(可以思考后再回答的模型),但已经非常接近!6xB品论天涯网

AIME24(美国高中竞赛数学评估):相对推理模型提升不多6xB品论天涯网

SWEBenchverified(Agentic编码评估):相比GPT4o仅仅提升7%6xB品论天涯网

SWELancer(更依赖世界知识的Agentic编码评估):超越OpenAI-03Mini!6xB品论天涯网

MultilingualMMLU(多语言语言理解基准):提升不到4%6xB品论天涯网

MultimodalMMLU(多模态理解):多模态能力提升5%左右6xB品论天涯网


6xB品论天涯网

AndrejKarpathy评测GPT-4.56xB品论天涯网

相信大家和我一样,对GPT的每一次迭代都充满了期待。这次的GPT-4.5更是吊足了大家的胃口,毕竟距离GPT-4发布已经过去大约两年了!AI大神OpenAI联合创始人提前拿到了GPT4.5的内测资格,AndrejKarpathy亲自发声,对GPT-4.5进行了深度解读6xB品论天涯网


6xB品论天涯网

GPT-4.5:算力堆砌的又一次进化?6xB品论天涯网

Karpathy在他的推文中开门见山地指出,他期待GPT-4.5已经很久了,原因在于这次升级提供了一个定性衡量指标,可以观察到通过扩大预训练算力(简单来说就是训练更大的模型)所带来的性能提升斜率6xB品论天涯网

他透露了一个关键信息:GPT版本号每增加0.5,大致意味着预训练算力提升了10倍!6xB品论天涯网

为了让大家更直观地理解这个"0.5"的意义,Karpathy还回顾了GPT系列的发展历程:6xB品论天涯网

GPT-1:几乎无法生成连贯的文本,还在非常早期的阶段6xB品论天涯网

GPT-2:像一个“玩具”,能力有限,还比较混乱6xB品论天涯网

GPT-2.5:直接“跳过”了,OpenAI直接发布了GPT-3,这是一个更令人兴奋的飞跃6xB品论天涯网

GPT-3.5:跨越了一个重要的门槛,终于达到了可以作为产品发布的水平,并由此引爆了OpenAI的“ChatGPT时刻”!6xB品论天涯网

GPT-4:感觉确实更好,但Karpathy也坦言,提升是微妙的。他回忆起参与黑客马拉松的经历,大家尝试寻找GPT-4明显优于GPT-3.5的具体prompt,结果发现虽然差异存在,但很难找到那种“一锤定音”的例子6xB品论天涯网

GPT-4的提升更像是一种“润物细无声”的感觉:6xB品论天涯网

•词语选择更具创造力6xB品论天涯网

•对prompt细微之处的理解有所提升6xB品论天涯网

•类比更加合理6xB品论天涯网

•模型变得更有趣6xB品论天涯网

•世界知识和对罕见领域的理解在边缘地带有所扩展6xB品论天涯网

•幻觉(胡说八道)的频率略有降低6xB品论天涯网

•整体感觉(vibe)更好6xB品论天涯网

就像是“水涨船高”,所有方面都提升了大约20%。6xB品论天涯网

GPT-4.5:微妙的提升,依旧令人兴奋6xB品论天涯网

带着对GPT-4这种“微妙提升”的预期,Karpathy对GPT-4.5进行了测试(他提前几天获得了访问权限)。这次GPT-4.5的预训练算力比GPT-4又提升了10倍6xB品论天涯网

然而,Karpathy发现,他仿佛又回到了两年前的黑客马拉松:一切都变得更好,而且非常棒,但提升的方式仍然难以明确指出
6xB品论天涯网

尽管如此,这仍然非常有趣和令人兴奋,因为它再次定性地衡量了仅仅通过预训练更大的模型就能“免费”获得的能力提升斜率。这说明,单纯地堆算力,依然能带来肉眼可见的进步,只是进步的方式可能更加内敛和精细化6xB品论天涯网

注意!GPT-4.5并非推理模型6xB品论天涯网

Karpathy特别强调,GPT-4.5仅仅通过预训练、监督微调和RLHF(人类反馈强化学习)进行训练,因此它还不是一个真正的“推理模型”6xB品论天涯网

这意味着,在需要强大推理能力的任务(例如数学、代码等)中,GPT-4.5的能力提升可能并不显著。在这些领域,通过强化学习进行“思考”训练至关重要,即使是基于较旧的基础模型(例如GPT-4级别的能力)进行训练,效果也会更好6xB品论天涯网

目前,OpenAI在这方面的最先进模型仍然是fullo1。据推测,OpenAI接下来可能会在GPT-4.5模型的基础上,进一步进行强化学习训练,使其具备“思考”能力,从而推动模型在推理领域的性能提升。6xB品论天涯网

GPT-4.5的优势领域:EQ而非IQ6xB品论天涯网

虽然在推理方面提升有限,但Karpathy认为,在那些不依赖重度推理的任务中,我们仍然可以期待GPT-4.5的进步。他认为,这些任务更多与情商(EQ)相关,而非智商(IQ),并且瓶颈可能在于:6xB品论天涯网

•世界知识6xB品论天涯网

•创造力6xB品论天涯网

•类比能力6xB品论天涯网

•总体理解能力6xB品论天涯网

•幽默感6xB品论天涯网

因此,Karpathy在测试GPT-4.5时,最关注的也是这些方面。6xB品论天涯网

Karpathy的“LMArenaLite”趣味实验6xB品论天涯网

为了更直观地展示GPT-4和GPT-4.5在这些“情商”相关任务上的差异,Karpathy发起了一个有趣的“LMArenaLite”实验6xB品论天涯网

他精心挑选了5个有趣/幽默的prompt,用来测试模型在上述能力上的表现。他将prompt和GPT-4、GPT-4.5的回复截图发布在X上,并穿插投票,让大家投票选出哪个回复更好,类似下面这种问题和投票方式6xB品论天涯网


6xB品论天涯网


6xB品论天涯网

在8小时后,他将揭晓哪个模型对应哪个回复6xB品论天涯网

写在最后:6xB品论天涯网

即日起,ChatGPTPro用户已经可以通过模型选择器体验GPT-4.5了!下周将面向Team和Plus用户开放,EDU和Enterprise用户稍后也将陆续上线。6xB品论天涯网

发布会的最后,OpenAI强调了无监督学习推理能力的重要性,并认为GPT-4.5是无监督学习领域的前沿成果。更强大的世界知识和更智能的模型,将为未来的推理模型和Agent奠定更坚实的基础6xB品论天涯网

整场发布会给我感觉GPT-4.5亮点真的不多,从AndrejKarpathy的一手评测来看也是,提升的主要是情商?这个只有等大家使用以后自己感觉了。6xB品论天涯网

本网除标明“PLTYW原创”的文章外,其它文章均为转载或者爬虫(PBot)抓取; 本文只代表作者个人观点,不代表本站观点,仅供大家学习参考。本网站属非谋利性质,旨在传播马克思主义和共产主义历史文献和参考资料。凡刊登的著作文献侵犯了作者、译者或版权持有人权益的,可来信联系本站删除。 本站邮箱service@pltyw.com

7
扫二维码添加收藏返回顶部