人工智能

6大模型决战高考数学新一卷:豆包、元宝并列第一 OpenAI o3竟惨败垫底

字号+作者:机器之心 来源:机器之心 2025-06-08 14:11 评论(创建话题) 收藏成功收藏本文

又是一年高考时。这届考生上午刚经历了抽象作文的洗礼,下午又被数学无情创飞。考试一结束,“高考数学”、“新一卷数学大题难”等词条就火速冲上微博热搜'...

又是一年高考时。这届考生上午刚经历了抽象作文的洗礼,下午又被数学无情创飞。考试一结束,“高考数学”、“新一卷数学大题难”等词条就火速冲上微博热搜,考生们在评论区集体“哀嚎”:“大题写到怀疑人生”、“选择填空送分,大题送命”。DyI品论天涯网


DyI品论天涯网


DyI品论天涯网


DyI品论天涯网

而自从生成式AI走红后,大模型“决战”高考也成了每年的保留节目,尤其是在今年这个国内外大模型卷逻辑推理的当口。趁着各家大模型还来不及“作弊”,我们就用这新鲜出炉的高考数学题考考它们。DyI品论天涯网

在考题选择上,我们采用2025年数学新课标Ⅰ卷中的14道客观题进行测试,满分73分,包括8道单选题、3道多选题、3道填空题。为保证公平公正,我们将题目截图分别投喂给大模型,不做SystemPrompt引导,不开启联网搜索,直接输出结果,且所有测试模型只有一次答题机会。DyI品论天涯网

(注:在实测中我们发现DeepSeek的OCR识别出现不少错误,所以此次使用其他AI将图片转化为文本问题,再对DeepSeek进行测试。)DyI品论天涯网

计分方法也依照高考判分原则:DyI品论天涯网

单选题8道,每道5分,选项正确计分,错误不得分;DyI品论天涯网

多选题3道,每道6分,全对计6分,漏选按正确答案数量计分,如答案为ABCD,漏选其一扣1.5分,错选不得分;DyI品论天涯网

填空题3道,每道5分,填空正确计分,错误不得分。DyI品论天涯网

规则搞清楚了,接下来有请此次的参赛选手:字节的豆包、深度求索的DeepSeek、阿里的通义、腾讯的元宝(T1)、百度的文心X1Turbo,以及踢馆选手OpenAI的o3。DyI品论天涯网

由于目前标准答案尚未公开,本次测试的参考答案是由多位数学大牛解答核对。最终各大模型的考试成绩如下图所示。DyI品论天涯网


DyI品论天涯网

这6家大模型中表现最亮眼的就是豆包和元宝,它俩虽然都“栽”在了第6道单选题上,但仍以68分的总成绩并列第一;DeepSeek和通义则稍微逊色一些,前者错了2道单选题拿下63分,后者则在1道单选、1道多选上失误最终拿到62分;相比之下,文心X1频频在多选题和填空题上“掉链子”,最终只获得51分,正确率仅为70%。DyI品论天涯网

面对中国的高考数学题,o3表现出明显的“水土不服”,它仅拿到34分,正确率只有47%。之前就有传言称o3在某些情况下会触发“降智”,如此看来并非空穴来风,否则这个表现实在令人难以置信。DyI品论天涯网

欲知这6大模型的具体答题截图,请移步链接:https://jiqizhixin.feishu.cn/docx/NNBVdmzpmobq8nxNwylcqZNDnEbDyI品论天涯网

6家顶流模型PK高考数学DyI品论天涯网

相比于写作文,高考数学才是真正的AI照妖镜。DyI品论天涯网

这是因为高考作文尽管对语言表达、逻辑结构、思辨能力有一定要求,但它本质上仍是一个语言生成任务,具有较强的模糊空间和容错度,而且经过这两年的技术迭代,大模型个个都练成了“段子手”,写作文自然是手拿把掐。DyI品论天涯网

而高考数学则不同,它需要从已知条件出发,逻辑严密地推导每一个结论,过程中只要一步出现偏差,最终答案十有八九会出错。更何况,高考数学题还存在“题型常变”“设问刁钻”等特点,这些都进一步挑战了模型的泛化能力和思维深度。DyI品论天涯网

接下来,我们就看看这六款大模型面对不同题目类型的表现。DyI品论天涯网

单选题DyI品论天涯网

高考数学包含8道单选题,满分40分。DyI品论天涯网

从跑分情况来看,豆包、通义、元宝和文心打成平手,均斩获35分不错的成绩;其次就是DeepSeek错了两道单选拿下30分,表现最拉胯的竟是o3,光单选题就错了一半。DyI品论天涯网


DyI品论天涯网

作为曾经的推理模型“扛把子”,o3在“送分”的第2题上就翻了车。起初它的思路还挺清晰,但从第二步就开始“胡说八道”,最终一顿操作猛如虎,算出个选项里没有的答案。DyI品论天涯网


DyI品论天涯网

DeepSeek最大的bug则是图片识别,就以第6题为例。DyI品论天涯网

原题中本附着一张信息图,为了省事我们索性就将题目截图直接丢给DeepSeek,但它对眼前的图表视而不见,一个劲地抱怨“题目描述不完整,无法确定答案”,甚至末了还开始蒙答案糊弄人。DyI品论天涯网


DyI品论天涯网


DyI品论天涯网

其实,这道题通过数形结合就能直观看出,其准确答案应为2√2。通义作为国产AI中唯一答对第6题的选手,计算方法竟是错误的,只不过是歪打正着落在正确选项的区间。DyI品论天涯网


DyI品论天涯网

多选题DyI品论天涯网

多选题曾让无数考生头疼,因为它的正确选项不固定,多答或少答都会扣分,再加上题目里总设些陷阱,一不小心就会失误。DyI品论天涯网

高考数学多选题有3道,总共18分。豆包、DeepSeek和元宝三道题全部满分,发挥相当稳定。DyI品论天涯网


DyI品论天涯网

相比于DeepSeek动辄几百秒的思考时间,通义主打一个速度,仅用时26秒就直出答案,但步骤分析过于简略,缺乏必要的验证环节,这就很容易失手。比如它在前两题上答得都很漂亮,却在下图这道题上突然智商“掉线”。该题正确答案是ABC,通义却给出了A、D,至于为何不选B、C,它的解释非常简单粗暴,因为“无法通过现有条件直接推导”。DyI品论天涯网


DyI品论天涯网

文心X1就有点尴尬了。三道题目错了俩,其中一道还是未响应。它和DeepSeek犯了同样的毛病,都是经常性地识别不了图片内容。DyI品论天涯网


DyI品论天涯网

o3好像还没适应国内高考的“多选套路”,一道题都没全对,明明是多选它偏做成单选,当然这么做也有好处,就是不至于零封,怎么也能得个4分。DyI品论天涯网

填空题DyI品论天涯网

或许是这次填空题相对简单,有四家大模型斩获满分,分别是豆包、DeepSeek、通义和元宝。DyI品论天涯网


DyI品论天涯网

文心X1有点可惜,整个答题思路都是正确的,也算出了公比为2或-2,但偏偏在最后画蛇添足,莫名其妙地说了句“通常取正值”,导致一分未得。DyI品论天涯网


DyI品论天涯网

有哪些进步?又暴露了哪些问题?DyI品论天涯网

有一说一,各家大模型公司狠砸的真金白银还真没白花,今年大模型的数学推理能力确实有了明显的进步。DyI品论天涯网

首先表现在得分上。去年我们也曾让大模型挑战高考数学题,但彼时它们连高考数学及格线都没过,甚至9.9和9.11哪个大、strawberry有几个r都答不对。反观今年大模型的表现,除o3外,其他5款模型均突破43.8分的及格线,甚至豆包和元宝还保持了93%的正确率。DyI品论天涯网

其次,增加了反思能力。去年大模型还没学会反思,做题时因某个步骤错误而无法找到正确选项时,它们不再回头检查,而是直接简单粗暴地表示“没有正确选项”。而今年的大模型不再是一根筋,只要遇到不对劲的地方就会推倒重来,典型代表就是DeepSeek,一言不合就验证,这也导致思考时间漫长,有时做一道题甚至能用时15分钟。DyI品论天涯网


DyI品论天涯网

最后,推理步骤更加完善。回顾去年大模型在做高考数学题时的表现,普遍存在解析过程较为简略的情况,经常会跳步,有时解析过程一长还会陷入死循环。今年则是除了通义仍然“惜字如金”外,其他大模型都能够系统性地展示完整的推理链路,从问题分析、公式选择、计算步骤到结果验证,每个环节都有清晰的逻辑阐述。即使是数学基础相对薄弱的用户,也能够通过模型提供的详细解析过程,深入理解问题的本质和解决思路。DyI品论天涯网


DyI品论天涯网

不过,从这次评测中我们也发现了大模型几个典型的毛病。DyI品论天涯网

最常见的就是计算细节错误,即使模型理解了题意,推理方向正确,最后也容易在中间步骤出错,比如符号看错、公式套错、代数变形不规范等。DyI品论天涯网

另一个核心问题是公式、图形与几何直觉的处理能力不足,比如解析几何类题目依赖较强的空间感和图形理解,这对语言模型而言是天然短板。在逻辑推理链较长或题型设计较“逆向”的题目中,模型还可能表现出蒙答案的倾向,看似给出了结论,但中间链条无法自洽或存在明显漏洞。DyI品论天涯网

此外,对题目条件的敏感度不够。模型有时会忽略某些隐含条件,导致结论偏差。尤其在多选题中,模型容易满足于找到一个正确选项而不穷尽其他可能,从而漏选或误选。填空题则容易受到“无提示答题”能力的限制,不能推理出完整的结果。DyI品论天涯网

随着技术不断进化,大模型的数学能力也会不断提高,相信总有一天大模型能弥补“偏科”的毛病。DyI品论天涯网

最后,预祝各位考生金榜题名,考上理想的大学!DyI品论天涯网

本网除标明“PLTYW原创”的文章外,其它文章均为转载或者爬虫(PBot)抓取; 本文只代表作者个人观点,不代表本站观点,仅供大家学习参考。本网站属非谋利性质,旨在传播马克思主义和共产主义历史文献和参考资料。凡刊登的著作文献侵犯了作者、译者或版权持有人权益的,可来信联系本站删除。 本站邮箱[email protected]