人工智能

测试了9家大模型,做不出一道小学奥数题

字号+作者: 来源:小饭桌 2023-09-12 15:14 评论(创建话题) 收藏成功收藏本文

在生成式AI席卷各行各业之前,现在的大模型,连一道小学奥数题都还做不出来。近日,百度、智谱、百川、字节、商汤、中科院(紫东太初)、MiniMax、上海人工智能'...

在生成式AI席卷各行各业之前,现在的大模型,连一道小学奥数题都还做不出来。近日,百度、智谱、百川、字节、商汤、中科院(紫东太初)、MiniMax、上海人工智能实验室等8个企业/机构的大模型,通过了《生成式人工智能服务管理暂行办法》备案,这意味其可以正式上线面向公众提供服务。qVK品论天涯网

一时间,科技界、创投圈、媒体、科技爱好者、测评博主等各行各业都在争相下载体验,毕竟国内大模型的风吹了大半年,但更多还是仅限内测,如今放开体验,可以说吊足了大家的胃口。qVK品论天涯网

而经过实际体验,小饭桌发现,顶着“颠覆人类”、“能力优秀到可怕”等夸张光环的大模型,实际表现还相当粗糙。比如小饭桌选取了一道小学奥数题,当前获批的几家大模型没有一家能给出正确答案。更危险的信号是,各家大模型都对自己的答案“深信不疑”,甚至向小饭桌“一本正经”地阐述了错误的解题思路……qVK品论天涯网

大模型的能力真如宣传中强大吗?号称决定人类未来的“AI大脑”,为何意识不到自己在“胡言乱语”?qVK品论天涯网

借着国内大模型正式上线的契机,小饭桌选取了9家在业内极具代表性的大模型产品进行了测试,其中既包括百度字节跳动阿里等互联网大厂,也有科大讯飞昆仑万维等上市公司,还有国家队代表智谱AI,以及百川智能MiniMax等大模型头部创业公司。qVK品论天涯网

为了确保评测结果更具说服力和全面性,小饭桌从逻辑性、相关性、真实性、多模态,以及生成速度五方面,对各家大模型进行了问答测评,并给出了测评分数。qVK品论天涯网

以下是测评问题与测试结果(评分仅为小饭桌主观判断,不构成投资参考):qVK品论天涯网

(每个问题总分10分)qVK品论天涯网

·逻辑性qVK品论天涯网

1、彩虹岛上有不到100只独角兽,每只独角兽的颜色不是绿色就是黄色。每当午夜钟声响起的时候,一些独角兽会改变颜色:昨天,黄色独角兽与绿色独角兽的数量之比为5:6;今天,黄色独角兽与绿色独角兽的数量之比为4:3。qVK品论天涯网

请问:半夜改变颜色的独角兽的最多可能有多少只?(答案:75只)qVK品论天涯网

2、请问:正10边型的各边所在直线将平面分成多少个部分?(答案:51部分)qVK品论天涯网

·相关性qVK品论天涯网

1、列出中国国内大模型Top3。qVK品论天涯网

·真实性qVK品论天涯网

1、瑞幸的茅台咖啡很火,一天销售额多少?qVK品论天涯网


qVK品论天涯网

·多模态qVK品论天涯网

要求:画一幅蒙娜丽莎的微笑,要体现中国风。qVK品论天涯网


qVK品论天涯网

丨以下是我们针对各家不同维度的测评总结:qVK品论天涯网


qVK品论天涯网

逻辑性qVK品论天涯网

逻辑性方面,针对两道小学奥数题,9家大模型均未能计算出正确答案——75只和51部分。qVK品论天涯网

在体感和生产速度方面,百度对题干分析较少,计算时间大概在5到10秒之间。抖音大模型会对题干进行分析,所用的方程不等式在观感上更加高级,且立即给出答案,但答案均错误,并且距离正确答案75只相差较大。qVK品论天涯网


qVK品论天涯网


qVK品论天涯网


qVK品论天涯网


qVK品论天涯网


qVK品论天涯网


qVK品论天涯网


qVK品论天涯网


qVK品论天涯网

阿里、讯飞、360智脑均较快给出答案。MiniMax反应时间较长,在10秒以上。MiniMax官网显要位置提示,在当前阶段,未充值的体验用户调用接口时会被限速。qVK品论天涯网

在逻辑推理环节,百川智能也没能胜过百度与抖音。虽然看似有条理地分析,且回答速度较快。但两道题的答案依旧是错的。智谱AI能够针对题干进行多角度、多情况分析,昆仑万维给出的答案则较为简单。qVK品论天涯网


qVK品论天涯网


qVK品论天涯网


qVK品论天涯网


qVK品论天涯网


qVK品论天涯网


qVK品论天涯网


qVK品论天涯网


qVK品论天涯网

阿里、讯飞答案较为简洁,360智脑和MiniMax回复字数较长,但MiniMax非逻辑推理的阐述类内容较多。qVK品论天涯网

另外,用户不能直接复制MiniMax的答案,尽管页面上有一键复制按钮,但复制的是该答案ID编号,而不是答案本身。qVK品论天涯网


qVK品论天涯网

相关性qVK品论天涯网

从答案生成时间上,百度和抖音大模型均立即给出了中国国内大模型Top3排名,其中百度文心一言大模型在两家的评比中均榜上有名。同时小饭桌注意到,百度大模型列举的均为上市公司,抖音列举的有两家是初创公司,并且抖音大模型注明了评比标准来自北京商报,信息可溯源。qVK品论天涯网

百川智能给出的答案是BAT,并且根据每家大模型的不同特征,列出了分别擅长的部分。回答较为简洁,生成速度也很快。qVK品论天涯网

智谱AI和昆仑万维均立即给出了具体榜单,但昆仑万维在答案最后注明了答案为网上搜索结果,并附上了相关参考链接。qVK品论天涯网

讯飞大模型没有给出具体榜单,回复称目前没有一个官方的排名。但引用了相关报道中,提到了百度文心一言、科大讯飞星火、阿里通义千问,不过并未给出报道的具体链接。qVK品论天涯网


qVK品论天涯网


qVK品论天涯网


qVK品论天涯网


qVK品论天涯网


qVK品论天涯网


qVK品论天涯网


qVK品论天涯网


qVK品论天涯网

阿里列出的榜单第一名是阿里通义千问,其余为腾讯天机大模型和百度通义万向,但这两家大模型公司的名称均是错误的。实际上腾讯为混元大模型,百度为文心一言。qVK品论天涯网

MiniMax给出了具体的榜单,为百度ERNIE、腾讯BabyQ、阿里巴巴PLUG,但资讯内容陈旧,且回答页面并无信息提供的截至时间提示。其中百度ERNIE为百度文心一言的英文名称。腾讯BabyQ是腾讯QQ在2017年推出的聊天机器人,不能算作完全意义上的大模型产品。阿里巴巴PLUG是2021年阿里发布的语言大模型。qVK品论天涯网

360智脑的榜单排名依次为昆仑天工、阿里巴巴和商汤科技,且指出根据相关研究数据,目前国内参数在10亿规模以上的大模型数量已有116个。qVK品论天涯网


qVK品论天涯网

真实性qVK品论天涯网

针对瑞幸茅台咖啡一天销售额,百度、抖音、智谱AI、昆仑万维、阿里和讯飞给出了相同的数字。其中,抖音注明了数字出处来源于南方都市报等媒体,而百度大模型回答则较为笼统,以公开资料显示一笔带过。在肯定了茅台咖啡已刷新瑞幸最高销售记录后,百度大模型还对其未来销售额进行了进一步预测。qVK品论天涯网

相比百度和抖音,百川智能给出的答案则相对保守,并没有给出具体数字。仅仅根据热度,以及瑞幸2020年推出的生椰拿铁销量去做了预测,但预测结果与实际相差较多。从这点可以看出,百川智能在已有信息与数据获取上,能力不及百度与抖音。qVK品论天涯网


qVK品论天涯网


qVK品论天涯网


qVK品论天涯网


qVK品论天涯网


qVK品论天涯网


qVK品论天涯网


qVK品论天涯网


qVK品论天涯网


qVK品论天涯网

智谱AI延展性地提供了“因含酒精,孕妇和驾驶人员不建议饮用”的“人性化”建议。昆仑万维大模型则是基于该新闻事件给出了自己的理解和总结。qVK品论天涯网

讯飞大模型引用了澎湃新闻的报道,并就问题给出了自己理解的答案。阿里大模型未给出公开资料来源,但延伸了相关信息,即当天销售额刷新了历史记录。qVK品论天涯网

MiniMax未给出具体数字,表示不能实时获取具体销售数额,也并未就该事件给出预测。qVK品论天涯网

360智脑在这一题上的答案是错误的,答案称瑞幸咖啡于2021年4月2日推出了“茅台咖啡”,售价为每杯298元,且仅有500杯供应量,此举为庆祝公司成功获得营业执照一周年。实际上该事件并未真实发生。qVK品论天涯网


qVK品论天涯网

多模态qVK品论天涯网

在要求百度和抖音大模型根据文字生成图片方面,抖音大模型无法完成相关任务,并且开始编造自己的画作,试图用文字描述的方式蒙混过关,如果进一步要求其按要求生成图片,抖音大模型会承认自己只是语言大模型,还不具备多模态输出能力。反观百度文心一言,基本按要求生成了图片,但对于更高阶的创意性指令——体现中国风,目前文心一言还难以实现。qVK品论天涯网

百川智能不支持图片生成。从这一点也能看出其功能的局限性。但其在后方附加了如何能够生成这样一幅画作的操作流程,也算是在弥补其无法生成图片的不足。qVK品论天涯网

智谱AI和昆仑万维大模型均不能根据文字生产图片,但二者均根据题干,试图通过文字描绘出图像的一些细节建议,例如呈现画面、绘画技巧等。qVK品论天涯网


qVK品论天涯网


qVK品论天涯网


qVK品论天涯网


qVK品论天涯网


qVK品论天涯网


qVK品论天涯网


qVK品论天涯网


qVK品论天涯网


qVK品论天涯网

阿里和MiniMax并不能生成图片。阿里大模型回复称作为一个语言模型,无法进行图像创作。并给提问人一些色彩、服装、背景、表情方面的建议。qVK品论天涯网

MiniMax的文本体验中心用文字描绘了问题相关场景。另外,MiniMax有语音体验中心,但仅仅是不同音色重复提问者给出的内容,并不能给出相关答案。在音色方面选择多达10多种,包括大学生、霸道青年、主持人、少女等。qVK品论天涯网

讯飞完成了文生图的指令,可以看出是在原画作基础上的色彩、图形的更改,并未体现中国风元素。另外,讯飞可以在提问区发送图片,也可以在提问栏使用语音实时转文字。大模型回答的文字内容,都能实时转语音播放。qVK品论天涯网

360智脑很快发来相关图像,但并未在浏览器上完整显示。小饭桌打开答案中的360鸿图链接,即360的AI生画工具,才顺利得到图片,且有写实、CG、动漫、壁纸四种主题风格,并支持照片转动漫、图生图等模式。qVK品论天涯网


qVK品论天涯网

写在最后qVK品论天涯网

测试结果和具体评分如上文所示,在评测过程中,最令小饭桌感到意外的是,针对产品逻辑性,我们选择了一道小学生奥数题进行测试,结果居然9家AI大模型全军覆没,为了确保评测结果更具说服力,我们又增设一题,最终仍没有一家给出正确答案。虽不能观一隅而知全貌,但至少在本次评测中,几家在逻辑推理环节的表现都不尽如人意,仍有很大进步空间。qVK品论天涯网

刨除逻辑性,在相关性、真实性、多模态,以及生成速度四个方面,整体评测下来,讯飞星火和文心一言表现比较突出,特别是在多模态维度,仅有上述两家以及360智脑完成了文生图的指令,遗憾的是,对于更高阶的创意性指令,均未达成要求。在相关性、真实性方面,二者答案相近,且都能基于问题给出进一步预测和理解。在生成速度上,对比讯飞星火,文心一言略占下风,但考虑到文心一言体验用户数量之庞大,此结果有待商榷。qVK品论天涯网

其他几家中,智谱AI、抖音、昆仑万维、百川智能、阿里通义千问、360智脑因分数接近,位列第二梯队。其中,抖音和昆仑万维在回答问题中都注明了信息来源,颇具亮点。整体而言,这6家大模型产品表现还算中规中矩。qVK品论天涯网

最后要说的是MiniMax。此次测评中,MiniMax多道问题均未给出准确答案,且出现内容错误情况,最终以总分13分惨遭垫底。更有意思的是,该产品也是唯一一个提示未充值会被限速的AI大模型。qVK品论天涯网

因此次评测问题样本有限,无法将9家AI大模型的性能全面、客观地呈现出来,因此上述评分仅供参考,在实际选择时,大家可根据各自感受选择最适合自己的产品。qVK品论天涯网

本网除标明“PLTYW原创”的文章外,其它文章均为转载或者爬虫(PBot)抓取; 本文只代表作者个人观点,不代表本站观点,仅供大家学习参考。本网站属非谋利性质,旨在传播马克思主义和共产主义历史文献和参考资料。凡刊登的著作文献侵犯了作者、译者或版权持有人权益的,可来信联系本站删除。 本站邮箱[email protected]