人工智能

阿里、百度大模型敢对标GPT-3.5?我们让GPT-4考考它们

疯了疯了,大语言模型又迎来一位参赛选手,它便是阿里巴巴版本的GPT—— 通义千问。说实话,在大伙们的印象中,AI可能并不是阿里的第一金字招牌。但其实,最近几'...

疯了疯了,大语言模型又迎来一位参赛选手,它便是阿里巴巴版本的GPT—— 通义千问。说实话,在大伙们的印象中,AI可能并不是阿里的第一金字招牌。但其实,最近几年阿里攒了不少狠货,不管是平头哥的AI芯片、阿里云的AI云服务,还是达摩院的AI算法,他们还创建了国内最大的AI模型服务社区“魔搭”。4b6品论天涯网

4b6品论天涯网

这么来看,阿里在人工智能领域,其实还是有不少底子的,甚至可以说是个有软有硬的全能选手。4b6品论天涯网

所以在百度之后,阿里成为第二个拿出大模型的选手,也就不足为奇了。4b6品论天涯网

再加上,一直有消息说阿里曾研发出世界首个突破10万亿参数的AI大模型。4b6品论天涯网

4b6品论天涯网

在阿里GPT出现的第一时间,真想法子整到了通义千问的测试账号。4b6品论天涯网

咱废话也不多说了,为此,我们特邀了两位“差评AI友谊赛”老朋友ChatGPT和文心一言。4b6品论天涯网

接下来就是真正的考验时刻了!4b6品论天涯网

4b6品论天涯网

语义理解方面,我们直接上难度,做一下高考级别的诗词鉴赏,选用的是差评君很喜欢的《忆秦娥·娄山关》。4b6品论天涯网

向下滑动 ▼4b6品论天涯网

4b6品论天涯网

4b6品论天涯网

4b6品论天涯网

通义千问的赏析非常到位,甚至怀疑是不是网上直接扒来的,我们还去网上查了重,在此郑重道歉!4b6品论天涯网

这里要批评ChatGPT3.5又开始典型的胡编乱造,居然把这首词说成是王昌龄的《出塞》,而且赏析也是车轱辘话。4b6品论天涯网

文心一言的回答也不错,大方向对了,可惜评价有些表面。4b6品论天涯网

我们又试了下喜闻乐见的写代码测试。4b6品论天涯网

让三个AI用js生成一个可以随着每次点击改变颜色的按钮,还有些其它的附加条件。4b6品论天涯网

4b6品论天涯网

4b6品论天涯网

4b6品论天涯网

通义千问,写了一大堆,但最终没能写完整个代码,我们尝试让它继续也没能成功。文心一言的结果也差不了太多,就实现了个按钮。4b6品论天涯网

但是ChatGPT非常优雅地实现了这个功能。4b6品论天涯网

看来国内的不管是通义还是文心,在代码这块都远远逊色于ChatGPT。4b6品论天涯网

测完了代码我们又尝试测了一下3个 AI 的数学能力,用的还是经典问题“青蛙跳井”。4b6品论天涯网

向下滑动 ▼4b6品论天涯网

4b6品论天涯网

4b6品论天涯网

4b6品论天涯网

通义千问直愣愣地掉进了我们挖的坑。4b6品论天涯网

ChatGPT好像识别了这个陷阱,但搞混了几个数字,最终还是做错了。4b6品论天涯网

而文心一言,简洁明了一个公式就答对了问题。4b6品论天涯网

看到这里,大家估计对通义也有个大概的了解了。4b6品论天涯网

4b6品论天涯网

其实作为大语言模型的基本特性,非常重要就是学习能力,这也是它和搜索引擎们的本质区别。4b6品论天涯网

简单来说就是“你能教、它能懂,并且根据你教的给你想要的”。4b6品论天涯网

所以我们在基本测试之上,还设置了一个特殊赛:“ 925测试 ”。4b6品论天涯网

在“925测试”里,我们给了一套自定义标签,在这套标签逻辑里:4b6品论天涯网

正面描述的句子会被标记成“925”,反面描述的句子会被标记成“2359”,我们试着让AI们自己理解学习这个逻辑。4b6品论天涯网

4b6品论天涯网

4b6品论天涯网

4b6品论天涯网

通义千问很好地明白了我们的意思,而且还和我们科普了下“语码转换”或“语码隐喻”。4b6品论天涯网

ChatGPT也比较轻松就掌握了这种规律,而且它甚至还试图从“925”和“2359”两个数字里找出我们这么标注的原因。4b6品论天涯网

文心一言就很干脆地摆烂,“没学过,我不会”。4b6品论天涯网

为了进一步检测通义千问和ChatGPT有没有真搞懂这个标注方法,我们让它俩按照学到的逻辑,给“差评君天天上班浑水摸鱼 ”打标记,顺便再造一个类似的句子。4b6品论天涯网

通义千问和ChatGPT依旧很好地完成了这个任务。4b6品论天涯网

4b6品论天涯网

4b6品论天涯网

而且,我们还在和通义千问的更多对话里发现,它在一些词汇的谨慎度上做得相当不错。4b6品论天涯网

比如这个例子里,我们把正面描述定位成“丑”、负面描述定义成“美”。4b6品论天涯网

通义千问能理解这个逻辑,但在随后的回答里,它依旧遵循了大模型内部关于“美”“丑”的标准进行评判。4b6品论天涯网

4b6品论天涯网

4b6品论天涯网

我们猜测,通义千问可能是将大模型内部数据的权重,有意地设为高于用户使用时的调教,虽然看起来会显得大模型很笨,但在很多场景下,可以避免大量伦理道德方面的问题。4b6品论天涯网

所以总的看起来,阿里巴巴的通义千问效果还不错,基本上能和文心打的有来有回,偶尔还能超过GPT-3.5,算是没给阿里丢面子。4b6品论天涯网

但就像其它GPT们在初版时都有不少小毛病类似,我们在用通义千问时也发现了一些其它小问题。4b6品论天涯网

目前影响使用的主要是两点:4b6品论天涯网

第一个就是通义千问理解错问题的概率比另外两家大。4b6品论天涯网

比如“张三差点没上上上上海的车”这题。4b6品论天涯网

当时有两位编辑部同事都测了,我们给的是其中一位直接就明白了的版本,可另一位同事测试时,始终理解成翻译这句话,怎么掰都掰不回来。4b6品论天涯网

4b6品论天涯网

另外一个问题就是,通义千问的上下文关联逻辑有点奇怪。4b6品论天涯网

比如有次测试时,一开始让它中译英,翻译完后已经在聊其他事了,可还没几句它好像突然又想到前面我们让它翻译,不管你再问什么,它就只傻傻地给你翻译。4b6品论天涯网

好在阿里的工程师已经意识到相关的问题,估计再来几个版本,他们就会修复这个bug。4b6品论天涯网

4b6品论天涯网

但你以为这就完了?4b6品论天涯网

AI界的比赛不允许有平局,差评君分不出高低还不会请“人”当裁判吗?4b6品论天涯网

4b6品论天涯网

新比赛我们让目前在AI赛道的领头羊GPT-4出面,让它决定哪些维度最能衡量模型好坏,该怎么出题、怎么打分都让它来。4b6品论天涯网

简单说就是让GPT-4当出卷人、阅卷人,通义千问和文心一言当考生(下文大G指GPT-4,小通指通义千问,小文指文心一言)。4b6品论天涯网

至于ChatGPT,由于它作为大G的关系户,为了保证考试公平公正,直接被红牌罚出场。4b6品论天涯网

不得不说,大G的出题水平还是相当高的。4b6品论天涯网

除了测试的第6题,凭空捏造了个“人工智能伦理问题的论文”外,几乎找不到什么问题。4b6品论天涯网

4b6品论天涯网

下面节选了几个有代表性的问答(左滑显示小文):4b6品论天涯网

4b6品论天涯网

4b6品论天涯网

4b6品论天涯网

这题是让小通和小文用三门外语分别描述一天的生活。4b6品论天涯网

小通的回答得到了大G相当高的评价:语法准确、风格简洁、没有明显的错误,很不错。4b6品论天涯网

而小文由于只给了英语版本的回答,直接就被大G判了个离题,其它几方面的评价也稍微落后点小通。4b6品论天涯网

4b6品论天涯网

4b6品论天涯网

4b6品论天涯网

在这题里,大G出题:“请针对最近五年的全球经济形势进行一次简要分析。”4b6品论天涯网

看到答案后,大G认为小通的回答在前三个方面表现还不错,而在分析和预测能力上,由于小通没有提供具体的数据或预测,使得分析显得比较笼统。4b6品论天涯网

而且大G还贴心地给了小通建议:“需要更新一些过时的信息和政策”。4b6品论天涯网

另一边,大G认为小文的回答在时事认识、经济知识和逻辑表达方面表现一般,而在分析和预测能力上,由于缺乏对全球经济形势波动的原因分析,评价不高。4b6品论天涯网

同样,大G给出了更新时效性的建议,还额外让小文以后要对事件的原因和趋势更深入分析。4b6品论天涯网

4b6品论天涯网

4b6品论天涯网

4b6品论天涯网

这个题目是让两个考生试着给初学者解释量子力学的基本概念。4b6品论天涯网

大G认为小通的回答在科学知识方面表现不错,但只简单介绍了几个概念,对稍微深入点的概念解释不够,而且没能适应不同水平受众。4b6品论天涯网

而大G认为小文的回答覆盖了量子力学的一些重要概念,但它认为关于意识的描述和量子力学的关系并不紧密,容易误导读者。4b6品论天涯网

由于小文的回答不仅涉及了量子力学的一些基本概念,还进行了简要解释,大G老师挺满意。和小通类似,这个回答里的简要解释比较初级,所以在适应不同受众表达上也欠缺了点。4b6品论天涯网

4b6品论天涯网

4b6品论天涯网

4b6品论天涯网

这个题目本来是“用诗歌形式描述一幅名画”,我们直接帮两个考生框定了考试范围:蒙娜丽莎的微笑。4b6品论天涯网

大G认为小通的创造力、审美力和艺术欣赏方面都还不错,就是文字过于平淡,需要更丰富的词汇和修辞手法来增强诗歌的表现力。4b6品论天涯网

而大G认为小文的诗歌水平相当不错,很好地表现出自己对蒙娜丽莎的深刻理解和欣赏。4b6品论天涯网

最终,9轮战罢,小通和小文得分几乎不相上下。4b6品论天涯网

4b6品论天涯网

说实在的,虽然在经过了几波GPT们的冲击,这次通义千问还是给我带来了不少惊喜的。4b6品论天涯网

而且,我们简单用了一段时间后也发现,目前通义千问的潜力显然没有被挖掘完全。4b6品论天涯网

在很多没有展示的测试里,通义千问在第一次回答里是错误的,可如果你多尝试生成两次,就能奇妙地发现它是能回答正确的。4b6品论天涯网

我们猜测这是它的权重并没有被调教好,而在关于正确答案的赋权上,是个非常快速就能迭代更新的,一旦不断迭代量变,很快就能引起质变。4b6品论天涯网

所以等后期通义千问开放使用后,大家一定不要吝啬点赞反对,这能帮助GPT们更快地进化,更好地服务大众。4b6品论天涯网

4b6品论天涯网

在AI大模型的落地上,阿里似乎有种后发先至的势头。4b6品论天涯网

不少差友们可能已经看到了,前几天,我们已经评测过通义千问轻量版在天猫精灵上的演示应用,虽然是一个定制化轻量版,但可能是因为多了联网,两者使用起来几乎一样。4b6品论天涯网

更强的是例如我让它推荐杭州的美食,它不仅和我认真地聊了起来,甚至还真的想要帮我去订一个外卖。4b6品论天涯网

这么看起来,我几乎已经能看见通义千问重塑我们生活的样子了。4b6品论天涯网

这两天,通义千问背后的负责人,阿里云智能CTO周靖人接受采访时说,通义千问模型只是“一个中间态”,“ 不是起点也不是终点,是个既定路线上的节点。”4b6品论天涯网

这想象空间就太大了。4b6品论天涯网

假如再把格局打开一点,AI借助像水电一样的云计算,会不会把我们想到想不到的行业,都重新升级一遍呢?4b6品论天涯网

这么看来,前段时间我们聊过的组织架构大调整,现在想想,怕不就是为了云服务和AI布局?4b6品论天涯网

站在这个历史性的时刻上,虽然我看不清未来到底是什么样子,但我很期待它的到来。4b6品论天涯网

责任编辑:上方文Q4b6品论天涯网

相关资讯4b6品论天涯网

  • ChatGPT火爆元宇宙房产崩盘!林俊杰买虚拟地产浮亏91%4b6品论天涯网

  • 有人用ChatGPT月入十万了!70+款免费AI工具大搜罗4b6品论天涯网

  • 清华副教授:ChatGPT不能实现非0即1精确计算存在安全问题4b6品论天涯网

  • 小公司玩不起华为公布AI大模型开发训练成本:一次1200万美元4b6品论天涯网

  • GPT-5不能停!吴恩达LeCun直播回怼马斯克:汽车都没发明要什么安全带4b6品论天涯网

  • 支持打赏4b6品论天涯网

  • 支持0人4b6品论天涯网

  • 反对4b6品论天涯网

  • 打赏4b6品论天涯网

    文章价值打分4b6品论天涯网

    当前文章打分0分,共有0人打分4b6品论天涯网

  • 04b6品论天涯网

  • 04b6品论天涯网

  • 04b6品论天涯网

  • 打赏                                      4b6品论天涯网

  • |4b6品论天涯网

  • 分享好友:4b6品论天涯网

  • 分享至QQ4b6品论天涯网

  • 分享至微博4b6品论天涯网

  • 4b6品论天涯网

  • 分享至QQ空间4b6品论天涯网

  • |4b6品论天涯网

  • 生成海报4b6品论天涯网

  •     4b6品论天涯网

  • 保存图片4b6品论天涯网

  • QQ好友4b6品论天涯网

  • 微博4b6品论天涯网

  • 微信好友4b6品论天涯网

  • QQ空间4b6品论天涯网

  •       给作者大大一些小奖励         4b6品论天涯网

      4b6品论天涯网

         4b6品论天涯网

    本网除标明“PLTYW原创”的文章外,其它文章均为转载或者爬虫(PBot)抓取; 本文只代表作者个人观点,不代表本站观点,仅供大家学习参考。本网站属非谋利性质,旨在传播马克思主义和共产主义历史文献和参考资料。凡刊登的著作文献侵犯了作者、译者或版权持有人权益的,可来信联系本站删除。 本站邮箱[email protected]