人工智能

上手通义千问2.0后 我才发现大模型的天敌是伍佰

大模型,它又双叒来了。今年上半年,那波大模型1.0 狂轰滥炸之后。随着时间的推移,各家打磨的下一代大模型,最近开始慢慢问世了。这不,前两天文心一言4.0 才发'...

大模型,它又双叒来了。今年上半年,那波大模型1.0 狂轰滥炸之后。随着时间的推移,各家打磨的下一代大模型,最近开始慢慢问世了。这不,前两天文心一言4.0 才发。今天云栖大会上,通义千问2.0 就马上跟进,还上了个APP。最重要的是,这次通义2.0直接开放给全社会体验。点进通义千问,就能直接用上最新版。5XQ品论天涯网

5XQ品论天涯网

这点还是挺有诚意,有兴趣的差友们,都可以亲自上手试试了 ~ 不过,按照咱们传统,世超还是会先带大家简单感受一下,全新升级的2.0 有啥不同。也方便大家上手时,有个大致的体验方向。5XQ品论天涯网

5XQ品论天涯网

这回的通义2.0,说是已经超过ChatGPT3.5,缩短了和GPT-4的差距。5XQ品论天涯网

但是,世超一上手,就觉得稍微有点失望,因为这个2.0 版依旧不支持联网。不过虽然不具备联网能力,但世超试着问了一些热梗。5XQ品论天涯网

比如 “ 哪李贵了 ”、“ 这是一个lonely的问题 ”,它居然全都能够读懂。5XQ品论天涯网

5XQ品论天涯网

这些回答不靠联网,纯靠手动更新数据库。只能说,确实挺努力的。但不管更新多快,我们都没法当联网AI测试了。5XQ品论天涯网

只能从基本能力入手,分别是语义理解、逻辑、多模态能力、文本生成、代码这五个方面,稍微探探底子咋样。首先,依照国际惯例,来点喜闻乐见的弱智吧问题。5XQ品论天涯网

世超一来就问道,连GPT-4都傻眼的题目。问:这世上真的有龙,我就在某地被一条龙服务过。上回,GPT-4就是被这两条龙给绕晕了,给我编了一堆虚构的成语来历。5XQ品论天涯网

5XQ品论天涯网

结果让人有点意外,通义居然能完美应对。能完全理解两个龙的区别是啥,也能明白 “ 一条龙 ” 服务是啥意思。开局第一问,通义这小子应对的还不错。5XQ品论天涯网

5XQ品论天涯网

不过,为了防止通义会不会有备而来,偷偷训练了,世超又去弱智吧上了点新货。5XQ品论天涯网

问:为什么抄袭永远都是今人抄袭古人,没有古人抄袭今人。5XQ品论天涯网

这回通义就有点应付不来了。它结论是对的,因为时间顺序,古人当然不能抄今人。5XQ品论天涯网

5XQ品论天涯网

但是,仔细看就会发现,后面还是说错了一句。它说,这并不是说古人就不会借鉴今人。估计通义本来是想正反面论证,显得更客观,结果就是反而暴露了逻辑马脚。5XQ品论天涯网

5XQ品论天涯网

其实世超试过这么多中文语义题,没有哪个大模型是都能做对的。你多问几题,换换角度,总是会做错几道。比如问:小偷偷偷偷东西,什么意思?5XQ品论天涯网

通义语义解释为小偷偷取东西,是没啥问题的。但是前半句又说句子里有3个偷,说这是中文绕口令,就有些问题了。5XQ品论天涯网

5XQ品论天涯网

不过,从结果来看,三道题算是对了2.5道,通义的中文语义理解算是不错的。5XQ品论天涯网

好了,让咱们测试继续。下题还是从中文下手,问点中文语境下比较难的文本生成题。以前每次都测写小作文或者故事,这次整点花活。5XQ品论天涯网

让它用诸葛亮的语气,写首rap听听。这一题,通义答得就有点意思了。Rap词里又是孔明,又是卧龙;又是静坐军帐、轻抚瑶琴,又是小试牛刀的。既符合诸葛亮的人物属性,又语言活泼。唯一美中不足就是没押上韵。5XQ品论天涯网

5XQ品论天涯网

不过,世超进一步考验它的发散思维,又有点表现不行了。5XQ品论天涯网

让它给我编个马斯克和孔子的对话。然后,就看到孔子嘴里说出了 “ 人工智能 ” 四个字。。其他语句,也不太符合人物性格。5XQ品论天涯网

5XQ品论天涯网

从前面两轮测试看下来,通义2.0 的中文水平是能听能写,但还没有到能自如应对。发挥不太稳,有时能对,有时又会犯傻。5XQ品论天涯网

其实大模型都有这样的毛病,咱们到底能不能把它应用起来,靠的是另一个东西——学习能力。5XQ品论天涯网

就比如让大模型直接做一个直播策划,往往出来的内容都是不够成熟的。这个时候,就看它们会不会学了。当你甩一些参考案例给它,它们能够理解教程的意思,并模仿出来,这才是最重要的。5XQ品论天涯网

这点,世超觉得通义做的是不错的,大家直接看案例就行。世超让它做个电动牙刷的直播流程。并提前丢了一个蜜雪冰城的参考,引导了一下。5XQ品论天涯网

立马就学会了,并甩了一份非常详细的直播流程。开场、留客、锁客学的一套一套的。。中文理解、学习和文本生成都相当在线。5XQ品论天涯网

5XQ品论天涯网

到这一步,中文能力测试算暂时告一段落了。下面看看大模型的究极弱项——数学逻辑题和代码,是否有提高。5XQ品论天涯网

当年考倒过无数大模型的 “ 鸡兔同笼 ” 、 “ 青蛙跳井 ” 等等简单的数学题,通义应对起来是没问题了。就算稍微给题目变一下形,也是分步解答,轻松驾驭。5XQ品论天涯网

5XQ品论天涯网

但也是跟很多大模型一样的毛病,题目一旦难起来,到个初高中水平,就傻眼了。问它:任取三个长度小于1的线段,能组成一个三角形的概率为?5XQ品论天涯网

它和我说, 0 个交点组不成三角形,1个和3个交点组得成。。。我去,这么简单的解题思路,我怎么没想到呢?5XQ品论天涯网

5XQ品论天涯网

以前有差友问说,大模型能不能用来改试卷。如果是数学老师,那世超建议还是三思。。通义确实是进步了,不过只进步到了小升初水平。数学题这种严格推理的题目,对大模型来说还是一块最难啃的骨头。5XQ品论天涯网

不过,在代码方面,世超倒是没有把通义问倒,它应答自如。甩了一堆要求,让它做一个非常简洁的差评双十一大促页面。5XQ品论天涯网

5XQ品论天涯网

人家三下五除二就做完了,效果还是非常符合差评的审美的,需要预留的位置也都做了。虽然可能为了严格执行我对于页面简洁的要求,所以导致看起来有点过于明了了。5XQ品论天涯网

5XQ品论天涯网

测试到这里,还没有结束。除了基础能力的提高之外,通义还增加了图片和文档解析两个新功能。其实像图片上传功能,是很多家的重点攻克对象,GPT-4后续也主要是在这一块发力了。5XQ品论天涯网

不过,世超试下来,通义目前的图片解析能力,还是有点弱的。基础图片识别,是没啥问题的。比如丢个马斯克给他,问它这哪位。它能一眼认出,还顺道给你科普上两句。5XQ品论天涯网

5XQ品论天涯网

但是,如果加点抽象互联网难度,比如说世超给了一张自己桌子上的玩偶,让它给我分析分析。5XQ品论天涯网

5XQ品论天涯网

它虽然能认出了这是 “ 小鸡 ”,还有打篮球这两个元素。但不太理解图片里的梗,还坚持不懈地胡诌了一段 “ 灌篮小鸡 ” 梗的来历。。5XQ品论天涯网

5XQ品论天涯网

我们的伍佰老师,更是轻而易举地把通义耍得团团转。给了一张 “ 随520” 的梗图,里面是一张伍佰老师的靓照和一张20 元人民币。5XQ品论天涯网

5XQ品论天涯网

结果,通义不光读不懂什么梗,连图片里有多少钱也数不明白了。5XQ品论天涯网

5XQ品论天涯网

图片识别能力更被彻底地干垮了,指着伍佰说,这是吴彦祖。。。5XQ品论天涯网

5XQ品论天涯网

不仅图片上传还差点意思,后面世超试了试文档功能,也轻松把通义考倒了。世超甩了一篇电动牙刷的行业报告给它,问了句电动牙刷行业的发展痛点是啥。通义嘎嘎一顿总结,各种分点罗列,系统分析。看起来答的很努力,实际答案全错了。5XQ品论天涯网

5XQ品论天涯网

原因很简单,这里世超特地挖了个坑,预防大模型会胡说八道。5XQ品论天涯网

所以,给的文档里只有目录,没有内容。通义这些分析是不错,可惜全是胡编的,跟我的参考资料没半点关系。。5XQ品论天涯网

5XQ品论天涯网

几轮测试结束,通义同学的成绩是一目了然了。5XQ品论天涯网

虽然整体来没有特别亮眼的强悍更新,但也算稳扎稳打,基本能力提高得更扎实,学习能力也一直在线。但其中,图片和文档俩能力,还有挺大的提升空间的。5XQ品论天涯网

其实,比起通义千问,世超觉得自己闲逛时发现的产品,更有意思。阿里通义官网里,还有七大产品方向,比如代码助手、客服等等。虽然大部分还是内测,都试用不了。不过,世超了一下开放的通义智文,文档体验比通义千问要好不少。5XQ品论天涯网

5XQ品论天涯网

这个产品是专门用来解读文档的,你不仅可以丢长篇的电子书,也可以甩各种文章链接给它。5XQ品论天涯网

世超试着把前面挖坑的行业目录,输入进去。通义智文就没有中招。不仅明确指出里面没提到,回答还标注出,数据来源于文章里的那几句。这点设计的就挺好,避免了胡言乱语。5XQ品论天涯网

5XQ品论天涯网

比起通义千问本身,世超反而更期待这些专项训练的应用大模型。大部分工种,只用得到通识大模型一两个功能。像世超这种码字的,需要的就是文本分析和生成。5XQ品论天涯网

更针对性的训练,其实更有助于提高大模型的实用性。不仅是从能力方面考虑,其实现在挺多大模型都到了一个平台期,很难有极大的突破。从这些小点入手,或许会成为一个更好的解题思路。5XQ品论天涯网


本网除标明“PLTYW原创”的文章外,其它文章均为转载或者爬虫(PBot)抓取; 本文只代表作者个人观点,不代表本站观点,仅供大家学习参考。本网站属非谋利性质,旨在传播马克思主义和共产主义历史文献和参考资料。凡刊登的著作文献侵犯了作者、译者或版权持有人权益的,可来信联系本站删除。 本站邮箱[email protected]