人工智能

苹果AI科学家研究证明基于LLM的模型存在缺陷 因为它们无法推理

字号+作者: 来源:cnBeta 2024-10-13 02:09 评论(创建话题) 收藏成功收藏本文

苹果公司人工智能科学家的一篇新论文发现,基于大型语言模型的引擎(如Meta和OpenAI的引擎)仍然缺乏基本的推理能力。该小组提出了一个新的基准--GSM-Symbol'...

苹果公司人工智能科学家的一篇新论文发现,基于大型语言模型的引擎(如Meta和OpenAI的引擎)仍然缺乏基本的推理能力。该小组提出了一个新的基准--GSM-Symbolic,以帮助其他人衡量各种大型语言模型(LLM)的推理能力。他们的初步测试表明,查询措辞的细微变化会导致答案的显著不同,从而损害模型的可靠性。4dZ品论天涯网


4dZ品论天涯网

研究小组通过在查询中添加人类可以理解的上下文信息来研究数学推理的"脆弱性",但这些信息不应影响解决方案的基本数学。这导致了不同的答案,而这是不应该发生的。4dZ品论天涯网

该小组在报告中写道:"具体来说,[即使]在GSM符号基准中只改变问题中的数值,所有模型的性能都会下降。此外,这些模型中数学推理的脆弱性[表明],随着问题中分句数量的增加,它们的性能也会显著下降。"4dZ品论天涯网

研究发现,哪怕只增加一个看似与给定数学问题相关的句子,都会使最终答案的准确率降低高达65%。研究得出结论:"根本无法在这个基础上建立可靠的代理,在这个基础上改变一两个无关紧要的单词或添加一些无关紧要的信息就能得到不同的答案。"4dZ品论天涯网

一个能说明问题的特殊例子是一个需要真正理解问题的数学问题。团队开发的任务名为"GSM-NoOp",类似于小学生可能会遇到的数学"文字题"。4dZ品论天涯网

查询以得出结果所需的信息开始。"奥利弗周五摘了44个猕猴桃。然后周六他摘了58个猕猴桃。周日,他摘的猕猴桃数量是周五的两倍。"4dZ品论天涯网

然后,查询添加了一个看似相关但实际上与最终答案无关的子句,指出在周日采摘的猕猴桃中,"有五个比平均值小一点",而所要求的答案只是问"奥利弗有多少个猕猴桃?"4dZ品论天涯网

关于周日采摘的一些猕猴桃大小的说明应该与采摘的猕猴桃总数无关。然而,OpenAI的模型以及Meta的Llama3-8b从总结果中减去了五个较小的猕猴桃。4dZ品论天涯网

这一错误逻辑得到了2019年的一项研究的支持,该研究通过询问前两届超级碗四分卫的年龄,可靠地混淆了人工智能模型。通过添加他们参加比赛的背景和相关信息,以及在另一场碗赛中担任四分卫的第三人,模型得出了错误的答案。4dZ品论天涯网

新研究得出结论:"我们没有发现语言模型中存在形式推理的证据。LLMS的行为"最好用复杂的模式匹配来解释",研究发现这种模式匹配"事实上非常脆弱,[仅仅]改变名称就能改变结果"。4dZ品论天涯网

本网除标明“PLTYW原创”的文章外,其它文章均为转载或者爬虫(PBot)抓取; 本文只代表作者个人观点,不代表本站观点,仅供大家学习参考。本网站属非谋利性质,旨在传播马克思主义和共产主义历史文献和参考资料。凡刊登的著作文献侵犯了作者、译者或版权持有人权益的,可来信联系本站删除。 本站邮箱[email protected]