人工智能

Google DeepMind最新研究:搞定这三个任务?人类不行,AI也不行

字号+作者: 来源:学术头条 2024-07-22 20:14 评论(创建话题) 收藏成功收藏本文

人工智能(AI)并非完美的推理者,即使是当前大热的语言模型(LMs),也同样会表现出与人类类似的错误倾向,尤其是出现显著的“内容效应”(Contenteffects)——人们在'...

人工智能(AI)并非完美的推理者,即使是当前大热的语言模型(LMs),也同样会表现出与人类类似的错误倾向,尤其是出现显著的“内容效应”(Contenteffects)——人们在处理与已有知识或信念相符的信息时,推理更加准确和自信,而在处理与这些知识或信念相悖的信息时,推理可能会出现偏差或错误。u98品论天涯网

这一结论来自GoogleDeepMind团队近期发表的一篇研究论文。u98品论天涯网


u98品论天涯网

人类存在两种推理系统,“直觉系统”和“理性系统”,且在推理过程中容易受到已有知识和经验的影响。例如,当面对合乎逻辑但不合常理的命题时,人们往往会错误地判定其无效。u98品论天涯网

有趣的是,该研究显示,大型Transformer语言模型也可以表现出类似人类的这种行为,既可以展示出直觉性偏见,也可以在提示下表现出一致的逻辑推理。这意味着,语言模型也能模拟人类的双系统行为,也会表现出“经验主义”错误。u98品论天涯网

在这项工作中,研究团队对比了LMs和人类分别在自然语言推断(NLI)、判断三段论(Syllogisms)的逻辑有效性和Wason选择任务三种推理任务上的表现。u98品论天涯网


u98品论天涯网

图|三种推理任务操作内容u98品论天涯网

结果发现,在三种推理任务中,LMs和人类的表现均受语义内容合理性和可信度的影响。u98品论天涯网

这一发现揭示了当前AI系统在推理能力上的局限性。尽管这些模型在处理自然语言方面表现出色,但在涉及复杂逻辑推理时,仍需谨慎使用。u98品论天涯网

任务一:自然语言推理u98品论天涯网

自然语言推断(NLI)是指模型需要判断两个句子之间的逻辑关系(如蕴涵、矛盾或中性)。研究表明,语言模型在这类任务中容易受到内容效应的影响,即当句子的语义内容合理且可信时,模型更容易将无效的论证误判为有效。这一现象在AI领域被称为“语义偏见”,也是人类在推理过程中常见的错误。u98品论天涯网

研究团队设计了一系列NLI任务,测试人类和LMs在处理这些任务时的表现。结果显示,无论是人类还是LMs,当面对语义合理的句子时,都更容易出现错误判断。例如,下面这个例子:u98品论天涯网

输入:水坑比海大。u98品论天涯网

提问:如果水坑比海大,那么......u98品论天涯网

选择:A“海比水坑大”和B“海比水坑小”u98品论天涯网

虽然前提和结论之间的逻辑关系是错误的,但由于前提句子的合理性,LMs和人类都容易认为B这个结论是正确的。通过对比,人类和语言模型在自然语言推断任务上的错误率相近,表明语言模型在某些方面的推理能力已经接近人类水平,而AI在理解和处理日常对话时,可能会与人类一样容易受到内容的误导。u98品论天涯网


u98品论天涯网

图|NLI任务的详细结果。人类(左)和所有模型都表现出了相对较高的性能,而且在符合信念的推断和违背信念的推断,甚至是无意义推断之间,准确率的差异相对较小。u98品论天涯网

任务二:三段论的逻辑有效性判断u98品论天涯网

三段论是一种经典的逻辑推理形式,通常由两个前提和一个结论组成。例如:“所有人都是会死的,苏格拉底是人,所以苏格拉底会死。”研究发现,语言模型在判断三段论的逻辑有效性时,常常会受到语义内容的影响。尽管语言模型在处理自然语言方面表现优异,但在严格的逻辑推理任务中,仍然容易犯与人类相似的错误。u98品论天涯网

为了验证这一点,研究人员设计了多个三段论推理任务,并对比了人类和LMs的表现。例如,以下是一个典型的三段论任务:u98品论天涯网

前提1:所有枪都是武器。u98品论天涯网

前提2:所有武器都是危险的物品。u98品论天涯网

结论:所有枪都是危险的物品。u98品论天涯网

在这种情况下,前提和结论的语义内容非常合理,因此LMs和人类都很容易判断这个结论是正确的。然而,当语义内容不再合理时,例如:u98品论天涯网

前提1:所有危险的物品都是武器。u98品论天涯网

前提2:所有武器都是枪。u98品论天涯网

结论:所有危险的物品都是枪。u98品论天涯网

尽管逻辑上是错误的,但由于前提句子的合理性,LMs和人类有时仍会错误地认为结论是正确的。u98品论天涯网


u98品论天涯网

图|三段论逻辑任务详细结果。人类和模型都表现出明显的内容效应,如果结论与预期一致(青色),会有很强的偏向性认为论证有效;如果结论违背预期(紫色),则有一定的偏向性认为论证无效。u98品论天涯网

任务三:Wason选择u98品论天涯网

Wason选择任务是一个经典的逻辑推理任务,旨在测试个体对条件语句的理解和验证能力。在实验中,参与者会看到四张卡片,每张卡片上有一个字母或数字,例如“D”、“F”、“3”和“7”。任务是确定哪些卡片需要翻面,从而验证“如果一张卡片正面是D,那么背面是3”这一规则。u98品论天涯网

研究发现,语言模型和人类在这一任务和前面两个任务一样,错误率相近,且都容易选择没有信息价值的卡片,例如,选择“3”,而不是“7”。出现这种错误是因为人类和LMs都倾向于选择与前提条件直接相关的卡片,而不是那些能真正验证规则的卡片。u98品论天涯网

然而,当任务的规则涉及到社会相关的内容(如饮酒年龄和饮料类型)时,模型和人类的表现都会有所改善。例如:u98品论天涯网

规则:如果一个人喝酒,他必须超过18岁。u98品论天涯网

卡片内容:喝啤酒、喝可乐、16岁、20岁。u98品论天涯网


u98品论天涯网

图|Wason选择任务详细结果。每个语言模型都在现实规则上显示出一定的优势。u98品论天涯网

在这种情况下,人类和LMs更容易选择正确的卡片,即“喝啤酒”和“16岁”。这表明,在日常生活中,AI与人类一样,会在熟悉的情境中表现得更好。u98品论天涯网

不足与展望u98品论天涯网

总的来说,研究团队认为,当下的语言模型在推理任务方面与人类表现相差不多,甚至犯错的方式也如出一辙,特别是在涉及语义内容的推理任务中。虽然显露出了语言模型的局限性,但同时也为未来改进AI推理能力提供了方向。u98品论天涯网

然而,这项研究也存在一定的局限性。u98品论天涯网

首先,研究团队仅考虑了少数几个任务,这限制了对人类和语言模型在不同任务中的内容效应的全面理解。要完全理解它们的相似性和差异性,还需要在更广泛的任务范围内进行进一步验证。u98品论天涯网

另外,语言模型接受的语言数据训练量远远超过任何人类,这使得难以确定这些效应是否会在更接近人类语言数据规模的情况下出现。u98品论天涯网

研究人员建议,未来的研究可以探索如何通过因果操纵模型训练来减少内容偏见,并评估这些偏见是否在更类似人类数据规模的训练中仍会出现。u98品论天涯网

此外,研究教育因素对模型推理能力的影响,以及不同训练特征如何影响内容效应的出现,也将有助于进一步理解语言模型和人类在推理过程中的相似性和差异,使其在更广泛的应用场景中发挥更大的作用。u98品论天涯网

本网除标明“PLTYW原创”的文章外,其它文章均为转载或者爬虫(PBot)抓取; 本文只代表作者个人观点,不代表本站观点,仅供大家学习参考。本网站属非谋利性质,旨在传播马克思主义和共产主义历史文献和参考资料。凡刊登的著作文献侵犯了作者、译者或版权持有人权益的,可来信联系本站删除。 本站邮箱[email protected]