Google DeepMind最新研究：搞定这三个任务？人类不行，AI也不行-品论天涯网

人工智能（AI）并非完美的推理者，即使是当前大热的语言模型（LMs），也同样会表现出与人类类似的错误倾向，尤其是出现显著的“内容效应”（Contenteffects）——人们在处理与已有知识或信念相符的信息时，推理更加准确和自信，而在处理与这些知识或信念相悖的信息时，推理可能会出现偏差或错误。0wE品论天涯网

这一结论来自GoogleDeepMind团队近期发表的一篇研究论文。0wE品论天涯网

0wE品论天涯网

人类存在两种推理系统，“直觉系统”和“理性系统”，且在推理过程中容易受到已有知识和经验的影响。例如，当面对合乎逻辑但不合常理的命题时，人们往往会错误地判定其无效。0wE品论天涯网

有趣的是，该研究显示，大型Transformer语言模型也可以表现出类似人类的这种行为，既可以展示出直觉性偏见，也可以在提示下表现出一致的逻辑推理。这意味着，语言模型也能模拟人类的双系统行为，也会表现出“经验主义”错误。0wE品论天涯网

在这项工作中，研究团队对比了LMs和人类分别在自然语言推断（NLI）、判断三段论（Syllogisms）的逻辑有效性和Wason选择任务三种推理任务上的表现。0wE品论天涯网

0wE品论天涯网

图|三种推理任务操作内容0wE品论天涯网

结果发现，在三种推理任务中，LMs和人类的表现均受语义内容合理性和可信度的影响。0wE品论天涯网

这一发现揭示了当前AI系统在推理能力上的局限性。尽管这些模型在处理自然语言方面表现出色，但在涉及复杂逻辑推理时，仍需谨慎使用。0wE品论天涯网

任务一：自然语言推理0wE品论天涯网

自然语言推断（NLI）是指模型需要判断两个句子之间的逻辑关系（如蕴涵、矛盾或中性）。研究表明，语言模型在这类任务中容易受到内容效应的影响，即当句子的语义内容合理且可信时，模型更容易将无效的论证误判为有效。这一现象在AI领域被称为“语义偏见”，也是人类在推理过程中常见的错误。0wE品论天涯网

研究团队设计了一系列NLI任务，测试人类和LMs在处理这些任务时的表现。结果显示，无论是人类还是LMs，当面对语义合理的句子时，都更容易出现错误判断。例如，下面这个例子：0wE品论天涯网

输入：水坑比海大。0wE品论天涯网

提问：如果水坑比海大，那么......0wE品论天涯网

选择：A“海比水坑大”和B“海比水坑小”0wE品论天涯网

虽然前提和结论之间的逻辑关系是错误的，但由于前提句子的合理性，LMs和人类都容易认为B这个结论是正确的。通过对比，人类和语言模型在自然语言推断任务上的错误率相近，表明语言模型在某些方面的推理能力已经接近人类水平，而AI在理解和处理日常对话时，可能会与人类一样容易受到内容的误导。0wE品论天涯网

0wE品论天涯网

图｜NLI任务的详细结果。人类（左）和所有模型都表现出了相对较高的性能，而且在符合信念的推断和违背信念的推断，甚至是无意义推断之间，准确率的差异相对较小。0wE品论天涯网

任务二：三段论的逻辑有效性判断0wE品论天涯网

三段论是一种经典的逻辑推理形式，通常由两个前提和一个结论组成。例如：“所有人都是会死的，苏格拉底是人，所以苏格拉底会死。”研究发现，语言模型在判断三段论的逻辑有效性时，常常会受到语义内容的影响。尽管语言模型在处理自然语言方面表现优异，但在严格的逻辑推理任务中，仍然容易犯与人类相似的错误。0wE品论天涯网

为了验证这一点，研究人员设计了多个三段论推理任务，并对比了人类和LMs的表现。例如，以下是一个典型的三段论任务：0wE品论天涯网

前提1：所有枪都是武器。0wE品论天涯网

前提2：所有武器都是危险的物品。0wE品论天涯网

结论：所有枪都是危险的物品。0wE品论天涯网

在这种情况下，前提和结论的语义内容非常合理，因此LMs和人类都很容易判断这个结论是正确的。然而，当语义内容不再合理时，例如：0wE品论天涯网

前提1：所有危险的物品都是武器。0wE品论天涯网

前提2：所有武器都是枪。0wE品论天涯网

结论：所有危险的物品都是枪。0wE品论天涯网

尽管逻辑上是错误的，但由于前提句子的合理性，LMs和人类有时仍会错误地认为结论是正确的。0wE品论天涯网

0wE品论天涯网

图｜三段论逻辑任务详细结果。人类和模型都表现出明显的内容效应，如果结论与预期一致（青色），会有很强的偏向性认为论证有效；如果结论违背预期（紫色），则有一定的偏向性认为论证无效。0wE品论天涯网

任务三：Wason选择0wE品论天涯网