同一问题问10次会让ChatGPT怀疑人生多次自相矛盾-品论天涯网

美国华盛顿州立大学一项最新研究显示，在面对复杂科学论断时，大型语言模型ChatGPT虽然回答听上去十分自信，却经常“猜答案”，不仅准确率有限，而且在同一问题上前后矛盾，尤其难以识别虚假信息。zoa品论天涯网

zoa品论天涯网

该研究由华盛顿州立大学商学院市场与国际商务系副教授MesutCicek领衔，他与团队从科学研究论文中提取了大量假设性陈述，反复提交给ChatGPT，请其判断这些陈述是否得到现有研究支持，实质上是让AI对“真伪”做出判断。研究人员共选取了719条来自2021年以来商业期刊论文中的研究假设，每条假设向ChatGPT提交10次，以考察其回答的一致性。zoa品论天涯网

在首次于2024年开展的实验中，ChatGPT的“表面”正确率为76.5%；2025年重复实验后，这一数字略升至80%。然而，研究团队在剔除“蒙对”的因素、对结果按随机猜测进行统计学调整后发现，模型真实表现与“掷硬币”随机作答相比只高出约60%，远谈不上可靠，在研究者看来更接近一个“低分的D等成绩”。尤其是在识别错误陈述方面，ChatGPT的表现格外薄弱，对“假命题”的正确判断率仅为16.4%。zoa品论天涯网

一致性问题同样突出。即便在完全相同的提示词下，多次重复提问，ChatGPT也并非总给出同一结论。Cicek指出，在10次重复问答中，模型只有约73%的案例保持了回答一致。在一些具体例子中，同一假设的10次回答中，ChatGPT会出现“真、假交替”的情况，甚至出现“一半回答为真、一半回答为假”的极端情形。zoa品论天涯网

这项研究发表在《Rutgers商业评论》（RutgersBusinessReview），作者认为结果凸显了在重要决策领域使用生成式AI时必须格外谨慎，尤其是那些涉及复杂推理和细微差别的情境。Cicek强调，当前的大型语言模型可以用非常流畅、有说服力的语言回答问题，但这并不意味着它们具有真正的“理解能力”。“现有的AI工具并不是以人类那种方式理解世界——它们没有真正的‘大脑’。”他说，“它们主要是在记忆和匹配，可以提供一些洞见，但并不真正知道自己在说什么。”zoa品论天涯网

在具体方法上，研究团队由Cicek与南伊利诺伊大学的SevincgulUlu、罗格斯大学的CanUslay以及东北大学的KateKarniouchina合作完成。他们选取了719条商业期刊论文中的研究假设，这类假设往往受多种变量影响，判断一项研究是否“支持”某一假设，本身就是高度复杂的推理过程，要将这种复杂性压缩成一个简单的“是/否”判断，对工具的理解与推理能力是严峻考验。zoa品论天涯网

值得注意的是，团队分别在2024年测试了免费版ChatGPT-3.5，并在2025年测试了更新的ChatGPT-5mini，结果显示两代模型在这一任务上的整体表现相近。在同样对随机猜对因素进行调整后，两次实验中模型相对于50%“蒙对”概率的提高幅度都只有约60%。zoa品论天涯网

研究进一步指出，大型语言模型在“语言流畅度”和“真实推理能力”之间存在显著落差。这些系统可以生成结构完整、措辞自然且极具说服力的文本，但在更深层次的逻辑判断、证据权衡以及识别错误信息方面往往力不从心，这就可能产生“听起来很对、实际上有问题”的答案。zoa品论天涯网

基于上述发现，研究人员建议企业管理者和决策者在使用ChatGPT等生成式AI工具时，应始终对输出结果进行核查，并保持必要怀疑态度。他们还呼吁在组织内加强用户培训，帮助员工理解这类工具的优势与局限，避免将其视为可以替代专业判断的“权威”。Cicek指出，虽然本研究的被测对象是ChatGPT，但其他类似AI系统在相关测试中的表现也大致相仿，这项工作也延续了此前关于“AI过度炒作”的研究脉络。例如，一项2024年的全国性调查就显示，当企业在营销中强调“由AI驱动”时，反而会降低部分消费者的购买意愿。zoa品论天涯网

“无论如何，都要保持怀疑。”Cicek说，“我并不反对AI，我自己也在用，但你必须非常小心地对待它。”zoa品论天涯网

同一问题问10次会让ChatGPT怀疑人生 多次自相矛盾

同一问题问10次会让ChatGPT怀疑人生多次自相矛盾