人工智能

同一问题问10次会让ChatGPT怀疑人生 多次自相矛盾

字号+作者:cnBeta.COM 来源:cnBeta 2026-03-19 13:28 评论(创建话题) 收藏成功收藏本文

美国华盛顿州立大学一项最新研究显示,在面对复杂科学论断时,大型语言模型ChatGPT虽然回答听上去十分自信,却经常“猜答案”,不仅准确率有限,而且在同一问题'...

美国华盛顿州立大学一项最新研究显示,在面对复杂科学论断时,大型语言模型ChatGPT虽然回答听上去十分自信,却经常“猜答案”,不仅准确率有限,而且在同一问题上前后矛盾,尤其难以识别虚假信息。jN4品论天涯网


jN4品论天涯网

该研究由华盛顿州立大学商学院市场与国际商务系副教授MesutCicek领衔,他与团队从科学研究论文中提取了大量假设性陈述,反复提交给ChatGPT,请其判断这些陈述是否得到现有研究支持,实质上是让AI对“真伪”做出判断。研究人员共选取了719条来自2021年以来商业期刊论文中的研究假设,每条假设向ChatGPT提交10次,以考察其回答的一致性。jN4品论天涯网

在首次于2024年开展的实验中,ChatGPT的“表面”正确率为76.5%;2025年重复实验后,这一数字略升至80%。然而,研究团队在剔除“蒙对”的因素、对结果按随机猜测进行统计学调整后发现,模型真实表现与“掷硬币”随机作答相比只高出约60%,远谈不上可靠,在研究者看来更接近一个“低分的D等成绩”。尤其是在识别错误陈述方面,ChatGPT的表现格外薄弱,对“假命题”的正确判断率仅为16.4%。jN4品论天涯网

一致性问题同样突出。即便在完全相同的提示词下,多次重复提问,ChatGPT也并非总给出同一结论。Cicek指出,在10次重复问答中,模型只有约73%的案例保持了回答一致。在一些具体例子中,同一假设的10次回答中,ChatGPT会出现“真、假交替”的情况,甚至出现“一半回答为真、一半回答为假”的极端情形。jN4品论天涯网

这项研究发表在《Rutgers商业评论》(RutgersBusinessReview),作者认为结果凸显了在重要决策领域使用生成式AI时必须格外谨慎,尤其是那些涉及复杂推理和细微差别的情境。Cicek强调,当前的大型语言模型可以用非常流畅、有说服力的语言回答问题,但这并不意味着它们具有真正的“理解能力”。“现有的AI工具并不是以人类那种方式理解世界——它们没有真正的‘大脑’。”他说,“它们主要是在记忆和匹配,可以提供一些洞见,但并不真正知道自己在说什么。”jN4品论天涯网

在具体方法上,研究团队由Cicek与南伊利诺伊大学的SevincgulUlu、罗格斯大学的CanUslay以及东北大学的KateKarniouchina合作完成。他们选取了719条商业期刊论文中的研究假设,这类假设往往受多种变量影响,判断一项研究是否“支持”某一假设,本身就是高度复杂的推理过程,要将这种复杂性压缩成一个简单的“是/否”判断,对工具的理解与推理能力是严峻考验。jN4品论天涯网

值得注意的是,团队分别在2024年测试了免费版ChatGPT-3.5,并在2025年测试了更新的ChatGPT-5mini,结果显示两代模型在这一任务上的整体表现相近。在同样对随机猜对因素进行调整后,两次实验中模型相对于50%“蒙对”概率的提高幅度都只有约60%。jN4品论天涯网

研究进一步指出,大型语言模型在“语言流畅度”和“真实推理能力”之间存在显著落差。这些系统可以生成结构完整、措辞自然且极具说服力的文本,但在更深层次的逻辑判断、证据权衡以及识别错误信息方面往往力不从心,这就可能产生“听起来很对、实际上有问题”的答案。jN4品论天涯网

基于上述发现,研究人员建议企业管理者和决策者在使用ChatGPT等生成式AI工具时,应始终对输出结果进行核查,并保持必要怀疑态度。他们还呼吁在组织内加强用户培训,帮助员工理解这类工具的优势与局限,避免将其视为可以替代专业判断的“权威”。Cicek指出,虽然本研究的被测对象是ChatGPT,但其他类似AI系统在相关测试中的表现也大致相仿,这项工作也延续了此前关于“AI过度炒作”的研究脉络。例如,一项2024年的全国性调查就显示,当企业在营销中强调“由AI驱动”时,反而会降低部分消费者的购买意愿。jN4品论天涯网

“无论如何,都要保持怀疑。”Cicek说,“我并不反对AI,我自己也在用,但你必须非常小心地对待它。”jN4品论天涯网

本网除标明“PLTYW原创”的文章外,其它文章均为转载或者爬虫(PBot)抓取; 本文只代表作者个人观点,不代表本站观点,仅供大家学习参考。本网站属非谋利性质,旨在传播马克思主义和共产主义历史文献和参考资料。凡刊登的著作文献侵犯了作者、译者或版权持有人权益的,可来信联系本站删除。 本站邮箱[email protected]