划重点:
- Galileo Lab 的新指标可以帮助改进生成 AI 的准确性,检测 AI 幻觉问题。
- OpenAI GPT-4在基本问答任务中有大约23% 的幻觉倾向,其他模型则更差,达到60%。
- Galileo Labs 开发的新指标包括正确性和上下文一致性,可以帮助企业在其 AI 实现中测试和减轻幻觉问题。
站长之家(ChinaZ.com) 11月28日 消息:幻觉问题正在成为AI一个主要问题,因为新的 AI 工具在喷发出具有权威性的废话方面越来越出色。实际上,剑桥词典将 “幻觉” 定为2023年的年度词汇。
研究人员和供应商正在开发一系列新算法,以检测和减轻在驱动 ChatGPT 和日益用于企业应用的大型语言模型(LLMs)中出现的幻觉问题。其中一个新工具是 Galileo Labs 的新幻觉指标,它根据 LLMs 的幻觉倾向对其进行排名。
值得注意的是,OpenAI GPT-4,表现最好的模型之一,在基本问答任务中大约有23% 的幻觉倾向。其他一些模型则更差,幻觉倾向达到60%。在幕后,事情要复杂一些,并利用了新开发的度量标准,如正确性和上下文一致性。该公司还开发了工具和工作流程,以帮助企业在其自己的 AI 实现中测试和减轻这些幻觉问题。
图源备注:图片由AI生成,图片授权服务商Midjourney
Galileo Labs 的联合创始人兼首席执行官 Vikram Chatterji 表示,该公司将幻觉定义为生成的信息或数据在事实上是不正确的、不相关的或没有根据所提供的输入进行验证的。幻觉的性质及其如何测量取决于任务类型,这就是为什么他们按任务类型来构建了幻觉指数的原因。
例如,在需要上下文的问答场景中,LLM 必须检索正确的上下文,并根据检索到的上下文提供基于上下文的响应。使用检索增强生成等技术,可以为 LLM 提供一些相关的摘要,从而通常改进结果。然而,GPT-4在使用检索增强生成时实际上效果稍差。
在其他情况下,例如长篇文本生成,能够测试 LLM 提供的响应的真实性是很重要的。在这里,新的正确性度量标准可以识别不与任何具体文件或上下文相关的事实错误。
Chatterji 表示,他们已经确定了几个影响 LLM 幻觉倾向的因素。其中一些因素包括:
任务类型:LLM 是否被要求完成特定领域或通用任务?在 LLM 被要求回答特定领域问题(例如引用公司文件并回答问题)的情况下,LLM 是否能够有效地引用和检索所需的上下文?
LLM 规模:LLM 被训练的参数有多少?更大并不总是意味着更好。
上下文窗口:在需要检索增强生成的特定领域场景中,LLM 的上下文窗口和限制是什么?例如,加州大学伯克利分校、斯坦福大学和 Samaya AI 研究人员最近发表的一篇论文强调了 LLM 无法有效检索提供文本中间位置的信息。
Chatterji 承认还有许多其他因素需要考虑,因为幻觉是多方面的,需要细致入微的方法。为了简化检测幻觉的过程,Galileo Labs 的研究人员开发了一种新的幻觉检测方法,称为 ChainPoll。他们最近的一篇论文详细介绍了它的工作原理。
但从高层次上来看,他们声称这种方法比以前的幻觉检测技术更具成本效益,大约节约了20倍的成本。它利用了一种称为思维成本的提示工程方法,可以帮助从模型中引出具体和系统化的解释,以便用户更好地理解为什么会发生幻觉,并且这是迈向更可解释的 AI 的重要一步。
这些新工具帮助 Galileo Labs 的研究人员开发了 Hallucination Index 中使用的两个幻觉评估指标。Chatterji 认为,与竞争方法相比,这些新指标似乎在量化 LLM 输出质量方面做得更好,而且适用于常见任务类型(如聊天、摘要和生成),无论是否使用检索增强生成,同时还具有成本效益、高效和快速处理的特点。它们似乎也与人类反馈相关性较高。
需要注意的是,这些指标反映的是幻觉发生的概率,而不是幻觉的绝对度量。例如,0.70的正确性得分表示回答中有30% 的幻觉概率。关于新指标的细微之处如下:
正确性:衡量给定模型回答是否准确。正确性揭示了所谓的开放领域幻觉,即不与任何具体文件或上下文相关的事实错误。正确性得分越高,回答准确的概率越高。这对于评估长篇文本生成和无检索增强的问答任务很有用。
上下文一致性:上下文一致性评估模型回答与给定上下文的严格一致程度,作为衡量闭域幻觉的度量标准,即模型生成与提供给模型的上下文不一致的内容。较低的得分表示模型回答不包含在所提供的上下文中。这对于评估具有检索增强的问答任务很有用。
由于在各种任务中使用了不同的指标,因此不能进行真正的苹果对苹果的比较。例如,GPT-4在无检索增强的问答任务中的正确性得分为0.77,但在使用检索增强时的上下文一致性得分略低,为0.76。大多数其他模型在使用检索增强时改善了相关指标。
这些指标为构建 LLM 应用的团队提供了持续的反馈循环,并显著减少了启动安全可靠的 LLM 应用所需的开发时间。Chatterji 解释道:
这些指标使团队能够在开发过程中对提示、上下文、模型选择等进行迭代和测试,找到有效的组合。这些指标还允许团队在生产中评估 LLM 输出。凭借这些指标,团队可以快速识别需要额外关注的输入和输出,以及驱动这种次优行为的基础数据、上下文和提示。
企业团队已经在开发工作流程中使用这些幻觉检测指标。它们还有助于生产监控,并在输出开始下降时触发主动警报和通知。
然而,值得注意的是,这些新指标仍然是一个正在进行的工作。例如,它们与人类反馈仅有85% 的相关性。多模态 LLMs 在跨不同类型的数据(如文本、代码、图像、声音和视频)上工作时还需要更多的工作。此外,他们计划随着新的流行 LLMs 的出现而扩大列表。Chatterji 表示:
幻觉研究领域尚处于初级阶段,令人兴奋,并且有很多实验的方向。
在最近的 Open AI 事件中,首席执行官 Sam Altman 最近表示,他们在使 LLMs 减少幻觉方面可能遇到了难题。需要新的方法来发现更深层次的物理规律。
在剑桥的一次公开讨论中,Altman 说:
我们需要突破。我们可以在大型语言模型上投入很多努力,我们将继续这样做。我们可以攀登我们所在的山丘,而且山峰仍然相当遥远。但是,在合理范围内,我不认为这对于 AGI 来说是至关重要的... 如果超级智能不能发现新的物理规律,我不认为它是超级智能。而且,教它克隆人类行为和人类文本的行为 - 我不认为这样做能够实现目标。因此,这里有一个问题,该问题在该领域已经争论了很长时间,即除了语言模型之外,我们还需要做什么才能使一个系统能够发现新的物理规律,这将是我们下一个任务。
从 LLMs 的突破性发现到今天减少一些幻觉问题,已经花费了近六年的时间。随着市场上推出的大量新的 AI 专用硬件和普遍的热情,任何后续方法要达到同样的接受程度和工具化可能需要更少的时间。
与此同时,Galileo Labs 等检测和减少幻觉的工具将帮助企业更安全地利用 LLMs。
【查看完整讨论话题】 | 【用户登录】 | 【用户注册】