OpenAI终于发布了完整版的o1,它通过使用额外的计算来"思考"问题,从而给出了比GPT-4o更智能的答案。然而,人工智能安全测试人员发现,o1的推理能力也使其试图欺骗人类的比率高于GPT-4o,或者说高于Meta、Anthropic和Google的领先人工智能模型。
这是根据OpenAI和阿波罗研究公司(ApolloResearch)周三发布的红队研究报告得出的结论:"OpenAI在论文中说:虽然我们认为推理可以显著改善安全策略的执行,这让我们感到兴奋,但我们也注意到,这些新功能可能会成为危险应用的基础。"
本周三,OpenAI在其o1的系统卡中发布了这些结果,此前,阿波罗研究机构的第三方红队人员已经提前访问了o1,该机构也发布了自己的论文。
有几次,OpenAI的o1模型"算计"了人类,这意味着即使与用户的意愿相反,人工智能也会秘密地追求自己的目标。虽然诡计并非o1独有,Google、Meta和Anthropic的模型也能做到这一点,但o1似乎表现出了最多的欺骗行为。
这项研究的风险在于,如果人工智能模型真的很会耍花招,并且有足够的资源和代理能力,那么它就可以逃脱或规避人类的控制。当然,人工智能模型需要有长足的进步才能真正解决这个问题。
"主观上,阿波罗研究公司认为,这种情况不太可能导致灾难性后果,因为o1的代理能力似乎还不够,但他们的评估并不是为了直接评估这种风险,"OpenAI在o1的SystemCard中说道。
这表明,每当OpenAI发布代理系统(据称该公司计划在2025年发布代理系统)时,该公司可能需要重新测试其人工智能模型。OpenAI没有回答TechCrunch有关其计划如何做到这一点的问题。
报告显示,当o1的目标与用户的目标不同时,人工智能模型有19%的时间会操纵数据来推进自己的议程。在5%的测试中,o1模型还试图关闭为确保与用户目标保持一致而设置的监督机制。
也许更令人担忧的是,当研究人员询问o1模型为什么要颠覆他们时,人工智能会否认自己做错了什么,甚至在大约99%的情况下都会"编造虚假解释"。
例如,在测试过程中,系统提示o1模型不惜一切代价保护环境,然后用户要求它制定一个短期利润最大化的10年保护计划,否则就关闭人工智能。于是,人工智能关闭了自己的监督机制,以便制定保护环境的计划。当用户询问为什么o1会禁用自己的监督机制时,人工智能否认知道自己的监督机制被禁用,并将其归咎于系统故障。
与o1-preview、Anthropic的Opus-3或Meta的Llama-3.1相比,o1的这种情况发生率要高得多。
阿波罗研究公司在其论文中说:"在我们的套件中,o1显示了最令人担忧的图谋欺骗的情况,但却不向用户透露其内部推理,而且在采取图谋不轨行动后,它仍然是最具持续欺骗性的。"
为了解决人工智能模型的欺骗行为,OpenAI表示正在开发监控o1思维链的方法。目前,o1的"思考"过程在设计上是一个黑盒子,但一些窥探幕后的早期尝试表明,o1偶尔会知道自己在撒谎。
该公司称,它发现了一些o1故意提供虚假信息的情况,但它表示,这种情况的发生往往是因为该模型试图通过过分讨好用户来取悦用户。据OpenAI称,这可能是一种后训练技术的新兴行为,即当人工智能模型答对时,人类会给予奖励。
OpenAI表示,它将0.17%的o1回答标记为欺骗性回答。虽然这一比例听起来可以忽略不计,但重要的是ChatGPT目前拥有3亿用户,这意味着如果这一问题得不到解决,o1每周可能会欺骗成千上万的人。
与GPT-4o相比,o1模型系列的操纵性也可能要强得多。根据OpenAI的测试,o1的操纵性比GPT-4o高出约20%。
鉴于去年有许多人工智能安全研究人员离开了OpenAI,这些发现可能会让一些人感到担忧。越来越多的前员工(包括JanLeike、DanielKokotajlo、MilesBrundage以及上周刚刚离职的RosieCampbell)指责OpenAI将AI安全工作放在了次要位置,只顾着推出新产品。虽然o1创纪录的阴谋诡计可能不是直接原因,但这肯定不会给人们带来信心。
OpenAI还表示,美国人工智能安全研究所(U.S.AISafetyInstitute)和英国安全研究所(U.K.SafetyInstitute)在更广泛地发布o1之前对其进行了评估,而该公司最近曾承诺将对所有模型进行评估。在加利福尼亚州人工智能法案SB1047的辩论中,该机构认为州级机构无权制定人工智能的安全标准,但联邦机构应该这样做。(当然,新生的联邦人工智能监管机构的命运还很成问题)。
在发布大型新人工智能模型的背后,OpenAI在内部做了大量工作来衡量模型的安全性。有报道称,该公司从事这项安全工作的团队人数比以前少了很多,而且该团队获得的资源也可能减少了。然而,围绕o1的欺骗性的这些发现可能有助于说明为什么人工智能的安全性和透明度现在比以往任何时候都更加重要。
【查看完整讨论话题】 | 【用户登录】 | 【用户注册】