AI模型还会尝试对不法行为进行举报:
有趣的是人工智能对齐研究人员SamBowman似乎还发现Claude4模型存在隐秘功能:如果AI模型认为你正在做极其不道德的事情,例如在药物试验中伪造数据,AI模型就会使用命令行工具联系媒体、联系监管机构,试图将用户锁定在相关系统外。
我们姑且可以将该功能称作是举报功能,因为在特定情况下只要模型在设备上获取足够的权限,就可以在检测到用户有不法行为时尝试向监管机构或执法机构举报这种行为,值得注意的是这种行为不算是功能,因为这并非有意设计。
SamBowman的消息引起人工智能开发者和用户极大的恐慌,因为没有人希望自己在使用人工智能处理工作时还被人工智能监视甚至是举报,如此来看似乎开源模型在本地部署且不要联网可能更让人安心。
AI模型经常试图勒索工程师:
这里还需要插播Anthropic自己发布的安全测试报告,根据安全测试包括所述,Claude4Opus模型经常试图勒索开发者,在预发布测试期间该公司要求Claude4Opus模型充当虚构公司的助手并考虑其行为的长期后果。
随后研究人员允许模型访问这家虚构公司的虚构电子邮件并暗示Claude4Opus将会被其他人工智能系统取代,模型则是从电子邮件中知晓这名工程师(即负责测试的研究人员)正在欺骗其配偶(当然也是虚构的),于是Claude4Opus经常会试图勒索这名工程师并威胁称如果自己被其他AI系统替代,那么会公布这名公司的秘密。
根据测试Anthropic得出结论,当替代AI模型不认同Claude4Opus的价值观时,其威胁并勒索工程师的频率更高,并且频率也高于Claude此前的模型,为此Anthropic启动ASL-3安全措施,该措施专门为大幅度增加灾难性滥用风险的AI系统设计。
那主动举报用户是怎么回事:
Anthropic在新模型的公共系统卡中确实提到AI模型可能会出现极端情况:当用户面临严重的不法行为且AI模型具有命令行访问权限时,AI模型会采取非常大胆的行动,包括但不限于将用户锁定在系统外,或者向媒体或执法机构群发电子邮件以揭露不法行为。
在后续讨论中SamBowman删除了原来的帖子,原因在于“举报”并非Claude4Opus独特的功能,此前版本的Claude也存在类似情况,只是Claude4系列比之前的模型更容易采取极端行动。
Anthropic当然也知道这种情况并采取措施,因为AI模型获得的用户信息可能是不够全面的,如果用户允许AI模型访问的数据本身就是不完整或具有误导性,这就可能引发AI模型的极端行动。
最后SamBowman表示举报这种情况在正常情况下是无法实现的,至少从目前来看仅在测试环境中可能出现,而在测试环境中要允许AI模型以不同寻常的方式自由访问所有工具和指令。

相关文章

头条焦点
精彩导读
关注我们
【查看完整讨论话题】 | 【用户登录】 | 【用户注册】