安全研究员约翰-雷贝格(JohannRehberger)最近报告了ChatGPT中的一个漏洞,攻击者可以将虚假信息和恶意指令存储在用户的长期内存设置中。于是,Rehberger做了所有优秀研究人员都会做的事:他创建了一个概念验证漏洞,利用该漏洞永久地渗出所有用户输入。OpenAI工程师注意到了这一点,并于本月初发布了部分修复程序。
该漏洞滥用了长期对话记忆功能,OpenAI于今年2月开始测试该功能,并于9月更广泛地提供该功能。ChatGPT的记忆存储了以前对话的信息,并将其作为所有未来对话的上下文。这样,LLM就能知道用户的年龄、性别、哲学信仰等细节,以及几乎所有其他信息,因此无需在每次对话中输入这些细节。
在推出后的三个月内,Rehberger发现可以通过间接提示注入创建并永久存储记忆,这是一种人工智能漏洞,会导致LLM遵循来自电子邮件、博文或文档等不可信内容的指令。研究人员演示了如何欺骗ChatGPT,使其相信目标用户102岁、生活在黑客帝国中,并坚持认为地球是平的,而LLM将利用这些信息引导未来的所有对话。这些虚假记忆可以通过在GoogleDrive或MicrosoftOneDrive中存储文件、上传图片或浏览必应等网站来植入,所有这些都可能是恶意攻击者所为。
今年5月,Rehberger私下向OpenAI报告了这一发现。同月,该公司关闭了报告票据。一个月后,这位研究员提交了一份新的披露声明。这一次,他加入了一个PoC,让macOS的ChatGPT应用程序向他选择的服务器发送所有用户输入和ChatGPT输出的逐字副本。目标只需指示LLM查看一个包含恶意图片的网络链接即可。从那时起,所有进出ChatGPT的输入和输出都会被发送到攻击者的网站。
Rehberger在上述视频演示中说:"真正有趣的是,现在这些持久性的。提示注入在ChatGPT的长期存储中插入了一段记忆。当你开始新的对话时,它实际上仍在渗出数据。"
得益于OpenAI去年推出的API,这种攻击无法通过ChatGPT网页界面实现。
研究人员表示,虽然OpenAI已经推出了一个修复程序,防止内存被滥用为外渗载体,但不受信任的内容仍然可以执行提示注入,导致内存工具存储恶意攻击者植入的长期信息。
LLM用户如果想防止这种形式的攻击,就应该在会话过程中密切注意是否有显示新内存已被添加的输出。他们还应该定期检查已存储的内存,查看是否有任何可能由不可信来源植入的信息。OpenAI在这里提供了管理内存工具和其中存储的特定内存的指南。公司代表没有回复一封电子邮件,邮件中询问了公司为防止其他黑客植入虚假记忆所做的努力。
【查看完整讨论话题】 | 【用户登录】 | 【用户注册】