对某些人来说,人工智能助手就像我们的好朋友,我们可以向他们提出任何敏感或尴尬的问题。毕竟,我们与它们的通信是加密的,这看起来很安全。然而,以色列的研究人员发现了黑客规避这种保护的方法。
和其他优秀的助手一样,人工智能对你了如指掌。它知道你住在哪里,在哪里工作。它可能知道你喜欢吃什么食物,这个周末打算做什么。如果你特别健谈,它甚至可能知道你是否在考虑离婚或考虑破产。
这就是为什么研究人员设计的一种可以通过网络读取人工智能助手加密回复的攻击令人震惊。这些研究人员来自以色列的进攻型人工智能研究实验室(OffensiveAIResearchLab),他们发现,除了GoogleGemini之外,大多数使用流媒体与大型语言模型交互的主要人工智能助手都存在一个可利用的侧信道。然后,他们演示了如何利用OpenAI的ChatGPT-4和微软的Copilot的加密网络流量。
研究人员在论文中写道:"我们能够准确地重建29%的人工智能助手的回答,并成功地从55%的回答中推断出主题。"
最初的攻击点是标记长度侧信道。研究人员解释说,在自然语言处理中,标记是包含意义的最小文本单位。例如,"我的皮疹很痒"这句话可以标记化如下:S=(k1,k2,k3,k4,k5),其中标记为k1=I,k2=have,k3=an,k4=itchy,k5=rash。
然而,令牌是大型语言模型服务处理数据传输的一个重要漏洞。也就是说,当LLM以一系列令牌的形式生成和发送响应时,每个令牌都会在生成的同时从服务器发送给用户。虽然这一过程是加密的,但数据包的大小会泄露令牌的长度,从而有可能让网络上的攻击者读取对话内容。
研究人员说,从标记长度序列推断回复内容具有挑战性,因为回复可能长达数句,从而产生数百万个语法正确的句子。为了解决这个问题,他们:(1)使用大型语言模型来翻译这些序列;(2)为LLM提供句子间上下文,以缩小搜索空间;(3)根据目标模型的写作风格对模型进行微调,从而进行已知纯文本攻击。
他们写道:"据我们所知,这是第一项使用生成式人工智能进行侧信道攻击的工作。"
研究人员已经就他们的工作联系了至少一家安全厂商Cloudflare。自从接到通知后,Cloudflare表示它已经实施了一项缓解措施,以保护自己名为WorkersAI的推理产品的安全,并将其添加到AIGateway中,以保护客户的LLM,无论它们在哪里运行。
在论文中,研究人员还提出了一项缓解建议:在每条信息中加入随机填充,以隐藏信息流中标记的实际长度,从而使仅根据网络数据包大小来推断信息的尝试变得更加复杂。
【查看完整讨论话题】 | 【用户登录】 | 【用户注册】