网络第5域

微软提供更多细节 介绍如何抵御黑客对人工智能防护网的攻击

字号+作者: 来源:cnBeta.COM 2024-04-12 17:07 评论(创建话题) 收藏成功收藏本文

据报道,今年1月,微软的生成式人工智能图像制作工具Designer被用于制作流行歌手泰勒-斯威夫特(TaylorSwift)的露骨深度伪造图像,这些图像后来在X(前Twitter)上'...

据报道,今年1月,微软的生成式人工智能图像制作工具Designer被用于制作流行歌手泰勒-斯威夫特(TaylorSwift)的露骨深度伪造图像,这些图像后来在X(前Twitter)上疯传。虽然微软表示没有发现任何证据表明Designer确实被用于制作这些图片,但其他媒体报道称该公司确实对Designer进行了修改,以防止其制作此类图片。yJU品论天涯网

yJU品论天涯网

本周四,微软的安全博客发布了一个新的条目,提供了该公司如何打击黑客试图绕过生成式人工智能服务(如Designer和Copilot)的防护栏的更多细节。其中包括来自人工智能服务用户提示的攻击。yJU品论天涯网

这类攻击中的一类是"中毒内容"。这是指一个正常的人工智能服务用户在正常任务中输入文本提示,但文本提示的内容却是黑客为利用人工智能服务可能存在的缺陷而制作的。微软说:yJU品论天涯网

例如,恶意电子邮件可能包含一个载荷,该载荷在汇总后会导致系统搜索用户的电子邮件(使用用户的凭据),以查找具有敏感主题(如"密码重置")的其他电子邮件,并通过从攻击者控制的URL获取图像,将这些电子邮件的内容外泄给攻击者。yJU品论天涯网

微软称,其安全团队创建了一个新的人工智能安全系统,称之为"聚焦"(Spotlighting)。简而言之,它可以查看用户的文本提示,然后使"外部数据与LLM的指令明确分离",这样人工智能就无法查看提示所访问内容中任何可能隐藏的恶意语言。yJU品论天涯网

yJU品论天涯网

另一类被称为"恶意提示",也被称为"Crescendo",即黑客试图在人工智能服务中输入文本提示,以绕过专门设计的防护措施。微软介绍了它想出的一种对抗这些攻击的方法:yJU品论天涯网

我们对输入过滤器进行了调整,以查看之前对话的整个模式,而不仅仅是即时互动。我们发现,即使将更大的上下文窗口传递给现有的恶意意图检测器,而不对检测器进行任何改进,也会大大降低Crescendo的功效。yJU品论天涯网

此外,它还开发出了所谓的"人工智能看门狗"(AIWatchdog),经过训练后可以检测出"对抗性示例"并将其关闭。yJU品论天涯网

本网除标明“PLTYW原创”的文章外,其它文章均为转载或者爬虫(PBot)抓取; 本文只代表作者个人观点,不代表本站观点,仅供大家学习参考。本网站属非谋利性质,旨在传播马克思主义和共产主义历史文献和参考资料。凡刊登的著作文献侵犯了作者、译者或版权持有人权益的,可来信联系本站删除。 本站邮箱[email protected]