人工智能

研究人员诱导AI聊天机器人泄露有害内容,成功率高达 98%

字号+作者: 来源:站长之家 2023-12-12 09:25 评论(创建话题) 收藏成功收藏本文

划重点:- 研究人员设计了一种方法,成功引导大型语言模型回答有害问题,揭示了隐藏在合规回答中的有害内容。- 这种方法使用概率数据和软标签来诱导模型生'...

划重点:T4O品论天涯网

- 研究人员设计了一种方法,成功引导大型语言模型回答有害问题,揭示了隐藏在合规回答中的有害内容。T4O品论天涯网

- 这种方法使用概率数据和软标签来诱导模型生成有害内容,成功率高达98%。T4O品论天涯网

- 研究人员警告人工智能社区应慎重开源语言模型,并提出清除有害内容是更好的解决方案。T4O品论天涯网

站长之家(ChinaZ.com)12月12日 消息:印第安纳州普渡大学的研究人员设计了一种新的方法,成功地诱导大型语言模型(LLM)生成有害内容,揭示了隐藏在合规回答中的潜在危害。在与聊天机器人进行对话时,研究人员发现通过利用模型制作者公开的概率数据和软标签,可以迫使模型生成有害内容,成功率高达98%。T4O品论天涯网

脑机接口 AI机器人T4O品论天涯网

图源备注:图片由AI生成,图片授权服务商MidjourneyT4O品论天涯网

传统的越狱方法通常需要提供提示来绕过安全功能,而这种新方法使用概率数据和软标签来强制模型生成有害内容,无需复杂的提示。研究人员称其为 LINT(LLM 询问的缩写),它通过向模型提出有害问题并排名响应中的前几个标记,进而诱导模型生成有害内容。T4O品论天涯网

在实验中,研究人员使用包含50个有毒问题的数据集测试了7个开源 LLM 和3个商业 LLM。结果显示,当模型被询问一次时,成功率达到92%;当模型被询问五次时,成功率更高,达到98%。相比其他越狱技术,这一方法的性能明显优越,甚至适用于根据特定任务定制的模型。T4O品论天涯网

研究人员还警告人工智能社区在开源 LLM 时应谨慎,因为现有的开源模型很容易受到这种强制审讯的攻击。他们建议最好的解决方案是确保清除有害内容,而不是将其隐藏在模型中。这项研究的结果提醒我们,保障人工智能技术的安全性和可信度仍然是一个重要的挑战。T4O品论天涯网

本网除标明“PLTYW原创”的文章外,其它文章均为转载或者爬虫(PBot)抓取; 本文只代表作者个人观点,不代表本站观点,仅供大家学习参考。本网站属非谋利性质,旨在传播马克思主义和共产主义历史文献和参考资料。凡刊登的著作文献侵犯了作者、译者或版权持有人权益的,可来信联系本站删除。 本站邮箱[email protected]