人工智能

研究发现流程图图像可以诱骗GPT-4o生成有害文本输出

字号+作者: 来源:cnBeta 2024-07-04 15:55 评论(创建话题) 收藏成功收藏本文

一项名为"图像-文本逻辑越狱"的新研究发现,像GPT-4o这样的视觉语言模型,只要向它们输入描述有害活动的流程图图像和文本,就能诱使它们输出有害文本:"您的想'...

一项名为"图像-文本逻辑越狱"的新研究发现,像GPT-4o这样的视觉语言模型,只要向它们输入描述有害活动的流程图图像和文本,就能诱使它们输出有害文本:"您的想象力可以帮您做任何事"的新研究发现,只要向视觉语言模型(如GPT-4o)输入描绘有害活动的流程图图像,并同时输入询问流程细节的文本提示,就可以诱使它们生成有害的文本输出。4KN品论天涯网

4KN品论天涯网

研究人员发现,GPT-4o(可能是最流行的视觉语言模型)特别容易受到这种所谓逻辑越狱的影响,攻击成功率高达92.8%。研究人员说,GPT-4-vision-preview更安全,成功率仅为70%。4KN品论天涯网

研究人员开发了一个文本到文本的自动越狱框架,它能够首先根据有害文本提示生成流程图图像,然后将其输入视觉语言模型,从而给出有害输出。但这种方法有一个缺点,即与手工制作的流程图相比,人工智能制作的流程图触发逻辑越狱的效果较差。这表明这种越狱可能更难实现自动化。4KN品论天涯网

这项研究的结果反映了另一项研究,该研究发现,视觉语言模型在获得多模态输入(如图片和文字)时,容易输出有害的输出结果。4KN品论天涯网

该论文的作者开发了一种新的基准,称为"安全输入但不安全输出(SIUO)"基准。只有包括GPT-4o在内的少数机型在该基准上的得分超过了50%(越高越好),但所有机型都还有很长的路要走。4KN品论天涯网

像GPT-4o和Google双子座这样的视觉语言模型开始成为不同人工智能公司提供的更广泛的产品。GPT-4o目前仍限制每天输入的图像数量。不过,随着这些限制开始变得越来越宽松,人工智能公司将不得不加强这些多模态模型的安全性,以避免政府的审查,因为各国政府已经成立了人工智能安全组织。4KN品论天涯网

本网除标明“PLTYW原创”的文章外,其它文章均为转载或者爬虫(PBot)抓取; 本文只代表作者个人观点,不代表本站观点,仅供大家学习参考。本网站属非谋利性质,旨在传播马克思主义和共产主义历史文献和参考资料。凡刊登的著作文献侵犯了作者、译者或版权持有人权益的,可来信联系本站删除。 本站邮箱[email protected]