人们对生成式人工智能的诸多担忧之一是,它们能够在未经原始创作者许可的情况下,使用从互联网上抓取的图像生成图片。但一种新工具可以通过向训练模型使用的数据“投毒”来解决这个问题。
《麻省理工科技评论》重点介绍了由芝加哥大学研究人员创建的名为Nightshade的新工具。它的工作原理是在上传图像之前对图像像素进行非常小的更改,这些更改是肉眼无法看到的。这会毒害DALL-E、StableDiffusion和Midjourney等工具使用的训练数据,导致模型以不可预测的方式崩溃。
生成式人工智能如何错误地解释被茄属植物毒害的图像的一些例子包括将狗变成猫,将汽车变成牛,将帽子变成蛋糕,将手提包变成烤面包机。它也适用于提示不同的艺术风格:立体派变成动漫,卡通变成印象派,概念艺术变成抽象派。
研究人员最近在arXiv上发表的论文将Nightshade描述为一种特定提示的中毒攻击。Nightshade不需要毒害数百万张图像,而是可以用大约50个样本破坏稳定扩散提示,如下图所示。
研究人员写道,该工具不仅可以毒害“狗”等特定提示术语,还可以“渗透”到“小狗”、“猎犬”和“哈士奇”等相关概念。它甚至会影响间接相关的图像;例如,中毒“幻想艺术”会将“一条龙”、“指环王中的一座城堡”和“迈克尔·惠兰的一幅画”的提示变成不同的东西。
领导了Nightshade创建团队的芝加哥大学教授赵本表示,他希望该工具能够对不尊重艺术家版权和知识产权的人工智能公司起到威慑作用。他承认存在恶意使用的可能性,但要对更大、更强大的模型造成真正的损害,攻击者需要毒害数千张图像,因为这些系统是在数十亿数据样本上进行训练的。
生成式人工智能模型训练者还可以使用针对这种做法的防御措施,例如过滤高损失数据、频率分析和其他检测/删除方法,但赵本说它们不是很稳健。
一些大型人工智能公司让艺术家可以选择不将他们的作品用于人工智能训练数据集,但这可能是一个艰巨的过程,并且无法解决任何可能已经被废弃的作品。许多人认为艺术家应该可以选择加入而不是必须选择退出。
【查看完整讨论话题】 | 【用户登录】 | 【用户注册】