OpenAI使用所有公开可用的数据来训练ChatGPT,包括来自互联网的书籍和文章。现在,拥有这些数据的人希望为他们的工作获得报酬。训练数据是创建正在占领科技世界的人工智能模型的重要组成部分。Google、Meta、OpenAI、Anthropic和微软等领先的科技公司都在争相寻找新的数据来源。Meta甚至一度考虑收购世界上最大的出版社之一西蒙舒斯特。
问题的一部分在于,出版商越来越多地指责这些公司窃取受版权保护的数据。他们希望为自己的工作获得报酬。
Meta和OpenAI在向美国版权局提交的评论中辩称,将受版权保护的材料放在互联网上使其公开可用,因此属于合理使用。
但他们仍必须在法庭上提出这一论点,因为该公司面临来自多个团体的有关版权材料的诉讼。
调查报道中心是一家非营利性新闻机构,有时简称为CIR,今年早些时候与MotherJones和Reveal合并,上周在联邦法院起诉了OpenAI和微软。诉讼指控OpenAI建立在对包括CIR在内的全球创作者的版权作品的剥削之上。
CIR的律师指控OpenAI和微软使用MotherJones的版权材料来训练他们的GPT和CopilotAI模型。
“OpenAI和微软开始窃取我们的新闻,以使他们的产品更加强大,但他们从未征求我们的许可或提供补偿,这与其他获得我们材料许可的组织不同。”调查报道中心首席执行官莫妮卡·鲍尔莱因(MonikaBauerlein)在一份关于诉讼的声明中表示。“这种搭便车行为不仅不公平,而且侵犯了版权。”
诉讼称,该公司WebText训练集中存在的顶级网络域名发布的列表中出现了来自MotherJones网络域名的16,793个不同的URL。
在作家协会的另一起集体诉讼中,两位作家声称该公司利用他们书中的信息来训练ChatGPT。《纽约时报》也在2023年12月对该公司提起了类似的诉讼。
今年5月,作家协会诉讼案的法庭文件显示,OpenAI删除了用于训练GPT-3的两个庞大数据集。该协会的律师表示,这两组数据可能包含超过10万本已出版的书籍。
法庭文件称,负责整理数据的两名员工不再为OpenAI工作。
OpenAI已开始与新闻机构签署许可协议,以公平使用其作品。该公司已与美联社、《华尔街日报》和《纽约邮报》的出版商、《大西洋月刊》、PrisaMedia、《世界报》、《金融时报》和BusinessInsider母公司AxelSpringer签署了此类协议。
但这些机器人持续学习所需的内容规模将远远超过少数几份许可协议。
一种解决方案是合成数据,它是人工生成的而不是从现实世界收集的,并且可以通过机器学习算法轻松生成。
OpenAI已将合成数据视为训练其模型的一种选择,但首席执行官SamAltman对生成高质量数据表示担忧。
奥尔特曼在2023年5月的一次技术会议上表示:只要你能跨越合成数据事件视界,让模型足够智能,能够生成良好的合成数据,那么一切都会好起来。
该公司还探索了人工智能模型协同工作的过程——一个人工智能系统生成数据,另一个人工智能系统对其进行判断。
OpenAI尚未立即回复评论请求。
【查看完整讨论话题】 | 【用户登录】 | 【用户注册】