《纽约时报》已采取先发制人的措施,阻止其内容被用于训练人工智能模型。据Adweek报道,《纽约时报》于8月3日更新了服务条款,禁止将其内容(包括文字、照片、图像、音频/视频剪辑、"外观和感觉"、元数据或汇编)用于开发"任何软件程序,包括但不限于训练机器学习或人工智能(AI)系统"。
更新后的条款还规定,未经出版物的书面许可,不得使用旨在使用、访问或收集此类内容的网站爬虫等自动化工具。《纽约时报》表示,拒绝遵守这些新限制可能会导致未说明的罚款或处罚。尽管在其政策中引入了新规则,但该出版物似乎并未对其robots.txt文件(该文件用于告知搜索引擎爬虫哪些URL可以访问)进行任何修改。
Google最近允许自己在从网络收集的公共数据上训练人工智能服务。
此举可能是为了回应Google最近更新的隐私政策,该政策披露了这家搜索巨头可能会从网络上收集公共数据来训练其各种人工智能服务,如巴德(Bard)或云人工智能(CloudAI)。许多支持流行人工智能服务(如OpenAI的ChatGPT)的大型语言模型都是在庞大的数据集上训练出来的,而这些数据集可能包含未经原创作者许可从网络上采集来的受版权保护或其他保护的资料。
尽管如此,《纽约时报》也在今年2月与Google签署了一份价值1亿美元的协议,允许这家搜索巨头在未来三年内在其《纽约时报》的一些平台上提供内容。该出版物称,两家公司将在内容分发、订阅、营销、广告和"实验"工具方面展开合作,因此《纽约时报》服务条款的修改有可能是针对OpenAI或微软等其他公司的。
OpenAI最近宣布,网站运营商现在可以阻止其GPTBot网络爬虫对其网站的抓取。微软也在自己的条款和条件中增加了一些新的限制,禁止人们使用其人工智能产品"创建、训练或改进(直接或间接)任何其他人工智能服务",同时禁止用户从其人工智能工具中搜刮或以其他方式提取数据。
本月早些时候,包括美联社和欧洲出版商理事会在内的多家新闻机构签署了一封公开信,呼吁全球立法者制定相关规则,要求训练数据集透明,并在使用数据进行训练前征得权利人的同意。
【查看完整讨论话题】 | 【用户登录】 | 【用户注册】