人工智能

大型科技公司训练大模型用他人数据 却决不允许自身数据外流

字号+作者: 来源:机器之心 2023-06-04 15:36 评论(创建话题) 收藏成功收藏本文

你的就是我的,我的还是我的。在生成式AI盛行的全新时代,大型科技公司在使用在线内容时正在奉行“照我说的做,而不是做我所做的”策略。在一定程度上,这种策'...

你的就是我的,我的还是我的。在生成式AI盛行的全新时代,大型科技公司在使用在线内容时正在奉行“照我说的做,而不是做我所做的”策略。在一定程度上,这种策略可以说是一种双标以及话语权的滥用。G3A品论天涯网

同时,随着大语言模型(LLM)成为AI发展的主流趋势,无论是大型还是初创公司,都在不遗余力地开发自己的大模型。其中训练数据是大模型能力好坏的重要前提。G3A品论天涯网

近日,根据Insider的报道,微软支持的OpenAI、Google及其支持的Anthropic多年来一直在使用其他网站或公司的在线内容来训练他们的生成式AI模型。这些都是在没有征求具体许可的情况下完成的,并将构成一场酝酿中的法律斗争的一部分,决定了网络的未来以及版权法在这一新时代的应用方式。G3A品论天涯网


G3A品论天涯网

这些大型科技公司可能会争辩说他们是合理使用,是否真的如此有待商榷。但是他们却不会让自己的内容被用来训练其他AI模型。所以不禁要问,为什么这些大型科技公司却能在训练大模型时使用其他公司的在线内容呢?G3A品论天涯网

这些公司很聪明,但也非常虚伪G3A品论天涯网

大型科技公司使用他人在线内容却不允许他人使用自己的,这种说法是否有确切证据,这可以从他们一些产品的服务和使用条款中看出端倪。G3A品论天涯网

首先来看Claude,它是Anthropic推出的类似于ChatGPT的AI助手。该系统可以完成摘要总结、搜索、协助创作、问答、编码等任务。前段时间再次升级,将上下文token扩展到了100k,处理速度大大加快。G3A品论天涯网


G3A品论天涯网

Claude的服务条款是这样的。你不得以下列方式(这里列举出部分)访问或使用本服务,如果这些限制的任何一项与可接受使用政策不一致或不明确,则以后者依从为先:G3A品论天涯网

开发与我们的服务竞争的任何产品或服务,包括开发或训练任何AI或机器学习算法或模型G3A品论天涯网

未经条款允许,从我们的服务中抓取、爬取或以任何其他方式获取数据或信息G3A品论天涯网

Claude服务条款地址:https://vault.pactsafe.io/s/9f502c93-cb5c-4571-b205-1e479da61794/legal.html#terms
G3A品论天涯网

同样地,Google的生成式AI使用条款也是如此,“你不得使用本服务来开发机器学习模型或相关技术。”G3A品论天涯网


G3A品论天涯网

Google生成式AI使用条款地址:https://policies.google.com/terms/generative-aiG3A品论天涯网

OpenAI的使用条款又怎样呢?与Google类似,“你不得使用本服务的输出来开发与OpenAI竞争的模型。”G3A品论天涯网


G3A品论天涯网

这些公司很聪明,他们知道高质量的内容对于训练新的AI模型至关重要,所以不允许别人用这样的方式使用他们的输出也是合情合理的。但他们却无所顾忌地利用他人数据来训练自己的模型,这又该如何解释呢?G3A品论天涯网

目前,OpenAI、Google和Anthropic拒绝了Insider的置评请求,并且没有做出任何回应G3A品论天涯网

Reddit、Twitter和其他公司:受够了G3A品论天涯网

实际上,其他公司意识到正在发生的事情时并不高兴。今年4月,多年来一直被用于AI模型训练的Reddit计划开始对其数据的访问收费。G3A品论天涯网


G3A品论天涯网

Reddit首席执行官SteveHuffman表示,“Reddit的数据语料库非常有价值,因此我们不能把这些价值免费提供给世界上最大的公司。”G3A品论天涯网

同样今年4月,马斯克指责OpenAI的主要支持者微软非法使用Twitter的数据来训练AI模型。“诉讼时间到”,他在Twitter上写道。G3A品论天涯网


G3A品论天涯网

不过在回复Insider的置评时,微软表示“这个前提有太多的错误,我甚至不知道从何说起。”G3A品论天涯网

OpenAI首席执行官SamAltman试图通过探索尊重版权的全新AI模型来深化这个问题。据Axios报道,他于近期表示,“我们正在尝试开发新的模式,如果AI系统使用了你的内容,或者使用了你的风格,你就会因此获得报酬。”G3A品论天涯网


G3A品论天涯网

SamAltmanG3A品论天涯网

出版商(包括Insider)都会是既得利益获得者。此外,包括美国新闻集团在内的一些出版商已经在推动科技公司付费使用其内容训练AI模型。G3A品论天涯网

目前AI模型的训练方式“打破”了网络G3A品论天涯网

有前微软高管表示这一定有问题。微软老将、著名软件开发者StevenSinofsky认为,目前AI模型的训练方式“打破”了网络。G3A品论天涯网


G3A品论天涯网

StevenSinofskyG3A品论天涯网

他在Twitter上写道,“过去,爬取数据是用来换取点击率的。但现在只是用来训练一个模型,没有给创作者、版权所有者带来任何价值。”G3A品论天涯网

也许,随着更多公司的觉醒,生成式AI时代这一不均衡的数据使用方式会很快被改变。G3A品论天涯网

本网除标明“PLTYW原创”的文章外,其它文章均为转载或者爬虫(PBot)抓取; 本文只代表作者个人观点,不代表本站观点,仅供大家学习参考。本网站属非谋利性质,旨在传播马克思主义和共产主义历史文献和参考资料。凡刊登的著作文献侵犯了作者、译者或版权持有人权益的,可来信联系本站删除。 本站邮箱[email protected]