GPT-4耗尽全宇宙数据 OpenAI接连吃官司竟因数据太缺了-品论天涯网

深陷数据风波的OpenAI，背后真正原因竟是优秀的数据太少了。穷尽“全网”，生成式AI很快无数据可用。近日，著名UC伯克利计算机科学家StuartRussell称，ChatGPT和其他AI工具的训练可能很快耗尽“全宇宙的文本”。换句话说，训练像ChatGPT这样的AI，将因数据量不够而受阻。VxZ品论天涯网

VxZ品论天涯网

这可能会影响生成式AI开发人员，在未来几年收集数据，以及训练人工智能的方式。VxZ品论天涯网

同时，Russell认为人工智能将在“语言输入，语言输出”的工作中取代人类。VxZ品论天涯网

数据不够，拿什么凑？VxZ品论天涯网

Russell近来的预测引起了大家重点关注。VxZ品论天涯网

OpenAI和其他生成式AI开发人员，为训练大型语言模型，开始进行数据收集。VxZ品论天涯网

然而，ChatGPT和其他聊天机器人不可或缺的数据收集实践，正面临着越来越多的审查。VxZ品论天涯网

其中就包括，未经个人同意情况下创意被使用，以及平台数据被自由使用感到不满的一些高管。VxZ品论天涯网

但Russell的洞察力指向了另一个潜在的弱点：训练这些数据集的文本短缺。VxZ品论天涯网

去年11月，MIT等研究人员进行的一项研究估计，机器学习数据集可能会在2026年之前耗尽所有“高质量语言数据”。VxZ品论天涯网

VxZ品论天涯网

论文地址：https://arxiv.org/pdf/2211.04325.pdfVxZ品论天涯网

根据这项研究，“高质量”集中的语言数据来自：书籍、新闻文章、科学论文、维基百科和过滤后的网络内容等。VxZ品论天涯网

而加持当红炸子鸡ChatGPT背后的模型GPT-4同样接受了大量优质文本的训练。VxZ品论天涯网

这些数据来自公共在线的资源（包括数字新闻来源和社交媒体网站）VxZ品论天涯网

从社交媒体网站“数据抓取”，才导致马斯克出手限制用户每天可以查看的推文数量。VxZ品论天涯网

VxZ品论天涯网

Russell表示，尽管许多报道未经证实，但都详细说明了OpenAI从私人来源购买了文本数据集。虽然这种购买行为可能存在解释，但自然而然的推断是，没有足够的高质量公共数据了。VxZ品论天涯网

一直以来，OpenAI尚未公开GPT-4背后训练的数据。VxZ品论天涯网

而现在，OpenAI需要用“私人数据”来补充其公共语言数据，以创建该公司迄今最强大、最先进的人工智能模型GPT-4。VxZ品论天涯网

足见，高质量数据确实不够用。VxZ品论天涯网

OpenAI在发布前没有立即回复置评请求。VxZ品论天涯网

OpenAI深陷数据风波VxZ品论天涯网

近来，OpenAI遇上了大麻烦，原因都和数据有关。VxZ品论天涯网

先是16人匿名起诉OpenAI及微软，并提交了长达157页的诉讼，声称他们使用了私人谈话和医疗记录等敏感数据。VxZ品论天涯网

VxZ品论天涯网

他们的索赔金额高达30亿美元，诉讼中指出，VxZ品论天涯网

尽管制定了购买和使用个人信息的协议，但是OpenAI和微软系统性地从互联网中窃取了3000亿个单词，包括数百万未经同意获取的个人信息。VxZ品论天涯网

这其中包含账户信息、姓名、联系方式、电子邮件、支付信息、交易记录、浏览器数据、社交媒体、聊天数据、cookie等等。VxZ品论天涯网

这些信息被嵌入到ChatGPT中，但这些恰恰反映出个人爱好、观点、工作履历甚至家庭照片等。VxZ品论天涯网

而负责这次起诉的律师事务所Clarkson，此前曾负责过数据泄露和虚假广告等问题的大规模集体诉讼。VxZ品论天涯网

VxZ品论天涯网

紧接着，这周又有几位全职作者提出，OpenAI未经允许使用了自己的小说训练ChatGPT，构成侵权。VxZ品论天涯网

那么是如何确定使用自己小说训练的呢？VxZ品论天涯网

证据就是，ChatGPT能够针对他们的书生成准确的摘要，这就足以说明这些书被当作数据来训练ChatGPT。VxZ品论天涯网

作者PaulTremblay和MonaAwad表示，“ChatGPT未经许可就从数千本书中拷贝数据，这侵犯了作者们的版权”。VxZ品论天涯网

VxZ品论天涯网

起诉书中预估，OpenAI的训练数据中至少包含30万本书，其中很多来自侵权网站。VxZ品论天涯网

比如，GPT-3训练数据情况披露时，其中就包含2个互联网图书语料库，大概占比为15%。VxZ品论天涯网

2位起诉的作者认为，这些数据就是来自一些免费的网址，比如Z-Library、Sci-Hub等。VxZ品论天涯网

另外2018年，OpenAI曾透露训练GPT-1中的数据就包括了7000+本小说。起诉的人认为这些书没有获得作者认可就直接使用。VxZ品论天涯网

另谋他法？VxZ品论天涯网

不得不说，OpenAI使用数据来源一事确实存在诸多争议。VxZ品论天涯网

今年2月，《华尔街日报》记者FrancescoMarconi曾表示，新闻媒体的数据也被用来训练ChatGPT。VxZ品论天涯网

Marconi让ChatGPT列了一个清单，竟有20家媒体。VxZ品论天涯网

VxZ品论天涯网

早在今年5月，Altman在接受采访时曾表示，OpenAI已经有一段时间没有使用付费客户数据来训练大语言模型了。VxZ品论天涯网

客户显然不希望我们训练他们的数据，所以我们改变了计划，不再这么做。VxZ品论天涯网

VxZ品论天涯网

其实，OpenAI在3月初，曾悄然更新了服务条款。VxZ品论天涯网

Altman提到，现在公司正在开发的新技术，可以使用更少的数据来训练模型。VxZ品论天涯网

或许从OpenAI身上受到了启发，Google选择先行堵上这一漏洞。VxZ品论天涯网

7月1日，Google更新了其隐私政策，现在的政策中明确Google有权收集任何公开可用的数据，并将其用于其人工智能模型的训练。VxZ品论天涯网

VxZ品论天涯网

Google向所有用户表明，只要是自己能够行公开渠道获得的内容，都可以拿来训练Bard以及未来的AI。VxZ品论天涯网