人工智能

苹果、NVIDIA、Anthropic因使用YouTube资源训练AI而陷入争议

字号+作者: 来源:cnBeta 2024-07-17 07:32 评论(创建话题) 收藏成功收藏本文

包括苹果、NVIDIA、Salesforce和Anthrophic在内的大型科技公司在其产品中使用了人工智能技术,它们发现自己陷入了一场新的争议。根据ProofNews发布的一'...

包括苹果、NVIDIA、Salesforce和Anthrophic在内的大型科技公司在其产品中使用了人工智能技术,它们发现自己陷入了一场新的争议。根据ProofNews发布的一份报告,这些公司用于训练人工智能模型的数据集包括来自YouTube视频的字幕。lZI品论天涯网

lZI品论天涯网

名为"YouTube字幕"的数据集于2020年发布,由EleutherAI创建。该出版物发现,数据集包含了从超过48,000个频道下载的173,536个YouTube视频的字幕。lZI品论天涯网

首先,该数据集似乎违反了YouTube的条款和条件,即禁止通过"自动化手段"访问视频。据该刊物称,YouTubeSubtitles是一个5.7GB(4.89亿字)的训练数据集,其中包括从平台上删除的12,000多个视频的字幕。lZI品论天涯网

从YouTube上获取的视频转录内容涵盖了众多创作者和频道,包括那些拥有数亿订阅者的频道和那些拥有10多万订阅者的频道。lZI品论天涯网

ProofNews还发现了来自YouTube巨星的材料,包括MrBeast(2.89亿订阅者,拍摄了两段视频用于训练)、MarquesBrownlee(1900万订阅者,拍摄了七段视频)、Jacksepticeye(近3100万订阅者,拍摄了377段视频)和PewDiePie(1.11亿订阅者,拍摄了337段视频)。用于训练人工智能的一些材料还宣扬"平地理论"等阴谋论。lZI品论天涯网

YouTube字幕数据集隶属于一个名为"ThePile"的数据集,其中包括其他几个训练数据集。大多数"堆"数据集都对任何有足够空间和计算能力的人开放。lZI品论天涯网

EleutherAI的代表没有回应置评请求,也没有就调查结果和未经许可删除视频的指控发表评论。许多创作者也没有回应,而那些回应的创作者则声称,这些视频是在他们不知情的情况下被使用的。lZI品论天涯网

lZI品论天涯网

ProofNews通过搜索网上帖子和白皮书,寻找人工智能公司使用这些数据的证据,并"将数据集中的字幕与YouTube上的视频联系起来,以确定谁的创意素材被用于训练人工智能模型"。lZI品论天涯网

不过,由于人工智能公司通常不会披露它们用于训练模型的数据,因此它无法创建一份使用该数据集的公司综合清单。lZI品论天涯网

受影响的创作者之一马克斯-布朗利(MarquesBrownlee)写道,他使用付费服务生成YouTube转录。"因此,采集转录内容的公司正在以多种方式窃取*付费*工作。这可不好,"他补充说。另一位创作者大卫-帕克曼(DavidPakman)在TikTok上发现了一个视频,其中包含了他的一个视频的脚本,似乎只有一位评论者认出了这是假的。lZI品论天涯网

请注意,苹果和其他科技公司并不是自己下载了字幕,而是用它训练了人工智能模型。然而,这一行为是人工智能不请自来的后果的一个例子。接受本刊采访的创作者们透露了他们对未来的不确定性,以及人工智能被用来模仿他们内容的可能性。lZI品论天涯网

本网除标明“PLTYW原创”的文章外,其它文章均为转载或者爬虫(PBot)抓取; 本文只代表作者个人观点,不代表本站观点,仅供大家学习参考。本网站属非谋利性质,旨在传播马克思主义和共产主义历史文献和参考资料。凡刊登的著作文献侵犯了作者、译者或版权持有人权益的,可来信联系本站删除。 本站邮箱[email protected]