来自404Media的一份报告称,基于人工智能的视频生成软件Jupiter一直在使用从YouTube和其他来源广泛搜刮的视频数据库来训练其模型。Jupiter由RunwayAI公司运营,这是一家市值15亿美元的初创公司,获得了Google和英伟达等业内巨头的资金支持。
404收集的数据包括一份电子表格,其中列出了全球最大的一些媒体集团和内容创作者的YouTube频道,以及托管盗版内容的网站和指向特定视频的链接。
一位匿名人士告诉本刊,该电子表格是"全公司"从互联网上搜刮内容的努力的一部分,该报道是有关公司在不支付任何费用的情况下使用创作者数据进行模型训练的一系列争议中的最新事件。
消息来源称,电子表格被用于向通过代理下载视频的爬虫提供数据。详情显示,所谓的电子表格包含Netflix、迪斯尼、索尼、皮克斯、ViceNews和其他知名媒体的YouTube频道链接。它还关注内容创作者,如流行的苹果视频博主马克斯-布朗利(MarquesBrownlee)和生活博客博主凯西-尼斯塔特(CaseyNeistat)。
除了电子表格,404媒体还联系到了一位自称曾在《Runway》工作过的消息人士。虽然此人的身份是保密的,但他们提供了公司内部如何使用电子表格来训练视频生成人工智能模型的关键细节。
据他们称,Runway使用电子表格为一个开源软件提供内容,该软件可以从YouTube采集内容。除了频道之外,电子表格还链接了特定视频的链接,作为"全公司努力寻找优质视频来构建模型"的一部分。
Runway没有回应404的置评请求,Google则将该刊物转到了其今年早些时候的声明上,当时Google在4月份评论说,OpenAI的Sora视频生成器使用YouTube视频来训练其模型违反了YouTube的规则。
据消息来源称,据称Runway还让员工通过关键词筛选出视频,这些关键词侧重于特定类型的内容。视频还根据主题进行分类,例如动画短片和学生电影。搜索范围不仅限于YouTube,经营盗版内容的网站也是目标。
Jupiter是RunwayGen-3模型的内部代号,404的Gen-3测试提示生成的内容与据称从YouTube搜来的视频类似。该出版物补充说,在联系Runway征求意见后,该模型停止生成这些视频。
Runway是较受欢迎的人工智能视频生成公司之一。其最新一轮融资是去年6月的C轮融资,公司估值达15亿美元。同月,它还入选了美国《时代》周刊"最具影响力的100家公司",该榜单上有超过12家人工智能公司。
【查看完整讨论话题】 | 【用户登录】 | 【用户注册】