Reddit一直在采取行动,打击为人工智能训练目的而疯狂抓取其网站的公司。Reddit的理念是,人工智能公司利用自己并不拥有的资源开发大型语言模型,可以从中获利数百万甚至数十亿美元。这就好比有人从伐木场拿走两乘四的木料盖房子,只因为院子里没有上锁的大门。但这个问题远远超出了Reddit的范畴,也是开放网络迄今为止如何运作的核心问题。
机器人排除协议是一种网络标准,用于控制和管理网络爬虫和机器人对网站的访问。它由robots.txt文件定义,告诉搜索引擎网站的哪些部分可以被抓取或索引,帮助网站管理员保护敏感内容并有效管理流量。不过,它是在荣誉系统上运行的,几乎没有强制执行的方法。
上周,ArsTechnica报道称,除了Google之外,Reddit的帖子没有出现在任何搜索引擎中。Reddit已经与Alphabet签订了一份价值6000万美元的授权协议,将其内容用于培训,这并不是什么大秘密,与此同时,在过去一年里,Reddit在Google搜索中的排名越来越靠前(交换条件,或许不是......)。
该公司最近还通知用户,它更改了robots.txt文件,以排除没有权限访问其数据的机器人和爬虫。Reddit首席执行官史蒂夫-赫夫曼(SteveHuffman)说,他相信互联网是开放的,但现在有公司利用搜索引擎网络爬虫来搜刮信息以牟利,这与它们的历史用途大相径庭。"赫夫曼告诉TheVerge:"我认为,搜索引擎的传统价值交换方式已经改变。搜索和总结、培训正在融合,以抓取换取流量回流的价值交换正变得泥沙俱下."
赫夫曼说,在这一点上,阻止不愿为数据采集付费的公司一直是"非常麻烦的事情",这也促使Reddit对robots.txt进行了修改。在大多数情况下,公司都尊重Reddit的意愿,包括微软、Anthropic和Perplexity在内的几家公司已经就授权其内容进行了谈判。
霍夫曼说,让他最头疼的问题是,一些公司在获取Reddit的数据后,又通过其API将这些数据卖给了其他人工智能公司。他特别提到微软人工智能首席执行官穆斯塔法-苏莱曼(MustafaSuleyman)最近将互联网上的所有公共数据比作"免费软件"。
赫夫曼说:"微软、Anthropic和Perplexity都表现得好像互联网上的所有内容他们都可以免费使用。这就是他们的真实立场。"虽然微软必应已经很客气地尊重了Reddit屏蔽其爬虫的决定,但该公司还是不忘嘲讽一番。
"Reddit阻止必应抓取他们的网站进行搜索,偏向于另一个搜索引擎,影响了必应和必应驱动的引擎的竞争,"微软发言人凯特琳-罗斯顿(CaitlinRoulston)上周表示。"我们尊重那些不希望其网页内容被我们的生成式人工智能模型使用的网站所提供的指示。"
到目前为止,Google和OpenAI是Reddit白名单上唯一的搜索引擎。如果其他引擎返回的只是过期的Reddit内容,那么它们就没有遵守网站的robots.txt文档。
Reddit通过这些授权交易从用户生成的内容中获利,一方面,丰厚的费用并没有落入Reddit论坛社区成员的口袋。另一方面,这些授权协议与其他公司的授权协议并无太大区别。
OpenAI已经向DotdashMeredith、AxelSpringer、AssociatePress和《大西洋月刊》等大型出版商支付了许可费。这些出版商是否会通过加薪或奖金的方式将这些利润转嫁给他们的作者,这一点尚未得到证实,但值得怀疑。这样做对吗?不,法院仍在对这一史无前例的行为进行裁决。不过,在这一点上,这是理所当然的。
而这个问题并不局限于Reddit,而是所有在线出版商,无论大小。在反对人工智能训练滥用的竞赛中,Reddit是少数几家有实力和影响力与人工智能公司叫板的公司之一。在大型媒体公司努力实现货币化并达成协议的同时,互联网的其他部分却在苦苦挣扎。事实上,一些子论坛拥有自己的机器人,它们会从原始来源复制和粘贴整个书面内容,并将其显示为主题中的第一条评论,这实际上是在复制内容,然后将其出售给人工智能公司。
在制定管理条例之前,人工智能淘金热就像1848年的加州淘金热一样。人工智能公司将继续蜂拥而至,把人工智能产品塞进每个人的喉咙,以获取利润或收集更多数据。与此同时,像Reddit和Vox这样的公司也会继续把铲子递给他们。
【查看完整讨论话题】 | 【用户登录】 | 【用户注册】