据WIRED发布的消息,目前在美国已经有诸多网站开始屏蔽互联网档案馆旗下的网站时光机(WaybackMachine)快照功能,即不再允许网站时光机抓取这些新闻网站的页面并将其存档,原因则是AI爬虫抓取数据拿来训练模型。
目前人工智能热潮已经让大量网站的流量出现大幅度下滑,而AI公司则是想方设法绕过限制非法抓取网站内容,最终将抓取到的数据用于AI对话机器人或者用于训练后续的人工智能模型。
对于网站来说这种行为存在未经许可的抓取和使用内容,以及会造成网站流量下滑,所以不少网站都已经在robots.txt里明确禁止来自人工智能的搜索爬虫抓取网站数据。
互联网档案馆和用户都被误杀:
基于保护自身合法权益和利益,包括今日美国、纽约时报等多家知名新闻媒体已经屏蔽互联网档案馆的网站时光机,这些新闻网站将ia_archiverbot爬虫排除在外,这是互联网档案馆使用的爬虫。
除了新闻媒体外,像是Reddit这种网络论坛也同样禁止互联网档案馆抓取内容,Reddit已经与Google和OpenAI等签署授权协议,允许这些公司抓取数据并用于训练人工智能模型,至少对Reddit来说,如果允许互联网档案馆抓取数据,AI公司再抓取互联网档案馆的数据,那就可能导致自己没法继续卖数据。
问题在于很多内容并非永久存在,网站时光机的意义在于可以查看网页内容的变动,以及在网页被删除时继续通过快照浏览内容,这对不少用户来说是非常重要的。
因此在AI热潮下,新闻媒体屏蔽互联网档案馆抓取数据实际上也是对互联网档案馆和用户的误杀:为了屏蔽AI公司进而屏蔽正常使用相关功能的用户。
今日美国称这不是针对互联网档案馆:
今日美国公司发言人表示,屏蔽互联网档案馆抓取内容也并非专门针对互联网档案馆,这是该公司广泛屏蔽所有网络爬虫的正常计划。
卫报商业事务和授权总监则表示,该公司正在与互联网档案馆沟通,就人工智能公司可能滥用为保存目的而抓取内容问题进行讨论(但还没有明确结果)。
从这种情况来看未来可能会有越来越多的媒体屏蔽互联网档案馆,避免自己的内容被AI公司通过互联网档案馆抓取,说到底根源还是这些AI公司。
这些AI公司未经授权抓取内容、高频次抓取内容等行为屡见不鲜,最终这可能会改变开放互联网的格局,让更多网站从公开访问转向注册登录访问甚至付费访问。

相关文章

头条焦点
精彩导读
关注我们
【查看完整讨论话题】 | 【用户登录】 | 【用户注册】