网络第5域

开源/自有软件基础设施正在被AI破坏 大约97%的请求/流量都是爬虫而非真人

字号+作者:蓝点网 来源:蓝点网 2025-03-21 10:03 评论(创建话题) 收藏成功收藏本文

开源/自由软件的官方网站或源代码托管通常都是可以公开访问的,但提供公开访问是需要服务器和带宽支撑的,正常情况下真实用户访问不会给服务器带来多少压'...

开源/自由软件的官方网站或源代码托管通常都是可以公开访问的,但提供公开访问是需要服务器和带宽支撑的,正常情况下真实用户访问不会给服务器带来多少压力。知名桌面环境GNOME管理员分享了关于服务器流量的分析数据,数据表明在2.5小时内GNOME收到81000个请求,其中只有3%通过Anubi的工作量证明,这意味着剩余97%都是爬虫而非真人访问。RWL品论天涯网

这些爬虫通常不会遵守robots.txt协议,并且人工智能公司的爬虫拥有大量IP地址,这些公司通过这些IP地址并发向开源项目网站发出请求赚取网站或项目数据。RWL品论天涯网

RWL品论天涯网

为了应对这些爬虫消耗服务器硬件资源和网络带宽,GNOME不得不使用名为Anubi的工作流证明系统用来拦截AI爬虫程序,有时候这可能还会误伤真实访问的用户。RWL品论天涯网

GNOME并不是唯一遭受AI爬虫类似DDoS攻击般疯狂抓取的项目,KDE、Fedora、LWN、FrameSoftware等也都在面临同样的问题:其网站和基础设施绝大部分流量都来自AI爬虫。RWL品论天涯网

应对这种攻击并没有太好的办法,管理员正在浪费大量时间、金钱和资源来抵御这些饥饿的AI大军—人工智能公司都在疯狂抓取数据用来训练模型。RWL品论天涯网

此前包括OpenAIChatGPT和字节跳动的Bytespider都被发现高频抓取网站导致网站近乎瘫痪,这些爬虫有时候不遵守robots.txt协议,有时候则是并发海量请求导致服务器瘫痪。RWL品论天涯网

对这些AI公司来说这不会有任何损失,但被高频抓取的网站就遭殃了,浪费服务器资源的同时还必须想法设法识别和拦截这些爬虫,最后只有网站损失惨重。RWL品论天涯网

另外大多数已知的爬虫例如GPTBot还比较容易通过UA进行拦截,还有大量的爬虫不会公布自己的名称,而是模拟智能手机用户进行访问,这种情况下靠UA识别和拦截非常麻烦。RWL品论天涯网

本网除标明“PLTYW原创”的文章外,其它文章均为转载或者爬虫(PBot)抓取; 本文只代表作者个人观点,不代表本站观点,仅供大家学习参考。本网站属非谋利性质,旨在传播马克思主义和共产主义历史文献和参考资料。凡刊登的著作文献侵犯了作者、译者或版权持有人权益的,可来信联系本站删除。 本站邮箱service@pltyw.com

14
扫二维码添加收藏返回顶部