网络第5域

Cloudflare推出AI爬虫红黑榜 字节跳动因不遵守抓取协议直接垫底

字号+作者:蓝点网 来源:蓝点网 2025-07-02 14:42 评论(创建话题) 收藏成功收藏本文

网络服务提供商Cloudflare日前推出AI爬虫红黑榜,通过四个维度对人工智能公司的爬虫进行验证、识别和统计,首批被评测的爬虫包括OpenAI、Google、Meta、An'...

网络服务提供商Cloudflare日前推出AI爬虫红黑榜,通过四个维度对人工智能公司的爬虫进行验证、识别和统计,首批被评测的爬虫包括OpenAI、Google、Meta、Anthropic、xAI和字节跳动。3nK品论天涯网

目前评价比较优秀的只有OpenAI的ChatGPT系列爬虫,而垫底的则是xAIGrok爬虫和字节跳动爬虫,其中字节跳动爬虫因各种项目全部没有达标而排在末尾。3nK品论天涯网

接下来这个红黑榜网站还会记录RAG和搜索引擎爬虫并给出得分,后续也会陆续增加更多爬虫的识别和评分,而网站则可以根据红黑榜决定是否要通过更激进的手段屏蔽这些爬虫(毕竟robots.txt已经没啥用)3nK品论天涯网

点击这里查看最新的红黑榜排名:https://goodaibots.com/3nK品论天涯网


3nK品论天涯网

四个维度如下:3nK品论天涯网

爬虫IP是否已验证:AI公司是否已经公布爬虫的IP地址段,公布后有助于准确识别避免其他爬虫冒充3nK品论天涯网

是否通过WebBotAuth验证:WebBotAuth是一种通过加密签名验证爬虫身份的协议,比通过IP识别更准确3nK品论天涯网

爬虫是否分离:分离爬虫很重要,因为网站可以根据不同类型的爬虫做出相应处理,例如有爬虫专门为了抓取数据就可以直接屏蔽,而有些爬虫则为了搜索引擎使用可能可以提供流量,这种爬虫可以被保留抓取。3nK品论天涯网

是否遵守robots.txt协议:该协议用来指示爬虫是否允许抓取以及允许抓取哪些路径,这是个行业约定俗成的规范,部分爬虫完全不遵守该协议3nK品论天涯网

字节跳动的爬虫每天会在整个互联网上抓取数据但却不遵守robots.txt协议,字节跳动也没有公开IP地址段导致网站管理员无法判断自称Bytespider是否真的来自字节跳动。3nK品论天涯网

蓝点网此前就因为字节跳动的爬虫高频次抓取内容且不遵守robots.txt协议而不得不直接在服务器配置文件中阻断UA包含任何Bytespider字符串的请求以减少服务器开支。3nK品论天涯网

不过除了字节跳动外其他爬虫也好不到哪去,例如Anthropic和xAIGrok的爬虫可能也不遵守robots.txt协议,由于这些公司都没有提供IP地址段可以用来验证爬虫,所以Cloudflare无法判断它们是否遵守robots.txt协议。3nK品论天涯网

本网除标明“PLTYW原创”的文章外,其它文章均为转载或者爬虫(PBot)抓取; 本文只代表作者个人观点,不代表本站观点,仅供大家学习参考。本网站属非谋利性质,旨在传播马克思主义和共产主义历史文献和参考资料。凡刊登的著作文献侵犯了作者、译者或版权持有人权益的,可来信联系本站删除。 本站邮箱[email protected]