人工智能

Cloudflare 正在将AI网络爬虫引入“人工智能迷宫”

字号+作者:cnBeta.COM 来源:cnBeta 2025-03-23 04:07 评论(创建话题) 收藏成功收藏本文

全球最大的网络基础设施公司之一Cloudflare宣布推出AILabyrinth,这是一款新工具,用于对抗未经许可从网站上抓取AI训练数据的网络爬虫。该公司在一篇博客'...

全球最大的网络基础设施公司之一Cloudflare宣布推出AILabyrinth,这是一款新工具,用于对抗未经许可从网站上抓取AI训练数据的网络爬虫。该公司在一篇博客文章中表示,当检测到“不当的机器人行为”时,这款免费的可选工具会将爬虫引诱到AI生成的诱饵页面的链接路径上,这些页面会“减慢、混淆并浪费”那些恶意行为者的资源。J7U品论天涯网

J7U品论天涯网

互联网长期以来一直使用基于 robots.txt的荣誉系统方式来控制抓取,这是一个文本文件,用于授予或拒绝爬虫程序的权限,但人工智能公司(甚至是Anthropic和PerplexityAI等知名公司)被指责忽视了它。Cloudflare写道,它每天会收到超过500亿个网络爬虫请求,尽管它有工具来发现和阻止恶意请求,但这往往会促使攻击者在“永无止境的军备竞赛”中改变策略。J7U品论天涯网

Cloudflare表示,AILabyrinth不会拦截机器人,而是通过让它们处理与特定网站的实际数据无关的数据来进行反击。该公司表示,它还可以充当“下一代蜜罐”,吸引人工智能爬虫不断跟踪虚假页面的链接,而普通人则不会这样做。它表示,这使得Cloudflare的恶意行为者列表中更容易识别恶意机器人,以及识别它原本无法检测到的“新机器人模式和签名”。根据该帖子,这些链接不对人类访问者可见。J7U品论天涯网

J7U品论天涯网

您可以在Cloudflare的博客上阅读有关AILabyrinth如何工作的更多信息:J7U品论天涯网

https://blog.cloudflare.com/ai-labyrinth/J7U品论天涯网

这里有来自该帖子的更多详细信息:J7U品论天涯网

我们发现,先生成一组多样化的主题,然后为每个主题创建内容,可以产生更加多样化和令人信服的结果。对我们来说,重要的是不要生成不准确的内容,以免助长互联网上错误信息的传播,因此我们生成的内容是真实的并且与科学事实相关,只是与被抓取的网站不相关或不是专有的。J7U品论天涯网

网站管理员可以选择使用AILabyrinth,方法是导航到其站点Cloudflare仪表板设置的“机器人管理”部分并启用它。该公司表示,这“只是使用生成式AI阻止机器人的第一次迭代”。J7U品论天涯网

J7U品论天涯网

Cloudflare计划创建“整个链接URL网络”,机器人最终进入其中时将很难判断为假的。正如ArsTechnica指出的那样,AILabyrinth听起来类似于Nepenthes,后者是一种旨在让爬虫在AI生成的垃圾数据地狱中“数月”处于搁置状态的工具。J7U品论天涯网

本网除标明“PLTYW原创”的文章外,其它文章均为转载或者爬虫(PBot)抓取; 本文只代表作者个人观点,不代表本站观点,仅供大家学习参考。本网站属非谋利性质,旨在传播马克思主义和共产主义历史文献和参考资料。凡刊登的著作文献侵犯了作者、译者或版权持有人权益的,可来信联系本站删除。 本站邮箱service@pltyw.com

评论(0人参与,0条评论)
  • 请先说点什么
    热门评论
    最新评论
    正在载入评论列表...

    查看完整讨论话题】 | 【用户登录】 | 【用户注册

    17
    扫二维码添加收藏返回顶部