人工智能

Perplexity被指控抓取明确阻止AI抓取的网站

字号+作者:cnBeta.COM 来源:cnBeta 2025-08-04 23:54 评论(创建话题) 收藏成功收藏本文

据互联网基础设施提供商Cloudflare称,人工智能初创公司Perplexity正在抓取并抓取那些明确表示不想被抓取的网站的内容。周一,Cloudflare发布研究报告称,其'...

据互联网基础设施提供商Cloudflare称,人工智能初创公司Perplexity正在抓取并抓取那些明确表示不想被抓取的网站的内容。Vzk品论天涯网

Vzk品论天涯网

周一,Cloudflare发布研究报告称,其观察到这家人工智能初创公司忽略了阻止,并隐藏了其抓取和爬取活动。Cloudflare的研究人员写道,这家网络基础设施巨头指责Perplexity在试图抓取网页时隐藏了其身份,“试图绕过网站的偏好设置”。Vzk品论天涯网

Perplexity等AI产品依赖于从互联网上获取大量数据,而AI初创公司长期以来一直在未经许可的情况下从互联网上抓取文本、图像和视频,以使其产品正常运行。近年来,一些网站试图通过使用网络标准Robots.txt文件进行反击,该文件会告知搜索引擎和AI公司哪些页面可以被索引,哪些页面不应该被索引,但迄今为止,这些努力的效果好坏参半。 Vzk品论天涯网

Perplexity似乎有意通过改变其机器人的“用户代理”(即通过设备和版本类型识别网站访问者的信号)来规避这些阻止;此外,据Cloudflare称,Perplexity还改变其自治系统网络(ASN),本质上是一个用于识别互联网上大型网络的数字。 Vzk品论天涯网

Cloudflare在帖子中写道:“我们在数万个域名和每天数百万个请求中观察到了这种活动。我们能够通过机器学习和网络信号的组合来识别这个爬虫。” Vzk品论天涯网

Perplexity发言人JesseDwyer驳斥了Cloudflare的博客文章,称其为“推销”。他在一封电子邮件中补充道,文章中的截图“显示没有内容被访问”。在后续邮件中,Dwyer声称Cloudflare博客中提到的机器人“甚至不是我们的”。Vzk品论天涯网

Vzk品论天涯网

Cloudflare表示,他们最初注意到这种行为是在其客户抱怨Perplexity仍在抓取和抓取他们的网站内容后,尽管他们在Robots文件中添加了规则,并专门屏蔽了Perplexity已知的机器人程序。Cloudflare表示,他们随后进行了测试检查,并确认Perplexity确实绕过了这些屏蔽。 Vzk品论天涯网

Cloudflare表示:“我们观察到,Perplexity不仅使用其声明的用户代理,而且还使用通用浏览器,当其声明的爬虫程序被阻止时,该浏览器旨在在macOS上模拟GoogleChrome。”  Vzk品论天涯网

该公司还表示,已将Perplexity的机器人从其验证列表中删除,并添加了新的技术来阻止它们。 Vzk品论天涯网

Cloudflare最近公开反对人工智能爬虫。上个月,Cloudflare宣布推出一个市场,允许网站所有者和出版商向访问其网站的人工智能爬虫收费。Cloudflare首席执行官马修·普林斯当时就发出警告,称人工智能正在破坏互联网的商业模式,尤其是出版商的商业模式。去年,Cloudflare还推出了一款免费工具,以防止机器人爬取网站数据来训练人工智能。 Vzk品论天涯网

这并不是Perplexity第一次被指控未经授权进行抓取。去年,《连线》杂志等新闻媒体指控Perplexity抄袭其内容。Vzk品论天涯网

本网除标明“PLTYW原创”的文章外,其它文章均为转载或者爬虫(PBot)抓取; 本文只代表作者个人观点,不代表本站观点,仅供大家学习参考。本网站属非谋利性质,旨在传播马克思主义和共产主义历史文献和参考资料。凡刊登的著作文献侵犯了作者、译者或版权持有人权益的,可来信联系本站删除。 本站邮箱[email protected]