人工智能

Cloudflare开始免费提供阻止AI机器人的一键式解决方案

字号+作者: 来源:cnBeta 2024-07-05 07:36 评论(创建话题) 收藏成功收藏本文

越来越多的人认为,生成式人工智能有可能使开放网络变得比以前更糟。目前,所有大型科技公司和人工智能初创企业都依赖于从网络上抓取所有原创内容来训练其'...

越来越多的人认为,生成式人工智能有可能使开放网络变得比以前更糟。目前,所有大型科技公司和人工智能初创企业都依赖于从网络上抓取所有原创内容来训练其人工智能模型。问题是,绝大多数网站对此并不感冒,也没有给予许可。不过,问问微软人工智能首席执行官就知道了,他认为开放网络上的内容本来就应该免费抓取。5m5品论天涯网

就在上周,Akamai的一份报告再次证实,机器人在整个网络流量中的占比非常大,人工智能让网络犯罪分子和不诚实的企业更容易得手。5m5品论天涯网

5m5品论天涯网

使用Cloudflare提供的内容交付和防火墙服务的网站和内容创建者现在又多了一个简单易用的解决方案,可以遏制大科技公司在没有明确授权的情况下释放机器人和采集网站内容的能力。5m5品论天涯网

大多数流行的人工智能公司(如OpenAI)已经开始提供一种方法,通过在服务器上的robots.txt文件中添加自定义规则来阻止爬行机器人。然而,这些解决方案只有在机器人被设计为真正遵守这些规则时才会起作用--问题在于:1)并非所有公司都愿意遵守robots.txt指令;2)许多人工智能公司在提供这种"选择退出"之前就已经放弃了一切可能--Cloudflare表示,其绝大多数客户(多达85%)已经选择以这种方式阻止人工智能机器人。5m5品论天涯网

Cloudflare提供的新一键式解决方案既适用于免费客户,也适用于付费客户,它似乎可以有效打击不遵守robots.txt规则的人工智能机器人。Cloudflare可以识别机器人,并为每个机器人创建单独的指纹,而且它发誓会随着时间的推移自动更新其指纹数据库。5m5品论天涯网

5m5品论天涯网

作为互联网上最大的CDN网络之一,Cloudflare可以从平均每秒超过5700万次的网络请求中推断出数据。5m5品论天涯网

该公司列出了一份当今网络上最活跃的人工智能机器人名单,其中Bytespider、GPTBot和ClaudeBot是访问量最大的三个机器人。Bytespider由中国公司和TikTok所有者字节跳动运营,很可能使用从40%受Cloudflare保护的网站上抓取的内容来训练其大型语言模型。5m5品论天涯网

GPTBot正在访问35%的网站,并收集数据用于训练ChatGPT和OpenAI提供的其他生成式人工智能服务。Cloudflare表示,ClaudeBot最近的请求量增加了11%,并被用于训练Anthropic开发的同名LLM算法系列。5m5品论天涯网


5m5品论天涯网

虽然通过静态分析可以更容易地识别这些众所周知的机器人,但Cloudflare还可以检测到假装成真人浏览网页的机器人。5m5品论天涯网

该公司开发了自己的全球机器学习模型,基本上是利用人工智能技术来识别假装成其他东西的人工智能机器人。Cloudflare表示,其模型能够"适当标记"来自躲避性人工智能机器人的流量,未来将用于检测新的刮擦工具和假冒机器人,而无需先生成新的机器人指纹。5m5品论天涯网

5m5品论天涯网

5m5品论天涯网

5m5品论天涯网

5m5品论天涯网

5m5品论天涯网

5m5品论天涯网

本网除标明“PLTYW原创”的文章外,其它文章均为转载或者爬虫(PBot)抓取; 本文只代表作者个人观点,不代表本站观点,仅供大家学习参考。本网站属非谋利性质,旨在传播马克思主义和共产主义历史文献和参考资料。凡刊登的著作文献侵犯了作者、译者或版权持有人权益的,可来信联系本站删除。 本站邮箱[email protected]