人工智能

Meta部署新网络爬虫机器人 为其AI模型收集大量数据

字号+作者: 来源:凤凰网科技 2024-08-21 09:38 评论(创建话题) 收藏成功收藏本文

近日,Meta悄悄地发布了一款新的网络爬虫,用于搜索互联网并收集大量数据,为其人工智能模型提供支持。据三家追踪网络抓取器的公司称,Meta新网络爬虫机器人Me'...

近日,Meta悄悄地发布了一款新的网络爬虫,用于搜索互联网并收集大量数据,为其人工智能模型提供支持。据三家追踪网络抓取器的公司称,Meta新网络爬虫机器人MetaExternalAgent于上月推出,类似于OpenAI的GPTBot,可以抓取网络上的人工智能训练数据,例如新闻文章中的文本或在线讨论组中的对话。nxN品论天涯网

nxN品论天涯网

根据使用档案历史记录显示,Meta确实在7月底更新了一个面向开发者的公司网站,其中一个标签显示了新爬虫的存在,但Meta至今还没有公开宣布其新爬虫机器人。nxN品论天涯网

Meta的Llama是最大的llm之一,虽然该公司没有透露最新版本的模型Llama3使用的训练数据,但其初始版本的模型使用了由CommonCrawl等其他来源收集的大型数据集。nxN品论天涯网

今年早些时候,Meta的联合创始人、首席执行官马克·扎克伯格(MarkZuckerberg)在一次财报电话会议上曾吹嘘说,公司的社交平台已经积累了一套用于人工智能训练的数据集,甚至“超过了CommonCrawl”。nxN品论天涯网

新爬虫的存在表明Meta庞大的数据库可能已经不够用了,因为该公司继续致力于更新Llama和扩展MetaAI,通常需要新的和高质量的培训数据来不断改进功能。nxN品论天涯网

来自DarkVisitors的数据显示,全球近25%的最受欢迎的网站现在已屏蔽了GPTBot,但只有2%的网站屏蔽了Meta的新爬虫机器人。nxN品论天涯网

本网除标明“PLTYW原创”的文章外,其它文章均为转载或者爬虫(PBot)抓取; 本文只代表作者个人观点,不代表本站观点,仅供大家学习参考。本网站属非谋利性质,旨在传播马克思主义和共产主义历史文献和参考资料。凡刊登的著作文献侵犯了作者、译者或版权持有人权益的,可来信联系本站删除。 本站邮箱[email protected]