人工智能

ChatGPT网络搜索功能使用微软必应搜索技术 爬虫名称为OAI-SearchBot

字号+作者:蓝点网 来源:蓝点网 2024-11-04 13:30 评论(创建话题) 收藏成功收藏本文

早前OpenAI推出ChatGPTSearch网络搜索功能,该功能本质上也属于搜索引擎因此与谷歌搜索有着直接竞争关系。关于数据收集方面OpenAI采用的是两方面措施,一'...

早前OpenAI推出ChatGPTSearch网络搜索功能,该功能本质上也属于搜索引擎因此与谷歌搜索有着直接竞争关系。关于数据收集方面OpenAI采用的是两方面措施,一方面搜索技术使用微软必应,另一方面OpenAI也在自己抓取内容,所有数据被抓取后将按照特定算法进行排序以便在ChatGPT中向用户返回结果。vF0品论天涯网

vF0品论天涯网

OpenAI并未在博客中透露搜索技术使用的是微软必应,不过其工程师在Reddit论坛中确认确实使用了必应搜索,因此对站长来说如果想要通过ChatGPT获得搜索流量,也要针对必应搜索进行SEO优化。vF0品论天涯网

爬虫方面目前OpenAI共有3种不同的爬虫:vF0品论天涯网

GPTBot:用于从互联网上抓取数据训练OpenAI的人工智能模型,该爬虫可以屏蔽不会影响到网站的搜索流量;vF0品论天涯网

ChatGPT-User:用于在用户提问时从网络上检索数据以标注来源链接,该爬虫本身不会抓取网页信息;vF0品论天涯网

OAI-Search:这是OpenAI用于ChatGPTSearch搜索功能的爬虫,专门用于抓取网络数据但不会将数据用于AI模型训练。vF0品论天涯网

对网站来说如果不想自己的内容被抓取用于训练AI但又不想损失来自ChatGPTSearch(尽管目前可能极少),那就可以屏蔽GPTBot而允许OAI-Search爬虫。vF0品论天涯网

关于OAI-Search爬虫的更多信息:vF0品论天涯网

完整UA:Mozilla/5.0AppleWebKit/537.36(KHTML,likeGecko);compatible;OAI-SearchBot/1.0;+https://openai.com/searchbotvF0品论天涯网

IP地址:20.42.10.176/28、172.203.190.128/28、51.8.102.0/24vF0品论天涯网

为防止有恶意爬虫冒充OAI-Search抓取数据,你可以对爬虫IP地址进行校验,如果爬虫IP地址不再上述IP段内均为假冒爬虫,可以直接将其IP屏蔽。vF0品论天涯网

本网除标明“PLTYW原创”的文章外,其它文章均为转载或者爬虫(PBot)抓取; 本文只代表作者个人观点,不代表本站观点,仅供大家学习参考。本网站属非谋利性质,旨在传播马克思主义和共产主义历史文献和参考资料。凡刊登的著作文献侵犯了作者、译者或版权持有人权益的,可来信联系本站删除。 本站邮箱[email protected]