旨在让人工智能公司为其从网络上抓取的内容付费的开放许可标准现已发布,简易许可1.0版规范(简称RSL1.0)赋予发布者向访问其网站内容的网络爬虫制定许可和补偿规则的能力。
RSL联盟由雅虎等公司成立,RSL标准则是对robots.txt文件的扩展,后者用于告诉网络爬虫网站上的哪些内容可以访问,哪些内容不可以访问并禁止索引到搜索引擎中。
这个新联盟目前已经得到超过1500家媒体机构和品牌的支持,包括热门网络论坛Reddit、问答社区Quora、百科内容WikiHow、技术问答社区StackOverflow和媒体平台Medium等。
需要特别强调的是RSL许可并不能直接阻止人工智能公司的爬虫抓取内容,也就是无论爬虫是否付费都不能阻止其抓取,但网络技术服务商可以通过集成RSL许可做到拦截。
其中网络服务提供商Cloudflare、美国内容分发网络提供商Fastly以及美国知名网络服务商Akamai均已支持RSL1.0版协议,也就是说如果网站配置了RSL1.0文件,则Cloudflare等会根据文件内容对爬虫进行区分对待,例如直接封禁任何未付费或未授权的爬虫。
RSL1.0许可还允许网站屏蔽其内容被人工智能驱动的搜索功能抓取,例如谷歌搜索的AI模式,屏蔽的同时保留内容在传统搜索结果中的排名。目前谷歌并不允许网站单独退出AI模式索引,除非屏蔽整个谷歌并导致网站所有内容都会谷歌移除。
RSL联盟认为RSL1.0许可有助于改善人工智能技术与内容出版社之间的矛盾,让AI公司可以继续获取数据训练模型,但也可以考虑出版社的利益尤其是内容版权被使用出现的损失。

相关文章

头条焦点
精彩导读
关注我们
【查看完整讨论话题】 | 【用户登录】 | 【用户注册】