哈佛大学和Google将发布100万本书籍到公共领域用作AI训练数据集-品论天涯网

人工智能训练数据价格不菲，最适合财大气粗的科技公司使用。这也是哈佛大学计划发布一个公开数据集的原因，该数据集包含约100万本公共领域的书籍，涵盖各种类型、语言和作者，其中包括狄更斯、但丁和莎士比亚，这些书籍由于年代久远已不再受版权保护。9MG品论天涯网

9MG品论天涯网

新数据集尚未发布，也不清楚何时或如何发布，它所包含的书籍来自Google的长期书籍扫描项目GoogleBooks，因此Google将参与发布"这个宝库的广泛应用"。9MG品论天涯网

哈佛大学早在3月份就首次预告了机构数据倡议（IDI），概述了其创建"人工智能法律数据可信渠道"的计划。然而，直到今天正式启动之前，该计划一直鲜有消息，IDI得到了微软和OpenAI的资金支持。9MG品论天涯网

IDI的执行董事GregLeppert表示，该数据集旨在"公平竞争"，向希望训练大型语言模型(LLM)的任何人（从研究实验室到AI初创公司）开放如此庞大的数据集。9MG品论天涯网

哈佛大学和Google将发布100万本书籍到公共领域 用作AI训练数据集