人工智能

哈佛大学和Google将发布100万本书籍到公共领域 用作AI训练数据集

字号+作者:cnBeta.COM 来源:cnBeta 2024-12-12 21:43 评论(创建话题) 收藏成功收藏本文

人工智能训练数据价格不菲,最适合财大气粗的科技公司使用。这也是哈佛大学计划发布一个公开数据集的原因,该数据集包含约100万本公共领域的书籍,涵盖各种'...

人工智能训练数据价格不菲,最适合财大气粗的科技公司使用。这也是哈佛大学计划发布一个公开数据集的原因,该数据集包含约100万本公共领域的书籍,涵盖各种类型、语言和作者,其中包括狄更斯、但丁和莎士比亚,这些书籍由于年代久远已不再受版权保护。e7C品论天涯网

e7C品论天涯网

新数据集尚未发布,也不清楚何时或如何发布,它所包含的书籍来自Google的长期书籍扫描项目GoogleBooks,因此Google将参与发布"这个宝库的广泛应用"。e7C品论天涯网

哈佛大学早在3月份就首次预告了机构数据倡议(IDI),概述了其创建"人工智能法律数据可信渠道"的计划。然而,直到今天正式启动之前,该计划一直鲜有消息,IDI得到了微软和OpenAI的资金支持。e7C品论天涯网

IDI的执行董事GregLeppert表示,该数据集旨在"公平竞争",向希望训练大型语言模型(LLM)的任何人(从研究实验室到AI初创公司)开放如此庞大的数据集。e7C品论天涯网

本网除标明“PLTYW原创”的文章外,其它文章均为转载或者爬虫(PBot)抓取; 本文只代表作者个人观点,不代表本站观点,仅供大家学习参考。本网站属非谋利性质,旨在传播马克思主义和共产主义历史文献和参考资料。凡刊登的著作文献侵犯了作者、译者或版权持有人权益的,可来信联系本站删除。 本站邮箱[email protected]