OpenAI要向出版商付费，终究还是没有免费的午餐-品论天涯网

声明：本文来自微信公众号“三易生活”（ID:IT-3eLife），作者:三易菌，授权站长之家转载发布。fKP品论天涯网

此前在去年年末，OpenAI CEO Sam Altman在社交平台公布了OpenAI的2024年“愿望清单”，下一代人工智能模型GPT-5赫然在列。此前有传言称，GPT-4的参数量达到了1.5万亿，模型规模是GPT-3的数倍，因此也可想而知，未来GPT-5的参数规模必然将会更上一层楼。而这也就意味着，OpenAI训练GPT-5所需的语料也将会达到史无前例的程度。fKP品论天涯网

fKP品论天涯网

为此，OpenAI已经开始为GPT购买新的语料。去年12月中旬，OpenAI方面就曾宣布与新闻出版巨头施普林格出版集团（Axel Springer）达成一项史无前例的协议，OpenAI将付费使用施普林格旗下出版物的内容，以填充ChatGPT的答案、并将媒体的内容作为其训练数据。日前OpenAI的知识产权和内容主管Tom Rubin在接受媒体采访时也证实，OpenAI正在积极与传媒行业接触。fKP品论天涯网

Tom Rubin表示，“我们正在与许多出版商进行许多谈判和讨论。他们很活跃，也非常积极，谈判进展得很顺利。你已经看到了我们公开的部分交易，未来还会有更多。”fKP品论天涯网

然而，海外的出版商似乎对于OpenAI给出的价码不太满意。最近与OpenAI进行谈判的两名媒体公司高管就表示，OpenAI仅仅愿意向部分媒体公司提供每年100万至500万美元的授权费用。即使是对小型出版商来说，这也是一个很小的数字，所有有观点认为这可能会让OpenAI很难达成协议。fKP品论天涯网

OpenAI最近开始积极投身于购买版权内容的原因其实很简单，因为已经版权方“盯上”了他们。就在去年12月27日，大名鼎鼎的《纽约时报》就指控OpenAI和微软未经授权使用其数以百万计的报道，以训练ChatGPT等人工智能聊天机器人。fKP品论天涯网

《纽约时报》方面认为，“（OpenAI）试图搭《纽约时报》在新闻领域巨额投资的便车，在未经许可或未付款的情况下利用《纽约时报》的内容来制造替代产品”。fKP品论天涯网

为什么在2023年年末，OpenAI使用未经许可的数据会被拿出说事呢?答案是GPT-4对于数据或者说语料的渴求，使得目前互联网上公开数据源的开源语料库已经无法满足。fKP品论天涯网

比如，训练ChatGPT的45TB数据主要来源于Common Crawl、维基百科、美国专利文件数据库。其中，Common Crawl是一个抓取互联网、并提供数据开源下载的开源数据库，截止2023年4月其一共汇聚了31亿个网页、共有400TB的原始数据，而纽约时报》的域名就是最具代表性的专有来源之一，贡献了超过1600万条内容。fKP品论天涯网

fKP品论天涯网

然而Common Crawl、维基百科、美国专利文件数据库不是政府机构、就是非盈利性组织，所以《纽约时报》没法使用版权这个武器，但OpenAI就不一样了，拥有ChatGPT Plus的它已经是一个盈利组织。而《纽约时报》的底气，则源自于OpenAI单单是训练ChatGPT，就已经几乎将互联网一切英语资源一网打尽，GPT-4的训练更是使用了超过13万亿tokens，甚至OpenAI方面自己都承认，训练GPT-4时使用了来自《纽约时报》的版权内容。fKP品论天涯网

为了避免第二个、第三个《纽约时报》出现，OpenAI就只能选择付钱来购买内容。fKP品论天涯网

那么问题就来了，每年100万至500万美元的授权费用，出版商为什么会觉得这笔钱很少呢?因为在出版商看来，向OpenAI授权相关数据几乎就等于“卖出绞死自己的最后一根绞索”。fKP品论天涯网

如果说当年的搜索引擎与出版商是双赢的关系，毕竟前者需要内容源来满足用户的信息需求，出版商则需要搜索引擎将流量引导到自己的网站，并且搜索引擎只提供简介和链接，详情则要用户点开链接到内容提供方的源头去看。可现在的ChatGPT、Bing Chat却是直接在自己的页面中向用户提供内容，这无疑就是对于出版商的釜底抽薪。fKP品论天涯网

换而言之，通过ChatGPT用户可以直接看到由AI整合的新闻，根本就不需要去《纽约时报》官网再去看相关的内容，长此以往，新闻出版机构存在的意义又在哪里呢?fKP品论天涯网

并且由于AI大模型的发展趋势俨然已经势不可挡，正如当年新闻出版行业被迫与搜索引擎、社交网络媾和一样，因此以《纽约时报》为代表的新闻出版商选择以自己手中的版权作为武器，试图在蓬勃发展的AI行业中分到一杯羹。fKP品论天涯网

fKP品论天涯网

而OpenAI大张旗鼓地向出版商购买版权，其实也是一个阳谋。现阶段，大模型赛道的现状是资本和技术双密集，算力成本极其昂贵，以至于有相当多的AI初创企业被迫接受拥有算力资源的英伟达的投资，以此来获得更便宜的算力。如果未来数据或者语料也成为大模型行业的成本，无疑就将会劝退一大批竞争者，这对于保持OpenAI竞争力的相对领先，显然是有很大意义的事情。fKP品论天涯网

可是OpenAI训练GPT需要的内容实在太多，以至于即使不缺资金支持，也难以让每一家出版商都满意，这就是当下OpenAI面临的困局。当拥有数据的一方经过了2023年AI大模型领域爆发式的增长后，已经充分认识到了手中的数据是有价值的，已经处于衰退的出版商就必然指望从这些AI企业手获得更多的收益。fKP品论天涯网

因此从某种意义上来说，在OpenAI造出GPT-5、并产生一个能自我生产内容的AI之前，被新闻出版商围猎几乎是必然。fKP品论天涯网