人工智能

OpenAI计划建立「数据市场」,训出GPT-5短缺20万亿 token

字号+作者: 来源:站长之家 2024-04-08 14:27 评论(创建话题) 收藏成功收藏本文

划重点:⭐️ AI 公司面临高质量数据短缺,OpenAI 计划建立「数据市场」⭐️ 数据供不应求可能导致人工智能发展受阻⭐️ 公司探索合成数据训练方法以解决数据短'...

划重点:CL8品论天涯网

⭐️ AI 公司面临高质量数据短缺,OpenAI 计划建立「数据市场」CL8品论天涯网

⭐️ 数据供不应求可能导致人工智能发展受阻CL8品论天涯网

⭐️ 公司探索合成数据训练方法以解决数据短缺问题CL8品论天涯网

站长之家(ChinaZ.com) 4月8日 消息:全网高质量数据集告急!据报道,AI 公司如 OpenAI、Anthropic 等正在努力寻找足够的信息来训练下一代人工智能模型。数据短缺问题日益突出,对训练下一代强大模型至关重要。面对这一挑战,AI 初创、互联网大厂开始寻找新的方法来解决算力和数据的瓶颈问题。CL8品论天涯网

AI换脸 人脸识别 (2)CL8品论天涯网

图源备注:图片由AI生成,图片授权服务商MidjourneyCL8品论天涯网

据悉,GPT-5等强大系统的开发需要大量海量数据作为训练材料,然而高质量公共数据在互联网中已变得稀缺。CL8品论天涯网

研究机构Epoch研究人员Pablo Villalobos估计,GPT-4是在多达12万亿个token上训练的。他继续表示,基于Chinchilla缩放定律的原理,如果继续遵循这样扩展轨迹,像GPT-5这样的AI系统将需要60万亿-100万亿token的数据。也就是,利用所有可用的高质最语言和图像数据后,训出 GPT-5仍短缺20万亿 token。CL8品论天涯网

一些数据所有者如 Reddit 等机构也制定政策限制 AI 公司访问数据,加剧了数据短缺的困境。为解决这一难题,一些公司正在尝试通过合成数据训练模型,但可能会面临「模型自噬障碍」等问题。CL8品论天涯网

对于数据稀缺问题,AI 研究人员和公司纷纷寻求解决之道。OpenAI 的 Ari Morcos 指出,数据短缺是一个前沿的研究问题,他的公司 DatologyAI 致力于改进数据选择工具,以降低训练 AI 模型的成本。此外,OpenAI 还在讨论建立「数据市场」,通过确定数据点对模型训练的贡献来支付费用,以帮助缓解数据短缺问题。CL8品论天涯网

数据短缺对 AI 发展构成重大挑战,各公司正在探索不同的方法来解决这一问题。从合成数据到建立数据市场,AI 领域正在不断寻求突破,以确保训练下一代强大人工智能模型所需的数据资源。CL8品论天涯网

本网除标明“PLTYW原创”的文章外,其它文章均为转载或者爬虫(PBot)抓取; 本文只代表作者个人观点,不代表本站观点,仅供大家学习参考。本网站属非谋利性质,旨在传播马克思主义和共产主义历史文献和参考资料。凡刊登的著作文献侵犯了作者、译者或版权持有人权益的,可来信联系本站删除。 本站邮箱[email protected]