人工智能

杭州大模型DeepSeek训练仅花4000万元 美国AI大佬全炸出来了

字号+作者:科技每日推送 来源:科技每日推送 2024-12-28 17:49 评论(创建话题) 收藏成功收藏本文

延续便宜大碗的特点,DeepSeekV3发布即开源。还用53页论文,分享训练细节。更重要的是,大家第一时间在论文中发现了关键细节:训练过程,便宜又省钱!DeepSeek用十'...

延续便宜大碗的特点,DeepSeekV3发布即开源。还用53页论文,分享训练细节。更重要的是,大家第一时间在论文中发现了关键细节:训练过程,便宜又省钱!DeepSeek用十分之一的算力,做出了和GPT-4o及Claude-3.5-Sonnet性能相当的模型!ocI品论天涯网


ocI品论天涯网


ocI品论天涯网

DeepSeekV3整个训练过程仅用了不到280万个GPU小时。ocI品论天涯网

对比参考:Llama3405B的训练时长是3080万GPU小时。ocI品论天涯网

训练671B的DeepSeekV3的成本是557.6万美元(约合4070万人民币)。ocI品论天涯网

而同类模型,大概需要1.5万块H100,DeepSeek用了2048块H800就做出来了。ocI品论天涯网

海外对deepseek的赞叹和不解,远高于国内。ocI品论天涯网

OpenAI创始成员AK对此赞道:ocI品论天涯网

DeepSeekV3让在有限算力预算上进行模型预训练这件事变得容易。ocI品论天涯网

DeepSeekV3看起来比Llama3405B更强,训练消耗的算力却仅为后者的1/11。ocI品论天涯网


ocI品论天涯网

Meta科学家田渊栋,说DeepSeekV3的训练,看上去是“黑科技”:这是非常伟大的工作。ocI品论天涯网

MenloVenture的投资人也感慨:“53页的技术论文是黄金”(53-pagetechnicalpaperisGOLD)。ocI品论天涯网

英伟达高级研究科学家JimFan,转发OpenAI创始成员AK的推文表示:资源限制是一件美好的事情。在残酷的人工智能竞争环境中,生存本能是取得突破的主要动力。ocI品论天涯网

“我关注DeepSeek很久了。去年他们推出了最好的开源模型之一,卓越的OSS模型给商业前沿LLM公司带来了巨大压力,迫使它们加快步伐。”ocI品论天涯网

前阿里巴巴副总裁贾扬清认为:ocI品论天涯网

DeepSeek的成功是简单的智慧和实用主义在起作用,在计算和人力有限的情况下,通过智能研究产生最佳结果。ocI品论天涯网


ocI品论天涯网

论文结尾,再次强调了“以开源精神和长期主义追求普惠AGI”。ocI品论天涯网

当然“小力出奇迹”也是相对的,因为公司自身家底殷实。ocI品论天涯网

幻方量化是国内唯一公开宣称有拥有万张英伟达A100显卡的企业,其算力储备量就算是在一众互联网公司科技公司里也豪不逊色。ocI品论天涯网


ocI品论天涯网

如此厉害的大模型,不是互联网科技巨头研发的,国内最牛的AI巨头(之一),竟然是炒股的?ocI品论天涯网

金融领域的头部量化:幻方量化。ocI品论天涯网


ocI品论天涯网


ocI品论天涯网

梁文锋是幻方量化的实际控制人,他在DeepSeek最终受益的股份比例超80%。ocI品论天涯网


ocI品论天涯网

他本硕就读于浙江大学,攻读人工智能,念书时就笃定“AI定会改变世界”。ocI品论天涯网

毕业后,梁文锋没有走程序员的既定路线,而是下场做量化投资,成立幻方量化。幻方量化成立仅6年管理规模即曾达到千亿,被称为“量化四大天王”之一。ocI品论天涯网

幻方量化也是迄今为止,业内唯一规模曾迈过千亿大关的量化私募。ocI品论天涯网


ocI品论天涯网

DeepSeek-V3为自研MoE模型,671B参数,激活37B,在14.8Ttoken上进行了预训练。ocI品论天涯网

DeepSeek-V3多项评测成绩超越了Qwen2.5-72B和Llama-3.1-405B等其他开源模型,在性能上和世界顶尖模型GPT-4o以及Claude-3.5-Sonnet相差无几。ocI品论天涯网


ocI品论天涯网


ocI品论天涯网

此前DeepSeek一直被冠以“AI界拼多多”。ocI品论天涯网

它开启了中国大模型价格战。ocI品论天涯网

2024年5月,DeepSeek发布的一款名为DeepSeekV2的开源模型,提供了史无前例的性价比:ocI品论天涯网

推理成本被降到每百万token仅1块钱,在当时约等于Llama370B的七分之一,GPT-4Turbo的七十分之一。ocI品论天涯网

随后,字节、腾讯、百度、阿里、kimi等AI公司跟随降价。ocI品论天涯网

现在,登录deepseek官网,即可与最新版V3模型对话。当前版本的DeepSeek-V3暂不支持多模态输入输出。ocI品论天涯网

更新上线的同时,DeepSeek调整了API服务价格——模型API服务定价调整为每百万输入tokens0.5元(缓存命中)/2元(缓存未命中),每百万输出tokens8元。ocI品论天涯网

官方还为全新模型设置长达45天的优惠价格体验期:ocI品论天涯网

即日起至2025年2月8日,DeepSeek-V3的API服务价格仍然是每百万输入tokens0.1元(缓存命中)/1元(缓存未命中),每百万输出tokens2元,已经注册的老用户和在此期间内注册的新用户均可享受以上优惠价格。ocI品论天涯网

国内不少公司习惯于跟随海外科技公司,参考技术做应用变现。ocI品论天涯网

即使是互联网大厂在创新方面也较为谨慎,更加重视应用层面。ocI品论天涯网

DeepSeek逆向而行,选择了一条更具挑战的道路。它不满足于仅仅成为跟随者,而是从架构创新入手,提出了突破性的MLA架构,在全球AI大模型领域留下了独特的中国印记。ocI品论天涯网

正如DeepSeek创始人梁文峰所说:“中国也要逐步成为贡献者,而不是一直搭便车。”ocI品论天涯网

本网除标明“PLTYW原创”的文章外,其它文章均为转载或者爬虫(PBot)抓取; 本文只代表作者个人观点,不代表本站观点,仅供大家学习参考。本网站属非谋利性质,旨在传播马克思主义和共产主义历史文献和参考资料。凡刊登的著作文献侵犯了作者、译者或版权持有人权益的,可来信联系本站删除。 本站邮箱[email protected]