人工智能

DeepSeek-V3低调发布后 业内震惊之余再次怀疑硅谷模式

字号+作者:​财联社 来源:​财联社 2025-03-25 14:50 评论(创建话题) 收藏成功收藏本文

中国人工智能初创公司DeepSeek周一悄然发布了新的模型,这款参数达6850亿个的模型被称为DeepSeek-V3-0324,在没有任何公告的情况下在AI存储库HuggingFace'...

中国人工智能初创公司DeepSeek周一悄然发布了新的模型,这款参数达6850亿个的模型被称为DeepSeek-V3-0324,在没有任何公告的情况下在AI存储库HuggingFace上线,但仍引起了业内的轰动。keq品论天涯网

keq品论天涯网

这款模型已经取得了MIT许可证,也就意味着其可以被自由用于商业用途,且业内的早期测试证实,该模型可以直接在消费级硬件上运行,比如高端市场的苹果MacStudio。keq品论天涯网

AI研究员AwniHannun表示,新的DeepSeek-V3模型可以在配备M3Ultra芯片的苹果电脑上,以每秒20个token的速度运行。这打破了业界关于人工智能模型能力与本地化运行或冲突的早前共识,也意味着数据中心并不是大模型的必要搭配。keq品论天涯网

另一名人工智能研究员Xeophon则在X上宣称,在内部工作台上测试了新版DeepSeek-V3后,发现它在测试的所有指标上都有了巨大飞跃。它现在是最好的非推理模型,超越了甲骨文的ClaudeSonnet3.5。keq品论天涯网

低调但轰动keq品论天涯网

DeepSeek-V3-0324面世时没有附带白皮书,也没有任何宣传,只有一个空的ReadMe文件。这一近乎朴素的发布形式,与硅谷精心策划的产品宣传模型形成鲜明对比。keq品论天涯网

与此同时,DeepSeek的模型都是开源模型,可供任何人免费下载和使用,与最好商业模型之一的ClaudeSonnet截然相反,后者按月收取20美元的费用。keq品论天涯网

此外,DeepSeek还从根本上重新构想了大型语言模型的运作方式,在特定任务期间仅激活约370亿个参数而非全部,也就是所谓的“专家”模块,这大大降低了计算需求。keq品论天涯网

该模型还有另外两项突破性技术:多头潜在注意力(MLA)和多标记预测(MTP)。MLA增强了模型在长篇文本中保持上下文的能力,而MTP每一步生成多个标记,而不是通常的一次生成一个标记的方法。这些创新共同将输出速度提高了近80%。keq品论天涯网

某种程度上,DeepSeek体现了中国企业对效率和资源极致追求的精神,即如何以有限的计算资源实现相等或者更加优化的性能。而这种由需求驱动的创新已经使中国的人工智能在几个月时间内震惊了全球。keq品论天涯网

DeepSeek新模型的改变对于业内来说也具有重大意义,一方面其大大降低了大模型的能耗及计算成本,进一步动摇了华尔街对于顶级模型基础设施的投资规模假设;另一方面,中国人工智能行业对开源的广泛共识又迅速推动国内AI行业的发展,不断缩短其与世界顶尖对手的距离。keq品论天涯网

还有人认为,在DeepSeek的快速追赶下,其计划在4月发布的R2模型有可能直接挑战OpenAI宣传已久的GPT-5模型。如果这一前景真的发生,那么中美两国发展人工智能的不同思路可能将迎来直接的交锋。keq品论天涯网

keq品论天涯网

本网除标明“PLTYW原创”的文章外,其它文章均为转载或者爬虫(PBot)抓取; 本文只代表作者个人观点,不代表本站观点,仅供大家学习参考。本网站属非谋利性质,旨在传播马克思主义和共产主义历史文献和参考资料。凡刊登的著作文献侵犯了作者、译者或版权持有人权益的,可来信联系本站删除。 本站邮箱service@pltyw.com

6
扫二维码添加收藏返回顶部