显卡可能没那么重要了？中国公司给硅谷好好上了一课-品论天涯网

我是万万没想到，就在西方还沉浸在圣诞假期，疯狂“过年”的时候，咱们中国企业给人家放了个新年二踢脚，给人家脑瓜子崩得嗡嗡得。前有宇树科技的机器狗视频让大家惊呼，还要啥波士顿动力。mIF品论天涯网

mIF品论天涯网

紧接着又来了个国产大模型DeepSeek，甚至有股做空英伟达的味道。mIF品论天涯网

具体咋回事儿，咱给你唠明白咯。mIF品论天涯网

前几天，DeepSeek刚刚公布最新版本V3，注意，与大洋彼岸那个自称Open，却越来越Close的公司产品不同，这个V3是开源的。mIF品论天涯网

不过开源还不是他最重要的标签，DeepSeek-V3（以下简称V3）还兼具了性能国际一流，技术力牛逼，价格击穿地心三个特点，这一套不解释连招打得业内大模型厂商们都有点晕头转向了。mIF品论天涯网

mIF品论天涯网

V3一发布，OpenAI创始成员Karpathy直接看嗨了，甚至发出了灵魂提问，难道说大模型们压根不需要大规模显卡集群？mIF品论天涯网

我估计老黄看到这头皮都得发麻了吧。mIF品论天涯网

mIF品论天涯网

同时，Meta的AI技术官也是直呼DeepSeek的成果伟大。mIF品论天涯网

mIF品论天涯网

知名AI评测博主TimDettmers，直接吹起来了，表示DeepSeek的处理优雅“elegant”。mIF品论天涯网

mIF品论天涯网

而在这些技术出身的人，看着V3的成绩送去赞扬的时候，也有些人急了。mIF品论天涯网

比如奥特曼就搁那说，复制比较简单啦，很难不让人觉得他在内涵DeepSeek。mIF品论天涯网

mIF品论天涯网

更有意思的是，做到这些的公司既不是什么大厂，也不是纯血AI厂商。mIF品论天涯网

DeepSeek公司中文名叫深度求索，他们本来和AI没任何关系。mIF品论天涯网

就在大模型爆火之前，他们其实是私募机构幻方量化的一个团队。mIF品论天涯网

mIF品论天涯网

而深度求索能够实现弯道超车，既有点必然，也好像有点运气的意思。mIF品论天涯网

早在2019年，幻方就投资2亿元搭建了自研深度学习训练平台“萤火虫一号”，到了2021年已经买了足足1万丈英伟达A100显卡的算力储备了。mIF品论天涯网

mIF品论天涯网

要知道，这个时候大模型没火，万卡集群的概念更是还没出现。mIF品论天涯网

而正是凭借这部分硬件储备，幻方才拿到了AI大模型的入场券，最终卷出了现在的V3。mIF品论天涯网

你说好好的一个量化投资领域的大厂，干嘛要跑来搞AI呢？mIF品论天涯网

深度求索的CEO梁文锋在接受采访的时候给大家聊过，并不是什么看中AI前景。mIF品论天涯网

而是在他们看来，“通用人工智能可能是下一个最难的事之一”，对他们来说，“这是一个怎么做的问题，而不是为什么做的问题。”mIF品论天涯网

就是抱着这么股“莽”劲，深度求索才搞出了这次的大新闻，下面给大家具体讲讲V3有啥特别的地方。mIF品论天涯网

首先就是性能强悍，目前来看，在V3面前，开源模型几乎没一个能打的。mIF品论天涯网

还记得去年年中，小扎的Meta推出模型Llama3.1，当时就因为性能优秀而且开源，一时间被捧上神坛，结果在V3手里，基本是全面落败。mIF品论天涯网

而在各种大厂手里的闭源模型，那些大家耳熟能详的什么GPT-4o、Claude3.5Sonnet啥的，V3也能打得有来有回。mIF品论天涯网

mIF品论天涯网

你看到这，可能觉得不过如此，也就是追上了国际领先水平嘛，值得这么吹吗？mIF品论天涯网

残暴的还在后面。mIF品论天涯网

大家大概都知道了，现在的大模型就是一个通过大量算力，让模型吃各种数据的炼丹过程。mIF品论天涯网

在这个炼丹期，需要的是大量算力和时间往里砸。mIF品论天涯网

所以在圈子里有了一个新的计量单位“GPU时”，也就是用了多少块GPU花了多少个小时的训练时间。mIF品论天涯网

GPU时越高，意味着花费的时间、金钱成本就越高，反之就物美价廉了。mIF品论天涯网

前面说的此前开源模型王者，Llama3.1405B，训练周期花费了3080万GPU时。mIF品论天涯网

可性能更强的V3，只花了不到280万GPU时。mIF品论天涯网

以钱来换算，DeepSeek搞出V3版本，大概只花了4000多万人民币。mIF品论天涯网

而Llama3.1405B的训练期间，Meta光是在老黄那买了16000多个GPU，保守估计至少都花了十几亿人民币。mIF品论天涯网

至于另外的那几家闭源模型，动辄都是几十亿上百亿大撒币的。mIF品论天涯网

mIF品论天涯网

你别以为DeepSeek靠的是什么歪门邪道，人家是正儿八经的有技术傍身的。mIF品论天涯网

为了搞清楚DeepSeek的技术咋样，咱们特地联系了语核科技创始人兼CTO池光耀，他们主力发展企业向的agent数字人，早就是DeepSeek的铁粉了。mIF品论天涯网

池光耀告诉我们，这次V3的更新主要是3个方面的优化，分别是通信和显存优化、推理专家的负载均衡以及FP8混合精度训练。mIF品论天涯网

各个部分怎么实现的咱也就不多说了，总体来说，大的整体结构没啥变化，更多的像是咱们搞基建的那一套传统艺能，把工程做得更高效、更合理了。mIF品论天涯网

mIF品论天涯网

首先，V3通过通信和显存优化，极大幅度减少了资源空闲率，提升了利用效率。mIF品论天涯网

而推理专家（具备推理能力的AI系统或算法，能够通过数据分析得出结论）的负载均衡就更巧妙了，一般的大模型，每次启动，必须把所有专家都等比例放进工位（显存），但真正回答用户问题时，十几个专家里面只用到一两个，剩下的专家占着工位（显存）摸鱼，也干不了别的事情。mIF品论天涯网

而DeepSeek把专家分成热门和冷门两种，热门的专家，复制一份放进显存，处理热门问题；冷门的专家也不摸鱼，总是能被分配到问题。mIF品论天涯网

FP8混合精度训练则是在之前被很多团队尝试无果的方向上拓展了新的一步，通过降低训练精度以降低训练时算力开销，但却神奇地保持了回答质量基本不变。mIF品论天涯网

也正是这些技术上的革新，才得到了大模型圈的一致好评。mIF品论天涯网

mIF品论天涯网

通过一直以来的技术更新迭代，DeepSeek收获的回报也是相当惊人的。mIF品论天涯网

他们V3版本推出后，他们的价格已经是低到百万次几毛钱、几块钱。mIF品论天涯网

他们甚至还在搞了个新品促销活动，到明年2月8号之前，在原来低价的基础上再打折。mIF品论天涯网

mIF品论天涯网

而一开始提到同样开源的Claude3.5Sonnet，每百万输入输出，至少都得要几十块以上……mIF品论天涯网

更要命的是，这对DeepSeek来说已经是常规套路了。mIF品论天涯网

早在去年初，DeepSeekV2模型发布后，就靠着一手低价，被大家叫做了AI界拼多多。mIF品论天涯网

他们还进一步引发了国内大模型公司的价格战，诸如智谱、字节、阿里、百度、腾讯等大厂纷纷降价。mIF品论天涯网

池光耀也告诉我们，他们公司早在去年6、7月份就开始用上了DeepSeek，当时也有国内其他一些大模型厂商来找过他们。mIF品论天涯网

但和DeepSeek价格差不多的，模型“又太笨了，跟DeepSeek不在一个维度”；如果模型能力和DeepSeek差不多，那个价格“基本都是10倍以上”。mIF品论天涯网

更夸张的是，由于技术“遥遥领先”带来的降本增效，哪怕DeepSeek卖得这么便宜，根据他们创始人梁文峰所说，他们公司还是赚钱的……是不是有种隔壁比亚迪搞998，照样财报飘红的味道了。mIF品论天涯网

不过对于我们普通用户来说，DeepSeek似乎也有点偏门了。mIF品论天涯网

因为他的强项主要是在推理、数学、代码方向，而多模态和一些娱乐化的领域不是他们的长处。mIF品论天涯网

mIF品论天涯网

而且眼下，尽管DeepSeek说自己还是赚钱的，但他们团队上上下下都有股极客味，所以他们的商业化比起其他厂商就有点弱了。mIF品论天涯网

但不管怎么说，DeepSeek的成功也证明了，在AI这个赛道还存在的更多的可能。mIF品论天涯网

按以前的理解，想玩转AI后面没有个金主爸爸砸钱买显卡，压根就玩不转。mIF品论天涯网

但现在看起来，掌握了算力并不一定就是掌握了一切。mIF品论天涯网

我们不妨期待下未来，更多的优化出现，让更多的小公司、初创企业都能进入AI领域，差评君总感觉，那才是真正的AI浪潮才对。mIF品论天涯网