DeepSeek-V4报告亮了 V4发布延迟的秘密终于曝光-品论天涯网

昨天，是名副其实的AI圈“春晚”。DeepSeek-V4的技术报告一出，近60页的篇幅，从架构到训练到后训练全部摊开。484天，对这个团队来说不寻常。V3从V2到发布只用了不到8个月。V4为什么多花了将近一倍的时间？9gq品论天涯网

9gq品论天涯网

认真研读完这篇报告，我们发现了背后可能的原因，以及这家“国产之光”令人震撼的工程底色实。9gq品论天涯网

可以说，DeepSeek-V4真正令人深思的，不是它堆了多少算力，而是它在Agent训练、工程底座、以及处理“训练震荡”时的那种近乎残酷的理性和透明。9gq品论天涯网

今天，我们直接拆开V4的引擎盖，看看里面藏着哪些不为人知的硬核细节。9gq品论天涯网

33TToken+万亿参数9gq品论天涯网

难度直接拉满9gq品论天涯网

距离V3发布整整484天，V4才以“previewversion”的姿态上线。9gq品论天涯网

论文里虽然没有解释这个时间跨度，但有一段内容或许能提供线索。9gq品论天涯网

9gq品论天涯网

V3用了14.8Ttoken做预训练，V4直接翻倍，V4-Flash训了32T，V4-Pro训了33T。参数量同样大幅扩张，V4-Pro总参数1.6T，V4-Flash也有284B。9gq品论天涯网

数据翻倍、参数翻倍，训练稳定性的难度也跟着上了一个量级。9gq品论天涯网

报告里非常诚实：DeepSeek明确点名了“训练稳定性挑战”。9gq品论天涯网

9gq品论天涯网

GoogleDeepMind研究者SusanZhang表扬说：这种透明的做法值得称赞。这个说法还得到了龙虾之父的转发9gq品论天涯网

在超大规模集群上，当参数量和训练数据达到某个临界点时，硬件的细微误差会被无限放大。9gq品论天涯网

论文里，“stability”这个词出现了十余次。9gq品论天涯网

放在一篇技术报告里，这个频率本身就是信号。正常情况下，稳定性是默认前提，不值得反复提。反复提，说明它确实是个问题。9gq品论天涯网

9gq品论天涯网

具体来看，DeepSeek发现MoE层中的数值异常值（outlier）会通过路由机制不断放大，形成恶性循环，最终触发lossspike，训练曲线突然飙升。9gq品论天涯网

团队祭出的主要补救措施是两招。9gq品论天涯网

第一招叫AnticipatoryRouting。它本质上就是在路由阶段使用稍早版本的参数，把骨干网络和路由网络的更新解耦，打破两者之间的恶性循环。9gq品论天涯网

第二招是SwiGLUClamping。它直接把SwiGLU的数值范围钳制在[-10，10]以内，从源头压制异常值，虽然暴力但很有效。9gq品论天涯网

9gq品论天涯网

当前大模型训练已进入硬件底层、编译器栈、以及数学架构三位一体的无人区9gq品论天涯网

论文里有个细节很耐琢磨。9gq品论天涯网

AnticipatoryRouting和SwiGLUClamping，DeepSeek确认“显著有效”，但紧跟一句“底层机理仍是openquestion”。9gq品论天涯网

连Q/KV归一化这种已经被广泛验证的基础操作，论文的措辞都只敢写“mayimprovetrainingstability”。9gq品论天涯网

一个“may”字，足以说明在万亿参数MoE的训练里，没有什么是百分百靠得住的。9gq品论天涯网

9gq品论天涯网

从15T到33T，数据量翻倍带来的不是线性增长的困难，而是指数级放大的系统性风险。9gq品论天涯网

每一层网络、每一个梯度更新、每一次通信同步，都在更大的规模下被放大成潜在的崩溃点。9gq品论天涯网

而DeepSeek选择把这些全写进论文里，这在业内几乎没有先例。9gq品论天涯网

硬件的锅，还是软件的锅？9gq品论天涯网

所以，技术报告中明确提出的“训练稳定性挑战”，指的到底是谁家的硬件？9gq品论天涯网

虽然论文里没有明确点名任何硬件平台，但已经有嗅觉敏锐的人开始猜测了。9gq品论天涯网

有观点直接指出：所谓“训练稳定性挑战”，很可能就是算力平台的问题。而且不只是DeepSeek一家踩坑，各大厂商都遇到过。9gq品论天涯网

xAI在一次发布会上，Macrohard项目的负责人曾隐晦提到，英伟达最新的芯片给他们造成了“不小的麻烦”，不得不重新开发硬件适配程序。这或许也解释了xAI进度突然放缓的原因之一。9gq品论天涯网

9gq品论天涯网

不过，这件事当然没那么简单。9gq品论天涯网

大型算力集群涉及的变量太多：芯片本身、互连架构、散热系统、电力供应、驱动版本、编译栈适配。训练不稳定未必等于芯片级缺陷，也可能是系统集成层的问题。9gq品论天涯网

不过，目前还没有任何官方文件给出答案。9gq品论天涯网

一切都还在猜测之中。9gq品论天涯网

9gq品论天涯网

Agent训练体系9gq品论天涯网

工程能力让人肃然起敬9gq品论天涯网

如果说V4的预训练是在和硬件博弈，那么它的Post-training则展现了教科书级别的工程审美。9gq品论天涯网

可以说，Agent能力的工程化路径，是V4论文里最值得细读的部分。9gq品论天涯网

以往我们认为Agent能力是“教”出来的，但DeepSeek认为，Agent能力应该是“长”出来的。9gq品论天涯网

9gq品论天涯网

拒绝“硬迁移”，预训练阶段的“血脉注入”9gq品论天涯网

行业内大部分的做法是，先训一个对话模型，再硬迁移成Agent。DeepSeek看来，这太低效了。9gq品论天涯网

在V4的mid-training阶段，他们就注入了海量的AgenticData。9gq品论天涯网

这意味着，模型在基础学习阶段，就已经见过长任务链、环境反馈和文件修改模式。它还没学会写诗，就已经见过了Linux命令行的报错。9gq品论天涯网

这就是一种地基层面的设计。9gq品论天涯网

独创的SpecialistTraining（专家特训法）9gq品论天涯网

另一大亮点，就是DeepSeek独创的专家特训法。9gq品论天涯网

V4没有直接练一个全能战士，而是先练出了数学专家、代码专家、Agent专家、指令跟随专家。9gq品论天涯网

这种分阶段的SpecialistTraining保证了每个领域的上限被拉到最高。9gq品论天涯网

最后，再通过OPD（Multi-teacherOn-PolicyDistillation，多教师在线策略蒸馏），将这些专家的灵魂聚合成一个统一的模型。9gq品论天涯网

这里工程上的难度在于，同时加载十多个万亿参数级的教师模型做在线推理不现实。9gq品论天涯网

V4的方案是不缓存教师的logits（显存装不下），只缓存教师最后一层的隐藏状态，训练时按需通过predictionhead重建logits。9gq品论天涯网

然后，按教师索引排序训练样本，确保每个教师的predictionhead只加载一次。KL散度计算则用TileLang编写的专用kernel加速。9gq品论天涯网

告别传统RewardModel9gq品论天涯网

另外，对于“难以验证（hard-to-verify）”的任务，传统的标量奖励模型（ScalarRewardModel）已经力不从心。9gq品论天涯网

对此，DeepSeek选择引入了GenerativeRewardModel(GRM)。9gq品论天涯网

它不再简单地给一个0到1的分数，而是根据预设的Rubric（评估准则）生成详细的评估报告。9gq品论天涯网

更关键的是，DeepSeek对GRM本身也做了RL优化，让actor网络同时充当生成式奖励模型，评判能力和生成能力在同一个模型中联合优化。9gq品论天涯网

9gq品论天涯网

把Agent做成一套分布式系统9gq品论天涯网

不仅如此，DeepSeek还为V4专门自研了一套底座。9gq品论天涯网

DSec：生产级沙箱集群9gq品论天涯网

为了训练Agent的实操能力，DeepSeek搭建了一个名为DSec的平台。9gq品论天涯网

3FS分布式文件系统，确保了数据的极速存取；数十万并发Sandbox实例，则意味着V4在训练时，同时有几十万台“虚拟电脑”在跑代码、测Bug。9gq品论天涯网

MegaMoE：通信计算一体化9gq品论天涯网

在MoE层，DeepSeek把通信和计算融合进单个pipelinekernel，专家按wave调度，通信延迟完全隐藏在计算之下。9gq品论天涯网

结果就是，通用场景加速1.5到1.73倍，RLrollout等延迟敏感场景最高1.96倍。9gq品论天涯网

自研DSML：拒绝转义失败9gq品论天涯网

工具调用方面，DeepSeek干脆自己设计了一套类似XML的DSL（领域特定语言）。9gq品论天涯网

这套协议简单高效，直接把工具调用的成功率从“看运气”提升到了“工业级稳健”。9gq品论天涯网

9gq品论天涯网

ReasoningEffort分模式训练9gq品论天涯网

还有一个精细的设计，就是V4支持不同的思考模式。9gq品论天涯网

Non-think模式是简单的工具选择，秒回。High/Max则针对长文档、重构、复杂Bug，拉满推理算力。9gq品论天涯网

这种“能省则省，该狠则狠”的策略，也是V4成本能做到Claude1/4的关键。9gq品论天涯网

社区的很多研究者读完这部分后，膜拜得五体投地：“DeepSeek的工程能力，依旧扎实得让人没话说”。9gq品论天涯网

9gq品论天涯网

InterleavedThinking升级9gq品论天涯网

V3.2在每个新用户消息到来时会丢弃之前的思考痕迹，V4在Tool-Calling场景下保留了完整的跨轮次推理历史，让Agent在长时程任务中维持连贯的推理链。9gq品论天涯网

普通对话场景仍每轮清空，保持上下文精简。9gq品论天涯网

硬币的另一面，是94%的幻觉率9gq品论天涯网

ArtificialAnalysis的实测给出了一个更立体的画面。9gq品论天涯网

跑完IntelligenceIndex的全量基准测试，V4Pro只花了1071美金，比ClaudeOpus4.7的4811美金便宜了四倍多。9gq品论天涯网

Agent能力方面，V4ProMax在GDPval-AA实测（面向真实工作任务的Agent基准）中拿到了1554分，全面领先一众开源模型。9gq品论天涯网

9gq品论天涯网

然而，天下没有免费的午餐。9gq品论天涯网

AritificialAnalysis的报告里也非常坦诚地指出了这种做法的代价：V4pro在AA-Ominiscience上的幻觉率高达94%。9gq品论天涯网

9gq品论天涯网

这揭示了一个结构性困境：要在有限算力预算下逼近顶级性能，就不得不在某些维度上做取舍。9gq品论天涯网

DeepSeek选择把筹码全压在推理和Agent能力上，代价，就是知识都准确性。9gq品论天涯网

9gq品论天涯网

为什么我们依然对DeepSeek充满敬意？9gq品论天涯网

在这次V4的报告中，有人看到了“训练不稳”的尴尬，有人看到了“幻觉严重”的短板。9gq品论天涯网

但在我们看来，这份报告最动人的地方在于透明。9gq品论天涯网

他们敢于承认硬件适配阵痛，敢于披露那些看似“补丁”的解决方案，更敢于展示自己如何用最硬核的工程能力，在几十万个沙箱里一点点磨出Agent的灵魂。9gq品论天涯网

从V3的Multi-headLatentAttention到V4的OPD蒸馏和DSec沙箱，DeepSeek正在用一种近乎偏执的“工程主义”，探索着大模型通往AGI的另一条路径——9gq品论天涯网

如果架构还没完美，那就用工程把墙砌厚；如果算力不够便宜，那就用算法把效率榨干。9gq品论天涯网

DeepSeek-V4也许不是最完美的终局，但它绝对是目前最真实的、最充满活力的“中国AI现场”。9gq品论天涯网