新论文暗示DeepSeek V4已完成训练-品论天涯网

刚刚过去的2025年中，万众期待的DeepSeek全新大模型没有问世，但是DeepSeek并没有闲着，这一年中继续打磨了DeepSeekV3.X大模型，还发布了多项新技术。2026年元旦假期，DeepSeek又发了一个新论文，提出了名为“流形约束超连接”(mHC)的框架，又一次引发了热议。4J3品论天涯网

这篇论文非常专业，术语太多，普通人很难理解，感兴趣的网友可以从微博、知乎、公众号等渠道搜索专业人士的解读。4J3品论天涯网

4J3品论天涯网

残差连接是字节公司的何恺明于2016年提出的一种深度学习技术，十年来这个技术领域成为AI大模型研究的一个突破点，2024年业界提出了HC（Hyper-Connections）超连接的概念，但HC的问题在于累积多了就不稳定了。4J3品论天涯网

DeepSeek新论文中提到，他们以27B参数的模型训练为例，HC在大约1200步时就会损失激增，放大倍数峰值达到了3000，训练要崩溃了，没法持续下去。4J3品论天涯网

他们提出的mHC技术就是解决这个问题的，控制总量不变，理论上将放大倍数控制在了1，实际能做到了大约1.6，相比3000倍的放大倍数极大地降低了，能让训练全程稳定。4J3品论天涯网

DeepSeek也在论文中公布了mHC技术的效果，在27B参数模型的测试中，mHC训练时间仅增加6.7%，但复杂推理任务从43.8%提升到了51.0%，阅读理解任务从47.0%提升到53.9%。4J3品论天涯网

4J3品论天涯网

用普通人能理解的方法来解释，残差连接是开辟了一条AI大模型的新型高速公路，HC技术提高了车道数，但会车速越快越容易失控，DeepSeek的mHC相当于装了红绿灯，确保高速的同时也不失控。4J3品论天涯网

更值得关注的是，在这个论文中DeepSeek提到他们在mHC技术研究的结论已经得到了内部大规模实验的进一步证实。4J3品论天涯网

这一句话暗示DeepSeek已经完成了新一代基座大模型DeepSeekV4的训练，虽然这事本身已经不是什么新闻，现在大家最关心的是DeepSeekV4什么时候发布。4J3品论天涯网

参考去年DeepSeekR1的节点，DeepSeekV4应该会在春节期间发布，也就是2月初，这也是很多网友期待的时间点，年度大餐就指望它了。4J3品论天涯网

更关键的则是DeepSeekV4会带来多大的影响，去年的DeepSeekV3/R1一举让开源大模型登顶，意义是非凡的，今年的DeepSeekV4也需要有这样的创举才行。4J3品论天涯网

DeepSeekV4可以确定的是会支持FP8算子，会支持国产AI芯片训练，应该会是多模态的。4J3品论天涯网

最后，此前传闻以后不会有DeepSeekR2这种推理大模型了，但是考虑到当前的形势，一切都不好说，DeepSeek也可以针对现实将大模型分为两个方向，V4专攻通用市场，R2做Claude这样的专用大模型，在编程上给业界带来一点震撼。4J3品论天涯网