人工智能

新论文暗示DeepSeek V4已完成训练

字号+作者:快科技 来源:快科技 2026-01-02 21:54 评论(创建话题) 收藏成功收藏本文

刚刚过去的2025年中,万众期待的DeepSeek全新大模型没有问世,但是DeepSeek并没有闲着,这一年中继续打磨了DeepSeekV3.X大模型,还发布了多项新技术。2026年元'...

刚刚过去的2025年中,万众期待的DeepSeek全新大模型没有问世,但是DeepSeek并没有闲着,这一年中继续打磨了DeepSeekV3.X大模型,还发布了多项新技术。2026年元旦假期,DeepSeek又发了一个新论文,提出了名为“流形约束超连接”(mHC)的框架,又一次引发了热议。Ow1品论天涯网

这篇论文非常专业,术语太多,普通人很难理解,感兴趣的网友可以从微博、知乎、公众号等渠道搜索专业人士的解读。Ow1品论天涯网

Ow1品论天涯网

残差连接是字节公司的何恺明于2016年提出的一种深度学习技术,十年来这个技术领域成为AI大模型研究的一个突破点,2024年业界提出了HC(Hyper-Connections)超连接的概念,但HC的问题在于累积多了就不稳定了。Ow1品论天涯网

DeepSeek新论文中提到,他们以27B参数的模型训练为例,HC在大约1200步时就会损失激增,放大倍数峰值达到了3000,训练要崩溃了,没法持续下去。Ow1品论天涯网

他们提出的mHC技术就是解决这个问题的,控制总量不变,理论上将放大倍数控制在了1,实际能做到了大约1.6,相比3000倍的放大倍数极大地降低了,能让训练全程稳定。Ow1品论天涯网

DeepSeek也在论文中公布了mHC技术的效果,在27B参数模型的测试中,mHC训练时间仅增加6.7%,但复杂推理任务从43.8%提升到了51.0%,阅读理解任务从47.0%提升到53.9%。Ow1品论天涯网

Ow1品论天涯网

用普通人能理解的方法来解释,残差连接是开辟了一条AI大模型的新型高速公路,HC技术提高了车道数,但会车速越快越容易失控,DeepSeek的mHC相当于装了红绿灯,确保高速的同时也不失控。Ow1品论天涯网

更值得关注的是,在这个论文中DeepSeek提到他们在mHC技术研究的结论已经得到了内部大规模实验的进一步证实。Ow1品论天涯网

这一句话暗示DeepSeek已经完成了新一代基座大模型DeepSeekV4的训练,虽然这事本身已经不是什么新闻,现在大家最关心的是DeepSeekV4什么时候发布。Ow1品论天涯网

参考去年DeepSeekR1的节点,DeepSeekV4应该会在春节期间发布,也就是2月初,这也是很多网友期待的时间点,年度大餐就指望它了。Ow1品论天涯网

更关键的则是DeepSeekV4会带来多大的影响,去年的DeepSeekV3/R1一举让开源大模型登顶,意义是非凡的,今年的DeepSeekV4也需要有这样的创举才行。Ow1品论天涯网

DeepSeekV4可以确定的是会支持FP8算子,会支持国产AI芯片训练,应该会是多模态的。Ow1品论天涯网

最后,此前传闻以后不会有DeepSeekR2这种推理大模型了,但是考虑到当前的形势,一切都不好说,DeepSeek也可以针对现实将大模型分为两个方向,V4专攻通用市场,R2做Claude这样的专用大模型,在编程上给业界带来一点震撼。Ow1品论天涯网

本网除标明“PLTYW原创”的文章外,其它文章均为转载或者爬虫(PBot)抓取; 本文只代表作者个人观点,不代表本站观点,仅供大家学习参考。本网站属非谋利性质,旨在传播马克思主义和共产主义历史文献和参考资料。凡刊登的著作文献侵犯了作者、译者或版权持有人权益的,可来信联系本站删除。 本站邮箱[email protected]