人工智能

DeepSeek的一次小更新,堪比发布新模型

字号+作者:差评 来源:差评 2025-03-26 06:48 评论(创建话题) 收藏成功收藏本文

一个好消息,时隔俩月,DeepSeek终于更新了。就在昨天晚上,DeepSeek一声不吭往HuggingFace上扔了个DeepSeek-V3-0324模型。模型参数6850亿,跟上一个版本的V3(6'...

一个好消息,时隔俩月,DeepSeek终于更新了。就在昨天晚上,DeepSeek一声不吭往HuggingFace上扔了个DeepSeek-V3-0324模型。模型参数6850亿,跟上一个版本的V3(6710亿)相差不大,采用MoE架构,还支持了更开放的MIT开源协议。gSm品论天涯网

根据官方更新的版本说明,DeepSeek-V3-0324主要是针对推理能力和前端开发能力进行了加强,写作风格实现了跟R1对齐,另外还有一些其他方面的小优化。gSm品论天涯网


gSm品论天涯网

现在打开DeepSeek官网,把深度思考模式关掉就能直接用上V3-0324。gSm品论天涯网

不过有一说一,虽然V3-0324仅仅只是V3的小版本升级,并不是大伙儿期待已久的V4或者R2,且官方账号也没有发布任何跟模型有关的信息。gSm品论天涯网

但也丝毫不妨碍,V3-0324一上线,就有人说他的代码能力,直追克劳德。gSm品论天涯网


gSm品论天涯网

新版本的模型刚一上传,就登上了HuggingFace的趋势榜单。gSm品论天涯网

在国外大模型竞技场KCORES的测评中,V3-0324的代码能力得分328.3,超过了普通版的Claude3.7Sonnet的322.3分,接近Claude3.7Sonnet思维链版本的334.8分,排名第三。gSm品论天涯网

图源@karminski牙医gSm品论天涯网


gSm品论天涯网

重点是,排名在前面的模型压根就没几个开源免费的,V3-0324可谓是一枝独秀。gSm品论天涯网

所以在V3-0324上线不到一天的时间里,就已经有很多老哥迫不及待上手测评了一波。gSm品论天涯网

这么说吧,V3-0324在这些人手里,已经成了拳打o3-mini,脚踢Claude3.7Sonnet的存在。gSm品论天涯网

经典的小球弹跳测试中,这位老哥把V3-0324、o3-mini和R1拉了个横评。gSm品论天涯网


gSm品论天涯网

o3-mini刚开始看着还不赖,但估计物理没学好,外面的六边形都转到垂直的位置了,球还不知道往下掉。gSm品论天涯网

R1的表现,也是有些让人摸不着头脑。。gSm品论天涯网

相对来说,V3-0324生成的结果是表现最好的,这位老哥丝毫不吝啬对它的夸奖,说它 “表现得像唯一排名第一的非推理模型”。gSm品论天涯网


gSm品论天涯网

让V3-0324生成一个网页,模型一口气写了800多行代码,运行的时候还没有出错,这什么实力不用多说了吧。gSm品论天涯网


gSm品论天涯网

在评论区底下,有人仅仅下达了编写登录页面的简单指令,并没有任何其他的附加提示,同样也生成了一个完整的登录页面。gSm品论天涯网


gSm品论天涯网

还说V3-0324在编码上,能跟Claude3.7Sonnet掰一掰手腕。gSm品论天涯网

更别提其他的模型,性价比各方面相比下来,现在OpenAI的o1-pro和GPT-4.5,都已经不香了。gSm品论天涯网


gSm品论天涯网

反正看了几个网友的测试案例之后,世超对V3-0324的前端代码生成能力,已经有了初步的判断。gSm品论天涯网

但不管咋说,没亲自上过手的东西,咱硬夸也有点心虚。所以这次世超也打算简单试一试,看看V3-0324到底有多能打。gSm品论天涯网

一上来,世超就让模型做了一个画板,提示词是“帮我用HTML代码构建一个画板,支持鼠标绘制、橡皮擦功能和颜色选择”,这次出战的模型是V3-0324和普通版Claude3.7Sonnet。gSm品论天涯网

只能说,这把Claude3.7Sonnet赢得很彻底。光是有取色器这一点,就甩了V3-0324不知道几个车尾灯。gSm品论天涯网


gSm品论天涯网

更别提UI设计了,V3-0324做出来的画板让世超不是很有创作的欲望……gSm品论天涯网


gSm品论天涯网

世超着实是没想到,这盆凉水来得这么快,都让我有点怀疑到底是我的提示词没写好,还是模型有问题了……gSm品论天涯网

不过,我后面又继续把小球弹跳的提示词,分别喂给了DeepSeek-V3-0324、普通版Claude3.7Sonnet还有DeepSeek-V3。gSm品论天涯网

这下味儿终于对了。V3-0324生成的结果确实牛叉,能很清楚地看到小球在下落触底的时候,产生了小幅度的弹跳。gSm品论天涯网


gSm品论天涯网

就是吧,老版本的V3压根没运行起来……只能说两个版本之间的差距高下立判了。gSm品论天涯网


gSm品论天涯网

再来看普通版Claude3.7Sonnet的结果,优点是底下的转速、重力和摩擦力都是可调节的,弹跳看起来也没什么大问题,但小球有点出画面了……gSm品论天涯网


gSm品论天涯网

最后,世超又分别让V3和V3-0324生成一个Saas登录页面,提示词就一句话,没有任何的附加信息。gSm品论天涯网

可以看到,V3的页面倒是做出来了,但没什么设计可言。gSm品论天涯网


gSm品论天涯网

反观V3-0324,果然就跟官方的版本更新说明一样,生成的网页更美观了。gSm品论天涯网


gSm品论天涯网

综合看下来,V3-0324的代码能力相比V3确实有了比较大的提升,而且在一部分测试案例中,也能够比肩普通版Claude3.7Sonnet。gSm品论天涯网

但如果要说完全超越Claude3.7Sonnet,那世超觉着暂时还不太行。gSm品论天涯网

不过大伙儿也别忘了, V3-0324在开源这个赛道里,V3-0324已经算得上能打的了。gSm品论天涯网

而且DeepSeek的API价格业主打的一个便宜。世超对比了Claude3.7Sonnet和V3-0324的API价格,V3-0324百万tokens输入的价格是2元,百万tokens输出的价格是8元,而同样的tokens数,Claude3.7Sonnet的输入和输出价格分别是36.6元和108.9元,价差最多有18倍。gSm品论天涯网


gSm品论天涯网

所以在某种程度上,V3-0324这个小更新,的确可以跟Claude3.7Sonnet媲美。gSm品论天涯网

特别是今天晚上,DeepSeek官方还发文,正式介绍了这波小更新,在数学、代码类的相关评测上,V3-0324比OpenAI目前最厉害的非推理模型GPT-4.5都要更胜一筹。gSm品论天涯网


gSm品论天涯网

去年12月底V3上线,紧接着R1就在过年的时候上桌吃饭了。如果按照DeepSeek之前发布模型的节奏,盲猜一波R2也快了。gSm品论天涯网

总之,小版本更新的V3-0324就已经如此强悍了,就是不知道,在DeepSeek猛烈的开源炮弹下,“OpenAI们”还遭不遭得住了。gSm品论天涯网

本网除标明“PLTYW原创”的文章外,其它文章均为转载或者爬虫(PBot)抓取; 本文只代表作者个人观点,不代表本站观点,仅供大家学习参考。本网站属非谋利性质,旨在传播马克思主义和共产主义历史文献和参考资料。凡刊登的著作文献侵犯了作者、译者或版权持有人权益的,可来信联系本站删除。 本站邮箱service@pltyw.com

9
扫二维码添加收藏返回顶部