人工智能

DeepSeek低调宣称小更新 结果用2折价格达到R1水平

字号+作者:知危 来源:知危 2025-03-25 22:23 评论(创建话题) 收藏成功收藏本文

昨晚,DeepSeek无预警发布DeepSeek-V3-0324模型,此次更新虽被官方低调地称为“小版本迭代”,但实测表现远超预期。该模型尤其在代码生成、前端开发等方面显'...

昨晚,DeepSeek无预警发布DeepSeek-V3-0324模型,此次更新虽被官方低调地称为“小版本迭代”,但实测表现远超预期。该模型尤其在代码生成、前端开发等方面显著提升,甚至部分能力比肩Claude3.7Sonnet,引发全球AI社区热议。l82品论天涯网

在大模型竞技场测试KCORES中,DeepSeek-V3-0324代码能力得分328.3分,超越普通版Claude3.7Sonnet(322.3分),接近Claude3.7Sonnet的思维链版本(334.8分)。l82品论天涯网


l82品论天涯网

在AiderLLMLeaderboard排行榜中,DeepSeek-V3-0324在多语言基准测试中得分为55%,比V3有显著提升,比R1略低一些。在非思考/推理模型中,它排名第二,仅次于ClaudeSonnet3.7。l82品论天涯网


l82品论天涯网

测试数据还表明,在表现良好的模型中,DeepSeek-V3-0324花费是最低的,比R1还低很多,只需大约1/5,拥有高到令人发指的性价比。l82品论天涯网

另外,ClaudeSonnet3.7Thinking的花费是DeepSeek-V3-0324的33倍,o1是DeepSeek-V3-0324的167倍。l82品论天涯网


l82品论天涯网


l82品论天涯网

目前在DeepSeek官网,只需要关闭“深度思考”选项即可使用新模型。l82品论天涯网

HuggingFace上也提供了开源下载,下载地址:l82品论天涯网

https://huggingface.co/deepseek-ai/DeepSeek-V3-0324/tree/mainl82品论天涯网


l82品论天涯网

DeepSeek-V3-0324包含685B参数,较前代V3小幅增加,采用MoE(专家混合)架构,激活参数370亿。网友实测DeepSeek-V3-0324支持4-bit量化,可在512GBM3UltraMac上以20+token/s速度运行,磁盘占用仅352GB。 新模型采用与DeepSeek-R1相同的MIT许可,允许自由修改、商用及模型蒸馏,比上一版V3更开放。l82品论天涯网

从测评结果来看,DeepSeek-V3-0324前端开发表现突出,媲美顶级商业模型。l82品论天涯网

X博主DeepanshuSharma仅用简单提示词(“用HTML/CSS/JS制作现代化登录页面”),就能让新版V3一键生成800+行代码,且无错误运行,效果媲美Claude3.7Sonnet。l82品论天涯网


l82品论天涯网


l82品论天涯网

在经典弹跳小球测试中,DeepSeekV3-0324不仅比R1表现更好,博主DeepanshuSharma还认为它生成了最流畅的动作。l82品论天涯网


l82品论天涯网


l82品论天涯网

在测试中o3-mini最初表现看起来不错,但并没有正确遵循物理原理,尤其是在视频中间,球对重力没有做出正确的反应。l82品论天涯网

DeepanshuSharma评价DeepSeekV3-0324“表现得像唯一排名第一的非推理模型”。l82品论天涯网

据X网友karminski-牙医介绍,在升级版的20小球物理模拟测试中,DeepSeekV3-0324相比V3也表现更优。l82品论天涯网


l82品论天涯网


l82品论天涯网

而新版V3与头部推理模型的比较情况如下:l82品论天涯网


l82品论天涯网

在火星任务测试中,DeepSeek-V3-0324提升巨大,星球、图例渲染正确,发射和返回的窗口计算也有很大进步。l82品论天涯网


l82品论天涯网

结合UI设计和物理模拟,X网友ParulPandey还用DeepSeek-V3-0324生成了一个可交互物理模拟界面,通过AnyChat使用DeepSeek-V3-0324模拟水分子。l82品论天涯网

实际运行中,可以通过温度滑块提升温度,让分子呈现越来越快的前进和碰撞反弹运动。l82品论天涯网

提示词:创建一个交互式模拟,显示水分子形成和断裂氢键的过程,同时显示温度滑块。l82品论天涯网


l82品论天涯网


l82品论天涯网

对于本次升级的技术难度,有Reddit网友pigeon57434给出了比较中立的解读:不用太惊叹本次V3升级的幅度,因为RL (强化学习,ReinforcementLearning)潜力极大。以QwQ-32B为例,尽管它实际上小了20倍,但它在某些方面的表现几乎与R1一样好,甚至比R1更好。它能那么强,只是因为扩展推理模型还有很大空间,甚至不需要新的基础模型。我敢打赌,使用更复杂的技术,可以轻松获得基于DeepSeek-V2.5的推理模型来击败R1,更不用说这个新版本的V3了。l82品论天涯网


l82品论天涯网

总的来说,这样的免费+高性能的组合将对OpenAI、Anthropic等闭源商业模型形成越来越大的压力。l82品论天涯网

DeepSeek此次更新再次证明开源模型的爆发力,不仅技术指标逼近顶级商业AI,更以低成本、高自由度推动行业变革。l82品论天涯网

可以合理推测,此次更新有可能是R2的前置版本,类似去年V3(24.12.16)→R1(25.01.20)的发布节奏,或许几周内我们可能迎来更强的推理模型R2。l82品论天涯网

随着R2的临近,全球AI竞争格局或将迎来新一轮洗牌。l82品论天涯网

本网除标明“PLTYW原创”的文章外,其它文章均为转载或者爬虫(PBot)抓取; 本文只代表作者个人观点,不代表本站观点,仅供大家学习参考。本网站属非谋利性质,旨在传播马克思主义和共产主义历史文献和参考资料。凡刊登的著作文献侵犯了作者、译者或版权持有人权益的,可来信联系本站删除。 本站邮箱service@pltyw.com

5
扫二维码添加收藏返回顶部