申请报道在线投稿

人工智能

国产开源MoE指标炸裂：GPT-4级别能力，API价格仅百分之一

字号+作者：来源：量子位公众号 2024-05-07 14:20 评论(创建话题) 收藏成功收藏本文

声明:本文来自于微信公众号量子位（ID:QbitAI），作者:明敏，授权站长之家转载发布。最新国产开源MoE大模型，刚刚亮相就火了。DeepSeek-V2性能达GPT-4级别，但'...

声明:本文来自于微信公众号量子位（ID:QbitAI），作者:明敏，授权站长之家转载发布。UHH品论天涯网

最新国产开源MoE大模型，刚刚亮相就火了。UHH品论天涯网

DeepSeek-V2性能达GPT-4级别，但开源、可免费商用、API价格仅为GPT-4-Turbo的百分之一。UHH品论天涯网

因此一经发布，立马引发不小讨论。UHH品论天涯网

UHH品论天涯网

从公布的性能指标来看，DeepSeek-V2的中文综合能力超越一众开源模型，并和GPT-4-Turbo、文心4.0等闭源模型同处第一梯队。UHH品论天涯网

英文综合能力也和LLaMA3-70B同处第一梯队，并且超过了同是MoE的Mixtral8x22B。UHH品论天涯网

在知识、数学、推理、编程等方面也表现出不错性能。并支持128K上下文。UHH品论天涯网

UHH品论天涯网

这些能力，普通用户都能直接免费使用。现在内测已开启，注册后立马就能体验。UHH品论天涯网

UHH品论天涯网

API更是是骨折价:每百万tokens输入1元、输出2元（32K上下文）。价格仅为GPT-4-Turbo的近百分之一。UHH品论天涯网

同时在模型架构也进行创新，采用了自研的MLA（Multi-head Latent Attention）和Sparse结构，可大幅减少模型计算量、推理显存。UHH品论天涯网

网友感叹:DeepSeek总是给人带来惊喜!UHH品论天涯网

UHH品论天涯网

具体效果如何，我们已抢先体验!UHH品论天涯网

实测一下

目前V2内测版可以体验通用对话和代码助手。UHH品论天涯网

UHH品论天涯网

在通用对话中可以测试大模型的逻辑、知识、生成、数学等能力。UHH品论天涯网

比如可以要求它模仿《甄嬛传》的文风写口红种草文案。UHH品论天涯网

UHH品论天涯网

还可以通俗解释什么是量子纠缠。UHH品论天涯网

UHH品论天涯网

数学方面，能回答高数微积分问题，比如:UHH品论天涯网

使用微积分证明自然对数的底e 的无穷级数表示。UHH品论天涯网

UHH品论天涯网

也能规避掉一些语言逻辑陷阱。UHH品论天涯网

UHH品论天涯网

测试显示，DeepSeek-V2的知识内容更新到2023年。UHH品论天涯网

UHH品论天涯网

代码方面，内测页面显示是使用DeepSeek-Coder-33B回答问题。UHH品论天涯网

在生成较简单代码上，实测几次都没有出错。UHH品论天涯网

UHH品论天涯网

也能针对给出的代码做出解释和分析。UHH品论天涯网

UHH品论天涯网

UHH品论天涯网

不过测试中也有回答错误的情况。UHH品论天涯网

如下逻辑题目，DeepSeek-V2在计算过程中，错误将一支蜡烛从两端同时点燃、燃烧完的时间，计算成了从一端点燃烧完的四分之一。UHH品论天涯网

UHH品论天涯网

带来哪些升级?

据官方介绍，DeepSeek-V2以236B总参数、21B激活，大致达到70B~110B Dense的模型能力。UHH品论天涯网

UHH品论天涯网

和此前的DeepSeek67B相比，它的性能更强，同时训练成本更低，可节省42.5%训练成本，减少93.3%的KV缓存，最大吞吐量提高到5.76倍。UHH品论天涯网

官方表示这意味着DeepSeek-V2消耗的显存（KV Cache）只有同级别Dense模型的1/5~1/100，每token成本大幅降低。UHH品论天涯网

专门针对H800规格做了大量通讯优化，实际部署在8卡H800机器上，输入吞吐量超过每秒10万tokens，输出超过每秒5万tokens。UHH品论天涯网

UHH品论天涯网

在一些基础Benchmark上，DeepSeek-V2基础模型表现如下:UHH品论天涯网

UHH品论天涯网

DeepSeek-V2采用了创新的架构。UHH品论天涯网

提出MLA（Multi-head Latent Attention）架构，大幅减少计算量和推理显存。UHH品论天涯网

同时自研了Sparse结构，使其计算量进一步降低。UHH品论天涯网

UHH品论天涯网

有人就表示，这些升级对于数据中心大型计算可能非常有帮助。UHH品论天涯网

UHH品论天涯网

而且在API定价上，DeepSeek-V2几乎低于市面上所有明星大模型。UHH品论天涯网

UHH品论天涯网

团队表示，DeepSeek-V2模型和论文也将完全开源。模型权重、技术报告都给出。UHH品论天涯网

现在登录DeepSeek API开放平台，注册即赠送1000万输入/500万输出Tokens。普通试玩则完全免费。UHH品论天涯网

感兴趣的童鞋，可以来薅羊毛了~UHH品论天涯网

体验地址:UHH品论天涯网

https://chat.deepseek.comUHH品论天涯网

API平台:UHH品论天涯网

platform.deepseek.comUHH品论天涯网

GitHub:UHH品论天涯网

https://github.com/deepseek-ai/DeepSeek-V2?tab=readme-ov-fileUHH品论天涯网

—完—UHH品论天涯网

本网除标明“PLTYW原创”的文章外，其它文章均为转载或者爬虫(PBot)抓取；本文只代表作者个人观点，不代表本站观点，仅供大家学习参考。本网站属非谋利性质，旨在传播马克思主义和共产主义历史文献和参考资料。凡刊登的著作文献侵犯了作者、译者或版权持有人权益的，可来信联系本站删除。本站邮箱[email protected]

相关文章

【查看完整讨论话题】 | 【用户登录】 | 【用户注册】

头条焦点

刘敬东：马克思考察货币转化为资本的历史意识与阶级意识

李乾坤：金融资本主义的兴起与西方马克思主义的终结

赵丁琪：全球南方的崛起与中国角色

王喆：毛泽东关于抗日战争战略相持阶段的重要论断

赵丁琪：技术封建主义：内涵、争议与应对

精彩导读

关注我们

关注微信公众号，了解最新精彩内容