人工智能

Deepseek新模型意外曝光 编程跑分一举超越Claude 3.5 Sonnet

字号+作者:量子位 来源:量子位 2024-12-26 15:35 评论(创建话题) 收藏成功收藏本文

还没等到官宣,Deepseek-v3竟意外曝光了?!据Reddit网友爆料,v3已在API和网页上发布,一些榜单跑分也新鲜出炉。在Aider多语言编程测试排行榜中,Deepseek-v3一举'...

还没等到官宣,Deepseek-v3竟意外曝光了?!据Reddit网友爆料,v3已在API和网页上发布,一些榜单跑分也新鲜出炉。在Aider多语言编程测试排行榜中,Deepseek-v3一举超越Claude3.5Sonnet,排在第1位的o1之后。(相比Deepseek-v2.5,完成率从17.8%大幅上涨至48.4%。)m2N品论天涯网


m2N品论天涯网


m2N品论天涯网


m2N品论天涯网

且在LiveBench测评中,它是当前最强开源LLM,并在非推理模型中仅次于gemini-exp-1206,排在第二。m2N品论天涯网


m2N品论天涯网

目前HuggingFace上已经有了Deepseek-v3(Base)的开源权重,只不过还没上传模型介绍卡片。m2N品论天涯网


m2N品论天涯网

综合网上多方爆料来看,Deepseek-v3相比前代v2、v2.5有了极大提升——m2N品论天涯网

与v2、v2.5配置对比m2N品论天涯网

首先,Deepseek-v3基本配置如下:m2N品论天涯网

  • 采用685B参数的MoE架构;m2N品论天涯网

  • 包含256个专家,使用sigmoid函数作为路由方式,每次选取前8个专家(Top-k=8);m2N品论天涯网

  • 支持64K上下文,默认支持4K,最长支持8K上下文;m2N品论天涯网

  • 约60个tokens/s;m2N品论天涯网

  • BTW,在Aider测评中击败Claude3.5Sonnet的还是Instruct版本(该版本目前未发布)。m2N品论天涯网


    m2N品论天涯网

    为了进一步了解Deepseek-v3的升级程度,机器学习爱好者Vaibhav(VB)Srivastav(以下简称瓦哥)还深入研究了配置文件,并总结出v3与v2、v2.5的关键区别m2N品论天涯网

    v2(今年5月6日官宣开源)比较的结果,经AI整理成表格如下:m2N品论天涯网


    m2N品论天涯网

    可以看出,v3几乎是v2的放大版,在每一项参数上均有较大提升。m2N品论天涯网

    而且瓦哥重点指出了模型结构的三个关键变化m2N品论天涯网

    第一,在MOE结构中,v3使用了sigmoid作为门控函数,取代了v2中的softmax函数。这允许模型在更大的专家集合上进行选择,而不像softmax函数倾向于将输入分配给少数几个专家。m2N品论天涯网

    第二,v3引入了一个新的Top-k选择方法noaux_tc,它不需要辅助损失。m2N品论天涯网

    简单理解,MoE模型通常需要一个辅助损失来帮助训练,主要用于更好地学习如何选择Top-k个最相关的专家来处理每个输入样本。m2N品论天涯网

    而新方法能在不依赖辅助损失的情况下,直接通过主要任务的损失函数来有效地选择Top-k个专家。这有助于简化训练过程并提高训练效率。m2N品论天涯网

    对了,为便于理解,瓦哥用DeepSeek逐步解释了这一方法。m2N品论天涯网

    这是一种基于群体的专家选择算法,通过将专家划分为不同的小组,并在每个小组内部选择最优秀的k名专家。


    m2N品论天涯网

    第三,v3增加了一个新参数e_score_correction_bias,用于调整专家评分,从而在专家选择或模型训练过程中获得更好的性能。m2N品论天涯网


    m2N品论天涯网

    此外,v3与v2.5(本月10日官宣开源)的比较也出炉了,后者主要支持联网搜索功能,相比v2全面提升了各项能力。m2N品论天涯网


    m2N品论天涯网

    同样经AI整理成表格如下:m2N品论天涯网


    m2N品论天涯网

    具体而言,v3在配置上超越了v2.5,包括更多的专家数量、更大的中间层尺寸,以及每个token的专家数量。m2N品论天涯网

    看完上述结果,瓦哥连连表示,明年有机会一定要见见中国的开源团队。(doge)m2N品论天涯网


    m2N品论天涯网

    网友实测Deepseek-v3m2N品论天涯网

    关于v3的实际表现,另一独立开发者SimonWillison(Web开发框架Django的创始人之一)也在第一时间上手测试了。m2N品论天涯网

    比如先来个自报家门。m2N品论天涯网

    我是DeepSeek-V3,基于OpenAI的GPT-4架构……


    m2N品论天涯网


    m2N品论天涯网

    再考考图像生成能力,生成一张鹈鹕骑自行车的SVG图。m2N品论天涯网


    m2N品论天涯网

    最终图形belike:m2N品论天涯网


    m2N品论天涯网

    对了,在另一网友的测试中,Deepseek-v3也回答自己来自OpenAI??m2N品论天涯网


    m2N品论天涯网

    该网友推测,这可能是因为在训练时使用了OpenAI模型的回复。m2N品论天涯网


    m2N品论天涯网

    不过不管怎样,还未正式官宣的Deepseek-v3已在LiveBench坐上最强开源LLM宝座,在一些网友心中,这比只搞期货的OpenAI遥遥领先。(手动狗头)m2N品论天涯网

    本网除标明“PLTYW原创”的文章外,其它文章均为转载或者爬虫(PBot)抓取; 本文只代表作者个人观点,不代表本站观点,仅供大家学习参考。本网站属非谋利性质,旨在传播马克思主义和共产主义历史文献和参考资料。凡刊登的著作文献侵犯了作者、译者或版权持有人权益的,可来信联系本站删除。 本站邮箱[email protected]