人工智能

DeepSeek的秘方是硅谷味儿的

字号+作者:硅星人 来源:硅星人 2025-01-08 14:23 评论(创建话题) 收藏成功收藏本文

中国杭州的人工智能创业公司DeepSeek是近一段时间硅谷的AI研究者和开发者的心魔。它在2024年12月发布的大语言模型DeepSeek-V3被认为实现了诸多的不可'...

中国杭州的人工智能创业公司DeepSeek是近一段时间硅谷的AI研究者和开发者的心魔。它在2024年12月发布的大语言模型DeepSeek-V3被认为实现了诸多的不可能:550万美元和2000块英伟达H800GPU(针对中国市场的低配版GPU)训练出的开源模型,多项评测成绩超越了Qwen2.5-72B和Llama-3.1-405B等顶级开源模型,亦与GPT-4o和Claude3.5-Sonnet这样世界顶级的闭源模型不相上下——而训练后者的成本保守估计也要数亿美元和几十万块最强劲的英伟达H100。kIF品论天涯网

可以想象它在人工智能界引发的震撼——尤其是在AI领域的研究人员、创业者、资金、算力和资源最扎堆的硅谷。不少硅谷AI领域的重要人士都不吝惜对DeepSeek的称赞,比如OpenAI联合创始人AndrejKaparthy和Scale.ai的创始人AlexandrWang。尽管OpenAICEOSamAltman发了一条疑似影射DeepSeek抄袭借鉴其它先进成果的推文(很快就被人回怼“是指把Google发明的Transformer架构拿过来用么?),但DeepSeek收获的赞誉确实是广泛而真诚的,尤其是在开源社区,开发者用脚投票。kIF品论天涯网


kIF品论天涯网


kIF品论天涯网

AndrejKaparthy赞扬Deepseek的技术报告值得一读kIF品论天涯网

很多中国人将DeepSeek-V3视作“国货之光”,也是中国式创新的一个范式。确实,中国聪明的研究人员和工程师非常擅长“多快好省”干大事,在资源紧缺有限的情况下(很多时候我们也不想),通过技术方法的创新和精进,实现超预期的成果。DeepSeek-V3对高性能算力的依赖如此之小,将训练和推理当作一个系统,给出了诸多新的技术思路,注重用工程思维高效解决算法和技术问题,集中力量办大事,这确实是中国公司、中国团队和中国研究人员更擅长的。AlexandrWang从DeepSeek总结的经验是:美国人在休息,中国人在奋斗,以更低的成本、更快的速度和更强大的战斗力追赶。kIF品论天涯网

很有意思,美国科技界对中国比较友善的人士——其中包括马斯克——经常总结中国在一些领域的成功经验是聪明、勤奋和有方法,这当然没什么问题。但它解释不了,至少在AI领域解释不了的一个问题是:中国的其它大模型公司和AI人才同样聪明、勤奋和擅长方法创新,他们的很多技术方法创新也卓有成就(DeepSeek的分布式推理,我第一次注意到类似的创新是月之暗面的Mooncake),但为什么没有引发如此轰动的世界级效应?当然今后他们可能也会,但至少,为什么这次是DeepSeek?kIF品论天涯网

将DeepSeek比喻成“AI界的拼多多”是偏颇的,认为DeepSeek的秘方就是多快好省也是不全面的。中国的大多数AI公司都缺卡,也都因为缺卡而拼命搞架构创新,这点没什么不同。要知道,DeepSeek在硅谷受到关注和追逐不是这两周刚发生的事。早在2024年5月DeepSeek-V2发布的时候,它就以多头潜在注意力机制(MLA)架构的创新,在硅谷引发了一场小范围的轰动。V2的论文就引发了AI研究界的广泛分享和讨论。当时,一个非常有意思的现象是:X和Reddit上AI从业者在讨论DeepSeek-V2,同时,DeepSeek在国内舆论场被描摹成了“大模型价格战的发起者”,有点平行时空的感觉。kIF品论天涯网

这也许能说明:DeepSeek跟硅谷更有对话和交流的密码,它的秘方应该是硅谷味儿的。kIF品论天涯网

DeepSeek与2022年之前的OpenAI和DeepMindkIF品论天涯网

如果非要给DeepSeek在全球的人工智能玩家里找一个对标的话,请允许我加上一个前置条件:DeepSeek有点像OpenAI和DeepMind——2022年之前的OpenAI和DeepMind。kIF品论天涯网

2022年之前的OpenAI和DeepMind是什么样子?非营利性学术研究机构。尽管已经被微软投资并转型为了营利性公司,但当时OpenAI的整体工作方式——至少是首席科学家IlyaSustkever和联合创始人AndrejKaparthy为代表的那群人——仍是非营利机构性质的,公司没有对外的正式产品,2020年公布的GPT-3是一个学术研究成果,而且还开源了。DeepMind尽管名义上是一家创业公司,但无论是它独立在伦敦存在的时期,还是被Google收购但尚未与GoogleBrain整合之前,都更像是一家研究机构的存在,无论AlphaGo还是AlphaFold,都是研究项目,而不是产品。kIF品论天涯网

DeepSeek有自己的“产品”么?不能说没有,毕竟普通用户也可以直接跟它的模型聊天,它还顺带手向开发者卖一卖低价的API。可是它连个移动APP都没有,看上去也没对产品做什么运营,不投放流量广告,也不搞社交媒体营销,也不给用户准备各种贴心的prompt模板。有个网站,普通人也可以用,就够了。光就这一点看DeepSeek就很不中国AI公司。在企业和开发者一侧,除了基于架构创新的成本下降让它狠狠砸了一锤子API的价格,也看不到它搞什么“加速计划”、“开发者大赛”、“产业生态基金”等等很多企业都搞的项目。这只能说明:现在它是真心不打算做生意。kIF品论天涯网

另一方面,DeepSeek的研究人员密度是显而易见的。量子位近期对DeepSeek-V3论文作者的梳理,为我们了解这家公司的研究人员构成和特点提供了非常有价值的探索:清华、北大、北航等中国顶级高校的应届博士毕业生、顶刊论文发表者、信息竞赛获奖者是DeepSeek研究团队的主力,甚至包括硕博在读生。团队构成极其年轻。DeepSeek创始人梁文锋接受36氪旗下“暗涌”采访时透露过招人标准:看能力,不看经验,核心技术岗位以应届和毕业一两年为主。这是典型的为研究人员,而非为产品、市场和工程等岗位招人定制的标准。也像极了OpenAI和DeepMind早期的人才结构:用最年轻、最聪明、最不受拘束的头脑,创造一些前人没创造过的东西。kIF品论天涯网

它营造了一种氛围:这些最聪明的年轻人进入到了一家外表看起来是公司的机构,然后在这里继续延续他们的学术生涯,可以调动比在纯粹的学术机构(比如高校实验室)多得多的计算资源和研究数据。科技公司的研究机构是科学家的“国中之国”,取代高等院校成为学术成果主要贡献者的趋势益发明显。它越不受到公司商业目标的干扰,产生颠覆性学术成果的机会越大。Google的研究人员提出生成式人工智能的基础——Transformer架构是在Google的AI商业化目标尚不清晰的2017年,这两年反而鲜有成果。OpenAI的GPT-3和GPT-3.5两个关键时刻的诞生都是在聚光灯之外,而当它越来越像一家公司的时候,一切都乱了。kIF品论天涯网

这也是DeepSeek区别于大多数中国的AI创业公司,反而更像是一家研究机构的地方。这轮AI创业的创始人基本都是科学家和研究人员,但他们拿了VC和PE一轮又一轮的钱,就不能随心所欲地搞研究和发paper,而必须聚焦产品化和商业化(这很可能不是他们最擅长的事)。科技巨头养得起研究机构和科学家,但一旦要求研究成果迅速应用于产品和商业,团队也会变得更复杂,而不再有纯研究人员的简单和清澈。美国的一些科技巨头有不受商业目标干扰的研究机构,但时间过久,又难免沾染了学术界论资排辈的门阀气息。都是由最聪明的年轻人组成的商业公司的研究机构,只在关键的几个时间点出现过——几年前的OpenAI和DeepMind,以及现在的DeepSeek。kIF品论天涯网

一个证据就是:DeepSeek最好的“产品”除了模型,还有它的论文。无论是V-2还是V-3的发布,DeepSeek的两篇对应论文都得到了来自全球研究者的仔细阅读、分享、引用和大力推荐。相比之下,GPT-4发布之后OpenAI公布的论文几乎不能叫做论文。这年头做模型的都在抢在各种benchmark上拿名次,注重论文质量的已经不多了。而一篇详尽、规范和实验细节丰富的论文,仍然能获得业界额外的尊重。kIF品论天涯网

当然这件事的一个重要前提是:DeepSeek有钱,有不输于巨头、远多于创业公司的弹药。但并不是所有巨头都愿意有一个自己的DeepMind。kIF品论天涯网

开源永远是正确的kIF品论天涯网

2023年初,科技媒体TheInformation进行过一轮中国可能出现哪些人工智能明星创业公司的盘点。已经做出了一些成绩的智谱和Minimax在列,刚刚创建的百川智能、零一万物和光年之外也被提及,该文章还特别提及了当时正准备再度创业尚名不见经传的杨植麟。这里面没有Deepseek。kIF品论天涯网

至少一年半之前,没人真的把DeepSeek当成AI的圈内人。尽管当时业界开始流传DeepSeek的母公司——从事私募量化技术的幻方握有数量丰沛的英伟达高性能显卡,仍没太多人相信它自己下场做大模型会有水花。现在,人人都在谈论DeepSeek,而且走的又是“墙外开花墙内香”的老路。kIF品论天涯网

可以认为,从第一天开始,DeepSeek与国内的诸多大模型新秀,选择的就不是同一个战场。它不拿融资(至少一开始不用拿),不用争抢大模型四小龙六小虎的座次,不比国内的舆论声势(唯一接受暗涌的采访,目的大概是招聘那些最热血的聪明的科学家),不搞产品投放投流。它选择的是与研究机构的本质最匹配的路径——走全球开源社区,分享最直接的模型、研究方法和成果,吸引反馈,再迭代优化,自我进益。kIF品论天涯网

开源社区迄今仍是AI学术研究、分享和讨论最热烈、充分、自由和无国界的地方,也是AI领域最不“内卷”的地方。DeepSeek从第一天就开源,应该是深思熟虑的。开源就要真开源,开得彻底,从模型权重、到数据集,再到预训练方法,悉数公开,而高质量的论文也是开源的一部分。年轻聪明的研究人员在开源社区的亮相、分享和活跃具有高能见度。看见他们的人,并不乏一些全球AI领域最重要的推动者。kIF品论天涯网

聪明的年轻AI研究人员+研究机构的氛围(配上大厂的package)+开源社区的分享和交流,提高了DeepSeek在全球AI领域影响力和声望。对一家以产生AI研究成果而非发布商业化产品为主要目标的机构而言,HuggingFace和Reddit就是最好的发布会会场,数据集和代码库就是最好的demo,论文就是最好的新闻稿。DeepSeek基本就是这么做的,而且做得很讲究。所以即便DeepSeek的研究人员和CEO鲜少接受媒体采访,也几乎从不在论坛和活动上分享技术经验和洞察,但你不能说它没做营销。反之,以证明中国AI原创研究可以引领全球趋势、招聘最聪明的研究人员的目的来说,DeepSeek的“营销”是极其精准和有效的。kIF品论天涯网

这里值得提一句,过去的一年中国的开源大模型主要玩家确实在全球AI研究和产品方面赢得了不少尊敬。一个越来越普遍的看法是:比起美国和欧洲的一些开源模型,中国的开源大模型在开源程度上更为彻底,更容易被研究人员和开发者直接拿过来上手研究或优化自己的模型。DeepSeek就是一个典型代表,除了DeepSeek,阿里巴巴的通义(Qwen)也被AI研究领域普遍认为开源态度较为真诚,面壁智能的小模型Mini-CPM-Llama3-V2.5因为被斯坦福本科生团队直接套壳也意外走红了一把。kIF品论天涯网

所以很有意思:国际AI界特别是硅谷认为中国大模型的代表玩家是DeepSeek和阿里巴巴,而我们自己觉得是豆包、可灵和所谓的AI六小龙。客观地说,就国际AI界特别是硅谷能公正、积极地看待中国AI创新能力和对全球社区的贡献方面,DeepSeek和阿里巴巴们做得更多。开源在任何时候都是一件正确的事。kIF品论天涯网

V-3是DeepSeek的GPT-3时刻kIF品论天涯网

V-3模型引发了破圈的国际反应,CNBC的报道已经把V-3及其背后的DeepSeek视作中国AI迎头赶上美国的标志。如果仔细观察的话,并不难发现:DeepSeek从隐秘低调到备受关注,以及它从Coder到V-3模型的三次迭代,与OpenAI从GPT-1到GPT-3的升级节奏和它引发的反响,是非常接近的。kIF品论天涯网

我们先看看OpenAI——kIF品论天涯网

2018年OpenAI放出了GPT-1模型,是它第一个基于Transformer架构的预训练模型,证明了语言模型是一个有效的预训练目标,但质量和多样性有限,引发了一定的学界关注,但整体反应平常。kIF品论天涯网

2019年早些时候,OpenAI推出GPT-2,生成文本的质量和多样性大幅跃迁,基本验证了语言模型这条路的有效性,也引发了AI领域广泛的讨论和关注。kIF品论天涯网

2020年6月,OpenAI发布GPT-3,以1750亿参数成为当时世界上最大的语言模型,除了生成文本内容,还能进行翻译、问答和持续对话和思考,成为了生成式人工智能发展的里程碑。即便如此,GPT-3仍然是一个实验室项目。kIF品论天涯网

让我们再看DeepSeek——kIF品论天涯网

2023年11月,DeepSeek先后发布了两款开源模型DeepSeekCoder和DeepSeekLLM,只有少数人关注到了,而它们也在计算的效率和可扩展性上遇到了挑战。kIF品论天涯网

2024年5月,DeepSeek发布了V-2,以混合专家模型(MoE)和多头潜在注意力机制(MLA)技术的结合,大幅降低了模型训练特别是推理的成本,且性能可以在很多维度与世界顶尖模型相比较,它开始引发AI学术界和开发者的广泛讨论和推荐,这是DeepSeek走进更多人视野的开始。kIF品论天涯网

2024年12月,DeepSeek发布了V-3,以OpenAI、Anthropic和Google百分之一的成本,实现了模型性能超越同类开源模型Llama3.1和Qwen2.5,媲美闭源模型GPT-4o和Claude3.5Sonnet的成绩,引发轰动,成为世界大语言模型发展的里程碑。kIF品论天涯网

可以说,V-3就是DeepSeek的“GPT-3”时刻,一个里程碑。kIF品论天涯网

当然,DeepSeek与OpenAI在实现里程碑式跃迁的进程中区别在于——kIF品论天涯网

OpenAI在这一进程中一直致力于实现计算资源规模与成本的无限扩张,而DeepSeek则一直致力用尽可能低成本的计算资源实现更高的效率。kIF品论天涯网

OpenAI花了两年时间达到GPT-3时刻,而DeepSeek用了一年摘得了V-3的圣杯。kIF品论天涯网

OpenAI在GPT路线上一直聚焦在预训练的进步,而DeepSeek则是训练与推理并重——这也是全球模型技术发展趋势的要求。kIF品论天涯网

如果V-3真的是DeepSeek的GPT-3时刻,那接下来将发生什么?是DeepSeek的GPT-3.5——也就是ChatGPT时刻,或是其它?没人知道,但有意思的事儿应该还在后头。DeepSeek应该不会永远是一个“计算机系Pro”的存在,它也理应为全人类的人工智能事业做出更大的贡献。kIF品论天涯网

无论如何,DeepSeek已经是中国最全球化的AI公司之一,它赢得来自全球同行甚至对手的尊重的秘方,也是硅谷味儿的。kIF品论天涯网

本网除标明“PLTYW原创”的文章外,其它文章均为转载或者爬虫(PBot)抓取; 本文只代表作者个人观点,不代表本站观点,仅供大家学习参考。本网站属非谋利性质,旨在传播马克思主义和共产主义历史文献和参考资料。凡刊登的著作文献侵犯了作者、译者或版权持有人权益的,可来信联系本站删除。 本站邮箱[email protected]