我们都没预料到,AI领域的2025年是这样开始的。DeepSeekR1真是太厉害了!最近,“神秘的东方力量”DeepSeek正在“硬控”硅谷。我让R1详细解释勾股定理。这一切都是AI在不到30秒时间里一次性完成的,没出任何错。简单来说,itsover.
在国内外AI圈,普通网友发现了神奇的强大新AI(还开源),学界专家纷纷喊出“要奋起直追”,还有小道消息称海外的AI公司已经如临大敌。
就说这个本周刚发布的DeepSeekR1,它没有任何监督训练的纯强化学习路线令人震撼,从去年12月Deepseek-v3基座发展到如今堪比OpenAIo1的思维链能力,似乎是很快达成的事。
但在AI社区热火朝天的读技术报告、对比实测之余,人们还是对R1有所怀疑:它除了能跑赢一堆Benchmark以外,真的能领先吗?
能自建模拟“物理规律”
你不信?来让大模型玩玩弹球?
最近几天,AI社区的一些人开始沉迷一项测试——测试不同的AI大模型(尤其是所谓的推理模型)来处理一类问题:“编写一个Python脚本,让一个黄色球在某个形状内弹跳。让该形状缓慢旋转,并确保球停留在形状内。”
一些模型在这项“旋转球形”基准测试中的表现优于其他模型。据CoreViewCTOIvanFioravanti称,国内人工智能实验室DeepSeek的开源大模型R1完胜OpenAI的o1pro模式,后者作为OpenAIChatGPTPro计划的一部分,每月收费200美元。
左边是OpenAIo1,右边是DeepSeekR1。如上所述,这里的Prompt是:“writeapythonscriptforabouncingyellowballwithinasquare,makesuretohandlecollisiondetectionproperly.makethesquareslowlyrotate.implementitinpython.makesureballstayswithinthesquare.”
根据另一位网友在X上的说法,Anthropic的Claude3.5Sonnet和Google的Gemini1.5Pro模型对物理原理判断错误,导致球偏离了形状。也有用户报告称,Google最新的Gemini2.0FlashThinkingExperimental,以及相对更旧的OpenAIGPT-4o都一次性通过了评估。
但这里面也是能分出高下的:
在这个推文底下的网友表示:o1的能力原本很好,在OpenAI优化速度过后就变弱了,即使是每月200美元的会员版也一样。
模拟弹跳球是一个经典的编程挑战。精确的模拟结合了碰撞检测算法,其算法需要去识别两个物体(例如一个球和一个形状的侧面)何时发生碰撞。编写不当的算法会影响模拟的性能或导致明显的物理错误。
AI初创公司NousResearch的研究员N8Programs表示,他花了大约两个小时从头开始编写一个旋转七边形中的弹跳球。“必须跟踪多个坐标系,了解每个系统中的碰撞是如何进行的,并从头设计代码以使其具有鲁棒性。”
虽然弹跳球和旋转形状是对编程技能的合理测试,但对于大模型来说还是个新项目,即使是提示中的细微变化也可能产生出不同的结果。所以如果想让它最终成为AI大模型基准测试的一部分的话,还需要改进。
无论如何,经过这一波实测之后,我们对大模型之间的能力不同有了观感。
DeepSeek是新的“硅谷神话”
DeepSeek正让大洋彼岸陷入“恐慌”。
Meta员工发帖称“Meta工程师们正在疯狂地分析DeepSeek,试图从中复制任何可能的东西。”
而AI科技初创公司ScaleAI创始人AlexandrWang也公开表示,中国人工智能公司DeepSeek的AI大模型性能大致与美国最好的模型相当。
他还认为,过去十年来,美国可能一直在人工智能竞赛中领先于中国,但DeepSeek的AI大模型发布可能会“改变一切”。
X博主@8teAPi则认为,DeepSeek并不是一个“副业项目”,而是像洛克希德・马丁以前的“臭鼬工厂”。
所谓“臭鼬工厂”,就是当初洛克希德・马丁公司(LockheedMartin)为了研发诸多先进飞行器专门成立的一个高度机密、相对独立的小团队,从事尖端或非常规的技术研究与开发。从U-2侦察机、SR-71黑鸟,到F-22猛禽、F-35闪电II战斗机都是从这里走出来的。
后来,这个词逐渐演变成一个通用术语,用来形容在大公司或组织内部设立的“小而精”、相对独立且自由度更高的创新团队。
他给出的理由有两个:
一方面是DeepSeek拥有大量的GPU,据称有超过一万块,而ScaleAI的CEOAlexandrWang甚至表示可能达到5万块。
另一方面,DeepSeek只从中国排名前三的大学招聘人才,这意味着DeepSeek与阿里巴巴和腾讯具有同等的竞争力。
仅凭这两个事实,就可以看出,显然DeepSeek在商业上取得了成功,并且已经足够知名,能够获得这些资源。
至于DeepSeek的开发成本,该博主表示,中国科技公司可以获得各种各样的补贴,比如低用电成本和用地。
因此,DeepSeek非常有可能大部分成本都被“安置”在核心业务之外的某个账目上,或者以某种数据中心建设补贴的形式存在。甚至除了创始人之外,没人完全清楚所有财务安排。有些协议可能只是“口头协定”,只靠声誉就能敲定。
不管怎样,有几点是明确的:
这个模型非常出色,与OpenAI两个月前发布的版本相当,当然也有可能不如OpenAI和Anthropic尚未发布的新模型。
从目前来看,研究方向仍主要由美国公司主导,DeepSeek模型属于对o1版本的“快速跟进”,但DeepSeek的研发进度非常迅猛,比预期更快地迎头赶上,他们并没有抄袭或作弊,最多只是逆向工程。
DeepSeek主要是在培养自己的人才,而不是依赖美国培养的博士,这大大扩展了人才库。
与美国公司相比,DeepSeek在知识产权许可、隐私、安全、政治等方面受到的约束较少,围绕错误地使用那些不想被训练的数据的担忧也较少。诉讼更少,律师更少,也更少顾虑。
毫无疑问,越来越多的人认为2025年将会是决定性的一年。与此同时各家公司都在摩拳擦掌,比如Meta就正在建立一个2GW+的数据中心,预计在2025年投资600-650亿美元,年底拥有超过130万块GPU。
Meta甚至用一张图表展示了2千兆瓦数据中心与纽约曼哈顿的对比。
但现在DeepSeek用更低的成本,更少的GPU做到了更好,怎能不让人焦虑?
YannLeCun:要感谢开源
Hyperbolic的CTO、联合创始人YuchenJin发帖表示,在仅4天时间里,DeepSeek-R1向我们证明了4个事实:
开源AI仅落后于闭源AI不到6个月
中国正在主导开源AI竞赛
我们正进入大语言模型强化学习的黄金时代
蒸馏模型非常强大,我们将在手机上运行高智能AI
由DeepSeek引发的连锁反应仍在继续,比如OpenAIo3-mini免费可用、社区中希望能减少关于AGI/ASI的模糊讨论以及传闻Meta陷入恐慌等。
他认为,现在很难预测最终谁会获胜,但不要忘记后发优势的力量,毕竟我们都知道是Google发明了Transformer,而OpenAI解锁了其真正潜力。
此外,图灵奖得主、Meta首席人工智能科学家YannLeCun也表达了自己的看法。
“对于那些看到DeepSeek的性能就认为『中国正在超越美国的AI』的人,你理解错了。正确的理解是:开源模型正在超越专有模型。”
LeCun表示,DeepSeek之所以这次一鸣惊人,是因为他们从开放研究和开源(如Meta的PyTorch和Llama)中获益。DeepSeek提出了新想法,并在他人工作的基础上构建。因为他们的工作是公开发布和开源的,每个人都可以从中受益,这就是开放研究和开源的力量。
网友们的反思还在继续,在对于新技术发展兴奋的同时,也能感受到一点点忧虑的气氛,毕竟DeepSeek们的出现,可能会带来真金白银的影响。
参考内容:
https://x.com/ivanfioravanti/status/1881969391547683031
https://x.com/Aadhithya_D2003/status/1882105009548222953
https://x.com/8teAPi/status/1882836551866204656
https://x.com/Yuchenj_UW/status/1882840436974428362
https://x.com/ylecun/status/1882943244679709130
https://venturebeat.com/ai/tech-leaders-respond-to-the-rapid-rise-of-deepseek/
【查看完整讨论话题】 | 【用户登录】 | 【用户注册】