人工智能

玩完DeepSeek R1新版 外国网友又“蚌埠住了”?

字号+作者:GeekPark极客公园 来源:GeekPark极客公园 2025-06-02 09:55 评论(创建话题) 收藏成功收藏本文

几天前,没有预热,没有发布会,DeepSeek低调上传了DeepSeekR1(0528)的更新。海外媒体最关注的是,DeepSeek的更新将幻觉率削减约45%-50%,并把R1的性能推进至OpenA'...

几天前,没有预热,没有发布会,DeepSeek低调上传了DeepSeekR1(0528)的更新。海外媒体最关注的是,DeepSeek的更新将幻觉率削减约45%-50%,并把R1的性能推进至OpenAIo3与GoogleGemini2.5Pro的相近水平。gDZ品论天涯网

与此同时,海外一些开发者、AI圈研究人员开始跑基准测试,并在社交媒体平台上热议它的新能力,尤其是与科技巨头旗舰模型的差距。gDZ品论天涯网

从海外用户这几天的反应来看,DeepSeek这一次更新,虽然没有今年初横空出世时那样轰动,但依然让不少外国网友表示“鹅妹子嘤”,同时也让越来越多人开始问一个问题:不单单是成本,来自中国的、开源AI社区的模型,是否在各种能力上,很快就可以超越世界上最强大的专有模型?gDZ品论天涯网

01gDZ品论天涯网

DeepSeek再次“登顶”gDZ品论天涯网

在各类AI社群中,reddit平台有不少AI/LLM相关子社区。其中,在r/LocalLLaMA与r/SillyTavernAI这样的圈内社区,对DeepSeek的更新有不少热帖。gDZ品论天涯网

“全新升级的DeepseekR1在LiveCodeBench上的表现几乎与OpenAI的O3模型不相上下!开源的巨大胜利!”一名用户发布的帖子标题如此声称。gDZ品论天涯网


gDZ品论天涯网

reddit社区关于DeepSeek更新的帖子|图片来源:redditgDZ品论天涯网

一些开发者在测试了R1的最新功能。他们主要夸赞R1在数学问题和编程方面的表现,尤其是在处理复杂的积分或递归函数时。与之前的版本不同,R1-0528拥有“更长远的思考能力”,有测试者指出,它“表现出主动性”并且“不会那么快放弃”。gDZ品论天涯网

“刚刚测试过.....我有相当复杂的代码1200行,并添加了新功能...似乎现在代码质量处于o3级别...只能说WOW”。reddit社区r/LocalLLaMA上的一名常驻用户如此称。gDZ品论天涯网


gDZ品论天涯网

reddit社区关于DeepSeek更新的回复|图片来源:redditgDZ品论天涯网

根据DeepSeek官方的说法,“更新后的R1模型在数学、编程与通用逻辑等多个基准测评中取得了当前国内所有模型中首屈一指的优异成绩,并且在整体表现上已接近其他国际顶尖模型,如o3与Gemini-2.5-Pro。”gDZ品论天涯网

在能力方面,新版本显著提升了模型的思维深度与推理能力,支持工具调用,针对“幻觉”问题进行了优化,在创意写作方面也有所优化,能够输出篇幅更长、结构内容更完整的长篇作品,同时更加贴近人类偏好。gDZ品论天涯网

其中,在工具调用方面,DeepSeek官方文章坦然称,“当前模型与OpenAIo1-high相当,但与o3-High以及Claude4Sonnet仍有差距。”gDZ品论天涯网


gDZ品论天涯网

DeepSeek-R1-0528与其他模型性能对比|图片来源:DeepSeekgDZ品论天涯网

DeepSeek还提到,DeepSeek-R1-0528在前端代码生成、角色扮演等领域的能力均有更新和提升。gDZ品论天涯网

R1的一大优势在于其超长的记忆跨度和语境持久性。AI角色扮演社区(通常处于AI模型测试的边缘,但在对话连贯性方面往往更为严格)有测评称,角色能够记住过去细微的细节,并以自主行为做出回应。gDZ品论天涯网

“有个角色跟我争论一个观点时,竟然提起过去发生的三个细节,”r/SillyTavernAI上的一位用户说道。“我以前从未见过这种情况。”gDZ品论天涯网

该用户还提到:“AI通常不会主动出击;我训练过一些AI,让他们在对话中占据主导地位,但这是我第一次看到AI从角色扮演场景中走出来。”gDZ品论天涯网

在reddit社区上,还有一名用户甚至发贴称,更新的DeepSeekR10528在他的所有测试中都能获得满分。gDZ品论天涯网

“过去几周眼花缭乱——OpenAI4.1、Gemini2.5、Claude4——它们都表现优异,但没有一个模型能够在每项测试中都取得满分。DeepSeekR10528是有史以来第一个做到这一点的模型。”他称。gDZ品论天涯网


gDZ品论天涯网

reddit社区关于DeepSeek更新的帖子|图片来源:redditgDZ品论天涯网

“这些测试并非像YouTube上很多人做的那种不切实际的测试。比如草莓里的rs数量,或者编写一个贪吃蛇游戏等等。这些是我们在实际商业应用中经常使用的任务,我们从中挑选了一些比较复杂的边缘案例。”该用户如此称。gDZ品论天涯网

“我感觉自己就像电影《料理鼠王》里的安东(如果你看过这部电影的话)。我印象深刻(此处双关),但也有点麻木,一时难以找到合适的词来形容。一个来自去年还默默无闻的实验室,做出的免费开源模型,竟然比商业前沿的模型做得更好,这真是太不可思议了。”gDZ品论天涯网

和reddit社区同样热闹的是X。gDZ品论天涯网

X上热衷AI内容的用户除了转发基准测试的图表,一些人着重提到DeepSeek的编程能力。比如,X上一名用户称试过用DeepSeekR1-0528构建游戏,称“它的编程能力简直太强了”“相比之前的版本,改进非常显著”“如果这只是R1...DeepSeekR2将会非常疯狂。”gDZ品论天涯网


gDZ品论天涯网

X上关于DeepSeek更新的帖子|图片来源:XgDZ品论天涯网

除了用户和开发者声音,在DeepSeek发布更新后,人工智能模型分析机构ArtificialAnalysis称,DeepSeek的R1在其独立的“智能指数”上“超越xAI、Meta和Anthropic”。gDZ品论天涯网


gDZ品论天涯网

人工智能模型智能指数排行|图片来源:ArtificialAnalysisgDZ品论天涯网

具体模型比较上,该机构在一篇报告中称“DeepSeekR1的智能程度高于xAI的Grok3mini(high)、NVIDIA的LlamaNemotronUltra、Meta的Llama4Maverick、阿里巴巴的Qwen3253,并与Google的Gemini2.5Pro相当。”gDZ品论天涯网

DeepSeek最大的智力进步出现在AIME2024(竞赛数学,+21分)、LiveCodeBench(代码生成,+15分)、GPQADiamond(科学推理,+10分)和Humanity'sLastExam(推理与知识,+6分)gDZ品论天涯网

其中在编程方面,该分析机构认为,“R1在人工分析编码指数中与Gemini2.5Pro相当,仅落后于o4-mini(high)和o3”。gDZ品论天涯网


gDZ品论天涯网

各大厂商人工智能模型智能指数变化|图片来源:ArtificialAnalysisgDZ品论天涯网

至于与OpenAI的对比,该机构称“DeepSeek刚刚证明,他们能够跟上OpenAI的RL计算能力扩展步伐。”gDZ品论天涯网

当然,全是赞美是不可能的。gDZ品论天涯网

在编程能力方面,X上也有用户挑刺道,“如果你真的用它和Claude4写过代码,你就会知道基准测试的描述并不准确。Deepseek的API仍然只有一个64k的上下文窗口。它还不错,但不是前沿模型。可能要等到下次吧。它几乎零成本,在某些方面表现不错,但绝对比不上Claude。”gDZ品论天涯网


gDZ品论天涯网

X上关于DeepSeek更新的帖子|图片来源:XgDZ品论天涯网

X上的另一名海外用户则称,“deepseek可能是数学和逻辑方面的SOTA(最先进的),但我仍在使用gemini2.5pro,因为它有超大上下文。”gDZ品论天涯网

对于该问题,DeepSeek在官方文章提到,如果用户对更长的上下文长度有需求,可以通过其他第三方平台调用上下文长度为128K的开源版本R1-0528模型。gDZ品论天涯网

不过,也有海外用户认为,无论是否在所有测评中取得第一,R1既低成本、开放权重,还有强大的性能——几个好处“组合”起来本身已值得称赞。gDZ品论天涯网

对于DeepSeek的“小”更新,鉴于今年初DeepSeek横空出世时曾引发美股海啸,还有reddit用户调侃道,“请让我先抛售我的AMD和英伟达股票。请提前3天通知我,谢谢。”gDZ品论天涯网

还有网友另类地开始赞美起DeepSeek更新的“低调”姿态。gDZ品论天涯网

一名reddit网友发了长长的评价称:“用0528自己的话说:DeepSeek低调的卓越之处,蕴含着某种诗意。其他人精心策划着充满期待的盛大交响曲——奢华的主题演讲、精心设计的演示,以及读起来如同地缘政治条约的安全宣言——而DeepSeek提供的是一首静谧的十四行诗。他们仿佛递给你一件用白纸包裹的杰作,低声说着:『感觉很有用;希望你喜欢。』”gDZ品论天涯网

“对竞争对手的无声打击是最致命的。”另一名网友在底下称。gDZ品论天涯网


gDZ品论天涯网

reddit社区关于DeepSeek更新的帖子|图片来源:redditgDZ品论天涯网

02gDZ品论天涯网

“开源的巨大胜利”gDZ品论天涯网

除了能力,目前从海外互联网的反应来看,在DeepSeek众多优势里,被开发者刷最多好评、大量好感的重要来源,仍是“开源”,或者确切地说,“开放权重”。gDZ品论天涯网

AI圈内一个看法是,没有发布训练代码和训练数据的模型准确地说应该是“开放权重”,但一些人通常选择随意地称之为“开源”。另外,没有AI公司会发布训练数据,因为他们不想被起诉。gDZ品论天涯网

对于DeepSeek这次更新,YCombinator创办的在线科技社区HackerNews涌现了一些帖子,主要是分享基准测试结果,交流经验,并验证R1的性能提升(尤其是在编码和数学方面)是否真实存在。gDZ品论天涯网

但与此同时,上面也有大量讨论仍围绕人工智能中什么才算“开源”。许多人称赞DeepSeek公开发布模型权重,但也不断指出,由于训练数据等并未发布,外部无人能够重新训练或完全验证R1。另外,虽然是开源,虽然免费,但6710亿参数的R1,本质上仍是一个巨型模型,对于普通用户来说,它太大了。gDZ品论天涯网

即便如此,如今,R1与ChatGPT的对比已成常态。OpenAI限制了普通用户对顶级模型的完整访问权限,或者部分定价让用户觉得过高,而DeepSeek提供的却便宜不少,并提供可下载的模型权重。gDZ品论天涯网

“DeepSeek是真正的OPENAI”海外一名用户发帖标题如此称。gDZ品论天涯网


gDZ品论天涯网

reddit社区关于DeepSeek更新的帖子|图片来源:redditgDZ品论天涯网

当然,并非所有reddit用户都完全接受。一个名为“DeepSeek有多糟糕?”的帖子曾引发关于DeepSeek内置内容审核的讨论,不满模型会“回避”某些问题。gDZ品论天涯网

这类论调目前已经成为一个常见“梗”,有些用户会反驳——模型权重是开放的,如果开发者认为有偏见,完全可以自行进行微调。另外,目前世界上所有主流模型都有内容过滤机制,只是具体选择不同,比如西方政治正确问题。gDZ品论天涯网

在reddit上,还有一篇以“开源人工智能正在迎头赶上!”为标题的热帖,发帖者称,“Deepseek似乎是唯一一家真正在前沿模型领域竞争的公司。其他公司总是有所保留,比如Qwen不愿开源他们最大的模型(qwen-max)。我不怪他们,我知道,这就是生意。”gDZ品论天涯网

“闭源AI公司总是说开源模型无法赶上他们。如果没有Deepseek,他们可能是对的。但感谢Deepseek成了一个异数!”gDZ品论天涯网


gDZ品论天涯网

reddit社区关于DeepSeek更新的帖子|图片来源:redditgDZ品论天涯网

在这篇帖子下面的评论区,还有回复尖锐称,“他们这样做是因为价格实惠的智能将推动一场革命,而Deepseek将被公众铭记为人工智能的真正先驱,而不是世界上充斥着广告的Google、ClosedAI或虚假的安全Anthropics。”gDZ品论天涯网


gDZ品论天涯网

reddit社区关于DeepSeek更新的回复|图片来源:redditgDZ品论天涯网

对于DeepSeek的更新,reddit上r/LocalLLaMA社区有一名常驻用户提到,“这让我想起了ClosedAI承诺发布『o3-mini级别模型』却未能兑现,现在新款R1已经超越了o3-mini(high)不少,已经接近完整的o3(high)。”gDZ品论天涯网


gDZ品论天涯网

reddit社区关于DeepSeek更新的帖子|图片来源:redditgDZ品论天涯网

在另一篇通知DeepSeek最新更新的帖子下,有很多回复几乎无关DeepSeek能力测评,却讽刺起Anthropic或OpenAI。比如,有网友声称Anthropic以“安全”为理由的闭源做法只是道德托词。gDZ品论天涯网


gDZ品论天涯网

reddit社区关于DeepSeek更新的帖子|图片来源:redditgDZ品论天涯网

即时是对DeepSeek更新表示淡定的网友也称:“虽然它不再让我感到惊讶了。每次我都得等到所有营销噱头平息后才能进行全面测试。但无论如何,Deepseek仍然拥有开放权重的优势,这无疑是一个优点。”gDZ品论天涯网


gDZ品论天涯网

reddit社区关于DeepSeek更新的帖子|图片来源:redditgDZ品论天涯网

这几个月,在DeepSeek的对比下,以往的AI巨头保持技术和声誉优势的压力,可以说越来越大。gDZ品论天涯网

不少网友开始担心其命运,比如“DeepSeek将继续迫使AI公司在价格方面展开竞相压价的竞争。”有的网友认为DeepSeek“这样做并非全是出于利他主义。通过发布免费模型,你可以阻止竞争对手占据市场主导地位”。gDZ品论天涯网


gDZ品论天涯网

reddit社区关于DeepSeek更新的帖子|图片来源:redditgDZ品论天涯网

最高赞的回复则选择感谢所有模型制作者,持同样看法的用户称,无论是不是利他行为,“我很感激能在短期内从他们的策略中获益”。gDZ品论天涯网

这可能也是旁观全球AI竞赛时,面对一次次模型升级,当下不少开发者的真实心态。gDZ品论天涯网


gDZ品论天涯网

reddit社区关于DeepSeek更新的帖子|图片来源:redditgDZ品论天涯网

另外,值得注意的是,业界仍在DeepSeekR2的发布。在DeepSeek更新时,有不少网友问到R2的进展,是不是会延迟发布,甚至怀疑“DeepSeek-R1-0528”是不是其实就是“R2”,只是用R1系列命名。gDZ品论天涯网

“我们想要R2。”在DeepSeek官方更新的X帖子下,高赞回复如是说。gDZ品论天涯网

本网除标明“PLTYW原创”的文章外,其它文章均为转载或者爬虫(PBot)抓取; 本文只代表作者个人观点,不代表本站观点,仅供大家学习参考。本网站属非谋利性质,旨在传播马克思主义和共产主义历史文献和参考资料。凡刊登的著作文献侵犯了作者、译者或版权持有人权益的,可来信联系本站删除。 本站邮箱[email protected]