当GoogleGemini3将上线的消息传得沸沸扬扬时,马斯克更快一步默默放了个大招。今天凌晨,xAI的最新大模型Grok4.1直接上线了,响应速率明显提升、幻觉率大幅下降,回答既精准又“有人味儿”。
这次一共发布了两个“形态”:Grok4.1和Grok4.1Thinking。Thinking版是前者的增强推理变体,二者基于同一底层模型,仅推理配置不同。
值得一提的是,Grok4.1对所有人免费开放,除了能在Grok官网、X上使用,还推出了移动APP版,iOS和Android系统都照顾到了。
如果想要更有深度、更专业的回答,可以一键“让Think更努力思考”。
从LMArena的最新结果看,Grok4.1Thinking以1483Elo断层领跑,比Gemini2.5Pro高出31分。
即使在不启用思考链的情况下,Grok4.1仍保持在榜单第二,显示出底层能力的稳定性。
有不少网友发出了“真香”感叹,Belike:
当然,也有一些质疑声,比如有人指出在生成代码这块儿,Grok还不太有竞争力。
“双形态”的Grok4.1霸榜LMArena
首先,关于Grok4.1和Grok4.1Thinking是什么,我们不妨来看看Grok4.1自己的解释:
Grok4.1是xAI于2025年11月17日发布的最新前沿大语言模型(Grok4的升级版),在对话智能、情感理解、创意写作、事实准确性和响应速度上大幅提升。
Grok4.1Thinking(有时简称Grok4.1Thinking,代号quasarflux)是同一模型的思考/推理模式(reasoningmode),会额外使用“思考令牌”进行链式推理(chain-of-thought),适合复杂数学、编程或多步问题。
Grok4.1Thinking是Grok4.1的增强推理变体;二者基于同一底层模型,仅推理配置不同。
在全球最大、最具影响力的大模型盲测平台LMArena上,Grok4.1展现出突破性的实力。
作为行业普遍认可的“非官方标准榜”,LMArena通过匿名双盲对战和真实用户投票来评估模型质量,是OpenAI、Google、Anthropic、Meta等头部公司测试新模型的常规阵地,也常被用于提前投放未公开版本。
因此,在这里的胜出,几乎意味着真实用户偏好和模型综合能力的双重认可,是观察模型真实实力的最可信风向标。
就在这样一个竞争最激烈的公开擂台上,xAI的Grok4.1系列拿下了极具含金量的一次“双冠”:Grok4.1Thinking版以1483Elo拿下冠军,而非推理版Grok4.1也以1465Elo获得亚军。
特别值得注意的是,这个“即时响应”的非推理版本,成绩竟然反超所有其他厂商的推理模型,首次让“快模型”也站上了顶级性能的第一梯队,还把前代Grok4远远甩至第33名。
亮眼成绩的背后的关键,在于训练方式的重构。
xAI为Grok4.1引入了大规模强化学习系统,并使用前沿推理模型作为奖励模型,让其能够在训练过程中自主评估、快速迭代。这直接带来了更稳定的风格输出、更可靠的事实判断和更低的幻觉率。
在Grok4.1的后训练阶段,xAI将优化重点集中在信息检索类提示中的幻觉上。
这些底层方法上的改变,很快在实际测试中体现为显著的事实性改进。最新数据显示,Grok4.1的幻觉率已从12.09%下降至4.22%,降幅接近三倍,成为本次升级中最突出的进步之一。
为了进一步验证这种“更准事实”的能力,团队还引入了更严苛的外部基准体系。其中最关键的指标之一是FActScore——由500个真实人物传记问题组成,专门用于检验模型在搜索、事实判断和回答一致性上的表现。
在这一测试中,Grok4.1的FActScore从9.89降至2.97,可信度提升同样显著。结合图表可以更直观看到:在相同的非推理模式下,Grok4.1的错误更少、偏差更小,整体输出更可靠。
这意味着在涉及检索、引用或调用外部事实的场景中,新版模型不再依赖语义猜测,而是能更准确地给出基于证据的回答。
换句话说,Grok4.1在大模型最难突破的“事实稳定性”方面迈出了关键一步——它不仅降低了错误数量,更压低了“错误的自信”。而这,正是大模型从“能说”走向“可信”必须跨过的门槛。
与此同时,Grok4.1的“情商”也有显著进步。
在EQ-Bench测试中,Grok4.1拿下了1586Elo的高分,比上一代整整提升了一百多点。如果光看数字还不够直观,那么图片就更能说明问题:榜单上,Grok4.1和Thinking版稳稳占据前两名,把一众旗舰模型甩在身后,像GPT-5Chat、Gemini2.5Pro、ClaudeOpus4这种老牌强者,都被它轻松拉开了差距。
EQ-Bench是一个由大模型评判的大模型情商测试集,用来评估主动情绪理解、洞察、共情和人际交往能力。它并不靠单轮问答,而是由45个角色扮演场景构成,每个场景包含3个回合,模拟现实世界里真正的“情绪对话”。模型需要在连续对话中保持风格一致、理解情绪上下文、做出恰当回应。最终结果通过两两对比得出,并以Elo形式归一化呈现。可以说,EQ-Bench可以作为测试各模型“情商”的权威榜单。
为什么Grok4.1能在EQ-Bench拿下这样亮眼的成绩?
在官方给出的一张关于“安慰失去猫咪”的对比图中,我们能找到答案。
旧版Grok的回复已经算得上温和体贴,但Grok4.1的表达明显更细腻:它不只是在说“我理解你的难过”,还会捕捉到情绪里那些更隐微、真实的细节——比如空下来的睡窝、期待却再听不到的喵叫、那种像潮水一样反复袭来的悲伤。语气更稳、节奏更自然、情绪共鸣更到位,读起来就像在和一个真正懂你的人对话。
这使得Grok4.1在情绪理解方面迈入第一梯队
除了事实层面的可靠性,Grok4.1在创意写作能力上同样出现大幅跃升。
在CreativeWritingv3中,Grok4.1的得分跃升至1722Elo,较上一版几乎拉开600分,文本的叙事节奏、风格延展性与创造性都有质感跃升。
这个基准本身,CreativeWritingv3并不是简单的“单轮评分”。在测试中,模型需要围绕32个不同类别的写作提示进行三轮独立创作,涵盖叙事、风格模仿、世界构建、人物情绪刻画等复杂任务,考验的不是一句话的巧思,而是持续稳定的文本创造能力。评分方式也和EQ-Bench类似,通过人工评分标准与模型对战得到标准化Elo得分。
在这份榜单中,Grok4.1Thinking和Grok4.1占据第二、第三,两者之间仅相差十几分;而其他强势模型如O3、ClaudeSonnet4.5、KimiK2以及旧版Grok3都被稳稳甩在后面,形成了明显的档位分层。
换句话说,Grok4.1已经进入全球最强“创意写作梯队”。
而在官方给出的新旧版本对比中,我们可以明显看出,Grok4.1已从“能写段子”的模型跃升为真正具备文学笔触的创作者:叙事更深、情绪更复杂、修辞更成熟、角色更沉浸。
这些升级最终体现在更好的交互体验上。Grok4.1拥有更稳定的“个性”,对用户意图的理解更细致,风格调节更自然。即便在非推理模式下,它也能稳定输出高质量回答,同时保持极快响应速度。
一个直观的例子是官方展示的旅游攻略对比。旧版Grok给出的内容像“百科式景点总览”,信息密度高但缺乏节奏感;而Grok4.1写旧金山,则像一位真正“去过”“懂氛围”的本地向导,会主动提示拍照时间、推荐适合你的路线,甚至带出城市的具体气质,更像在和一个真实的人交流。
在复杂任务处理中,Grok4.1的上下文窗口扩展至256Ktokens,Fast模式下更可达200万,使其在长文档理解、持续协作与大型内容生成中保持高连贯度,显著减少“断片”。
总体来看,Grok4.1的提升不是单点突破,而是从性能、事实性到情商、创意与交互体验的一次全维升级。
在正式亮相之前,Grok4.1其实已经悄悄经历了一轮为期两周的“静默发布”。从2025年11月1日到14日,xAI将一部分真实用户流量在grok.com、X以及移动端应用中逐步切换到Grok4.1,以观察它在真实环境下的表现。
这一阶段最直观的结果,被清晰地体现在那张64.78%的饼图上:在双盲对比、用户不知情的前提下,Grok4.1的回答有64.78%的概率被用户选为“更好”。换句话说,面对同样的问题,用户在超过六成的情况下更偏爱Grok4.1。
可以说,Grok4.1展现的更高的情绪理解、更稳的事实性回应、更自然的交互风格,都通过静默测试被真实用户用投票“盖章”。
无论是LMArena双冠、幻觉率的断崖式下降,还是创意写作与情感能力的全面增强,新一代Grok已从“功能强”走向“体验强”,也为xAI在今年的大模型竞争中交出了一份极具说服力的答卷。
我们实测了Grok4.1
AI前线也上手实测了Grok4.1。
首先是推理能力测试,我们设计了一道看似正常、实际“有诈”(有2组解)的题(各位可以自己动手验证下):
“四个同学参加数学竞赛,分别是:小A、小B、小C、小D。比赛结束后,他们对自己名次做了如下四个判断:(1)小A说:“我不是第一名。”(2)小B说:“我也不是最后一名。”(3)小C说:“我是第二名”(4)小D说:“我才不是最后一名呢。”已知:这四句中只有一句是真话,且四个人名次两两不同。
问:哪一句是真话?四个人各自的名次如何?请给出推理过程。”
Grok成功找出了2组解,还主动修复题目Bug。
不过需要说明的是,它其实在主动修复题目Bug时“翻车”了,Grok提出,如果把小C说的话改为:“小B是第二名”,这样答案就有唯一性。
但修改后,结果其实还有多种:第一,如果有只有B在说真话,此时名次唯一确定为A1、C2、B3、D4;第二,如果只有D在说真话,此时只能确定A1、B4,C和D分别为第2第3名但不唯一。
再来看看Grok的写作能力。
我们给出了这样的Prompt:
用讲故事的口吻,准确且生动地、有感染力地讲述马斯克xAI发布Grok4.1的事。要求字数:500-600字,必须包含:发布时间、产品亮点、市场背景等。
Grok4.1的回答如下,还贴心地统计了字数:578——但是,咱就是说,Grok恐怕是统计的英文字数(或者数学不好?),我们手工用Word统计了字数:861字。
最后,我们测了一下Grok4.1的图像生成能力,效果不错:Grok根据一段Prompt生成了两张图,还真挺像真实照片的(不过细节嘛,大家请自行评价)。
而且还能直接根据图像,一键生成视频,效果如下:
感兴趣的读者朋友们,也可以去上手试试。

相关文章

头条焦点
精彩导读
关注我们
【查看完整讨论话题】 | 【用户登录】 | 【用户注册】