Grok 4.1登顶LMArena 创意写作直逼GPT-5.1-品论天涯网

当GoogleGemini3将上线的消息传得沸沸扬扬时，马斯克更快一步默默放了个大招。今天凌晨，xAI的最新大模型Grok4.1直接上线了，响应速率明显提升、幻觉率大幅下降，回答既精准又“有人味儿”。NcH品论天涯网

这次一共发布了两个“形态”：Grok4.1和Grok4.1Thinking。Thinking版是前者的增强推理变体，二者基于同一底层模型，仅推理配置不同。NcH品论天涯网

值得一提的是，Grok4.1对所有人免费开放，除了能在Grok官网、X上使用，还推出了移动APP版，iOS和Android系统都照顾到了。NcH品论天涯网

NcH品论天涯网

如果想要更有深度、更专业的回答，可以一键“让Think更努力思考”。NcH品论天涯网

从LMArena的最新结果看，Grok4.1Thinking以1483Elo断层领跑，比Gemini2.5Pro高出31分。NcH品论天涯网

即使在不启用思考链的情况下，Grok4.1仍保持在榜单第二，显示出底层能力的稳定性。NcH品论天涯网

NcH品论天涯网

有不少网友发出了“真香”感叹，Belike：NcH品论天涯网

NcH品论天涯网

当然，也有一些质疑声，比如有人指出在生成代码这块儿，Grok还不太有竞争力。NcH品论天涯网

NcH品论天涯网

“双形态”的Grok4.1霸榜LMArenaNcH品论天涯网

首先，关于Grok4.1和Grok4.1Thinking是什么，我们不妨来看看Grok4.1自己的解释：NcH品论天涯网

Grok4.1是xAI于2025年11月17日发布的最新前沿大语言模型（Grok4的升级版），在对话智能、情感理解、创意写作、事实准确性和响应速度上大幅提升。NcH品论天涯网

Grok4.1Thinking（有时简称Grok4.1Thinking，代号quasarflux）是同一模型的思考/推理模式（reasoningmode），会额外使用“思考令牌”进行链式推理（chain-of-thought），适合复杂数学、编程或多步问题。NcH品论天涯网

Grok4.1Thinking是Grok4.1的增强推理变体；二者基于同一底层模型，仅推理配置不同。NcH品论天涯网

NcH品论天涯网

在全球最大、最具影响力的大模型盲测平台LMArena上，Grok4.1展现出突破性的实力。NcH品论天涯网

作为行业普遍认可的“非官方标准榜”，LMArena通过匿名双盲对战和真实用户投票来评估模型质量，是OpenAI、Google、Anthropic、Meta等头部公司测试新模型的常规阵地，也常被用于提前投放未公开版本。NcH品论天涯网

因此，在这里的胜出，几乎意味着真实用户偏好和模型综合能力的双重认可，是观察模型真实实力的最可信风向标。NcH品论天涯网

就在这样一个竞争最激烈的公开擂台上，xAI的Grok4.1系列拿下了极具含金量的一次“双冠”：Grok4.1Thinking版以1483Elo拿下冠军，而非推理版Grok4.1也以1465Elo获得亚军。NcH品论天涯网

特别值得注意的是，这个“即时响应”的非推理版本，成绩竟然反超所有其他厂商的推理模型，首次让“快模型”也站上了顶级性能的第一梯队，还把前代Grok4远远甩至第33名。NcH品论天涯网

亮眼成绩的背后的关键，在于训练方式的重构。NcH品论天涯网

xAI为Grok4.1引入了大规模强化学习系统，并使用前沿推理模型作为奖励模型，让其能够在训练过程中自主评估、快速迭代。这直接带来了更稳定的风格输出、更可靠的事实判断和更低的幻觉率。NcH品论天涯网

在Grok4.1的后训练阶段，xAI将优化重点集中在信息检索类提示中的幻觉上。NcH品论天涯网

这些底层方法上的改变，很快在实际测试中体现为显著的事实性改进。最新数据显示，Grok4.1的幻觉率已从12.09%下降至4.22%，降幅接近三倍，成为本次升级中最突出的进步之一。NcH品论天涯网

为了进一步验证这种“更准事实”的能力，团队还引入了更严苛的外部基准体系。其中最关键的指标之一是FActScore——由500个真实人物传记问题组成，专门用于检验模型在搜索、事实判断和回答一致性上的表现。NcH品论天涯网

NcH品论天涯网

在这一测试中，Grok4.1的FActScore从9.89降至2.97，可信度提升同样显著。结合图表可以更直观看到：在相同的非推理模式下，Grok4.1的错误更少、偏差更小，整体输出更可靠。NcH品论天涯网

这意味着在涉及检索、引用或调用外部事实的场景中，新版模型不再依赖语义猜测，而是能更准确地给出基于证据的回答。NcH品论天涯网

换句话说，Grok4.1在大模型最难突破的“事实稳定性”方面迈出了关键一步——它不仅降低了错误数量，更压低了“错误的自信”。而这，正是大模型从“能说”走向“可信”必须跨过的门槛。NcH品论天涯网

与此同时，Grok4.1的“情商”也有显著进步。NcH品论天涯网

在EQ-Bench测试中，Grok4.1拿下了1586Elo的高分，比上一代整整提升了一百多点。如果光看数字还不够直观，那么图片就更能说明问题：榜单上，Grok4.1和Thinking版稳稳占据前两名，把一众旗舰模型甩在身后，像GPT-5Chat、Gemini2.5Pro、ClaudeOpus4这种老牌强者，都被它轻松拉开了差距。NcH品论天涯网

EQ-Bench是一个由大模型评判的大模型情商测试集，用来评估主动情绪理解、洞察、共情和人际交往能力。它并不靠单轮问答，而是由45个角色扮演场景构成，每个场景包含3个回合，模拟现实世界里真正的“情绪对话”。模型需要在连续对话中保持风格一致、理解情绪上下文、做出恰当回应。最终结果通过两两对比得出，并以Elo形式归一化呈现。可以说，EQ-Bench可以作为测试各模型“情商”的权威榜单。NcH品论天涯网

NcH品论天涯网

为什么Grok4.1能在EQ-Bench拿下这样亮眼的成绩？NcH品论天涯网

在官方给出的一张关于“安慰失去猫咪”的对比图中，我们能找到答案。NcH品论天涯网

旧版Grok的回复已经算得上温和体贴，但Grok4.1的表达明显更细腻：它不只是在说“我理解你的难过”，还会捕捉到情绪里那些更隐微、真实的细节——比如空下来的睡窝、期待却再听不到的喵叫、那种像潮水一样反复袭来的悲伤。语气更稳、节奏更自然、情绪共鸣更到位，读起来就像在和一个真正懂你的人对话。NcH品论天涯网

NcH品论天涯网

这使得Grok4.1在情绪理解方面迈入第一梯队NcH品论天涯网

除了事实层面的可靠性，Grok4.1在创意写作能力上同样出现大幅跃升。NcH品论天涯网

在CreativeWritingv3中，Grok4.1的得分跃升至1722Elo，较上一版几乎拉开600分，文本的叙事节奏、风格延展性与创造性都有质感跃升。NcH品论天涯网

这个基准本身，CreativeWritingv3并不是简单的“单轮评分”。在测试中，模型需要围绕32个不同类别的写作提示进行三轮独立创作，涵盖叙事、风格模仿、世界构建、人物情绪刻画等复杂任务，考验的不是一句话的巧思，而是持续稳定的文本创造能力。评分方式也和EQ-Bench类似，通过人工评分标准与模型对战得到标准化Elo得分。NcH品论天涯网

NcH品论天涯网

在这份榜单中，Grok4.1Thinking和Grok4.1占据第二、第三，两者之间仅相差十几分；而其他强势模型如O3、ClaudeSonnet4.5、KimiK2以及旧版Grok3都被稳稳甩在后面，形成了明显的档位分层。NcH品论天涯网

换句话说，Grok4.1已经进入全球最强“创意写作梯队”。NcH品论天涯网

而在官方给出的新旧版本对比中，我们可以明显看出，Grok4.1已从“能写段子”的模型跃升为真正具备文学笔触的创作者：叙事更深、情绪更复杂、修辞更成熟、角色更沉浸。NcH品论天涯网

NcH品论天涯网

这些升级最终体现在更好的交互体验上。Grok4.1拥有更稳定的“个性”，对用户意图的理解更细致，风格调节更自然。即便在非推理模式下，它也能稳定输出高质量回答，同时保持极快响应速度。NcH品论天涯网

一个直观的例子是官方展示的旅游攻略对比。旧版Grok给出的内容像“百科式景点总览”，信息密度高但缺乏节奏感；而Grok4.1写旧金山，则像一位真正“去过”“懂氛围”的本地向导，会主动提示拍照时间、推荐适合你的路线，甚至带出城市的具体气质，更像在和一个真实的人交流。NcH品论天涯网

NcH品论天涯网

在复杂任务处理中，Grok4.1的上下文窗口扩展至256Ktokens，Fast模式下更可达200万，使其在长文档理解、持续协作与大型内容生成中保持高连贯度，显著减少“断片”。NcH品论天涯网

总体来看，Grok4.1的提升不是单点突破，而是从性能、事实性到情商、创意与交互体验的一次全维升级。NcH品论天涯网

在正式亮相之前，Grok4.1其实已经悄悄经历了一轮为期两周的“静默发布”。从2025年11月1日到14日，xAI将一部分真实用户流量在grok.com、X以及移动端应用中逐步切换到Grok4.1，以观察它在真实环境下的表现。NcH品论天涯网

这一阶段最直观的结果，被清晰地体现在那张64.78%的饼图上：在双盲对比、用户不知情的前提下，Grok4.1的回答有64.78%的概率被用户选为“更好”。换句话说，面对同样的问题，用户在超过六成的情况下更偏爱Grok4.1。NcH品论天涯网

可以说，Grok4.1展现的更高的情绪理解、更稳的事实性回应、更自然的交互风格，都通过静默测试被真实用户用投票“盖章”。NcH品论天涯网

NcH品论天涯网

无论是LMArena双冠、幻觉率的断崖式下降，还是创意写作与情感能力的全面增强，新一代Grok已从“功能强”走向“体验强”，也为xAI在今年的大模型竞争中交出了一份极具说服力的答卷。NcH品论天涯网

我们实测了Grok4.1NcH品论天涯网

AI前线也上手实测了Grok4.1。NcH品论天涯网

首先是推理能力测试，我们设计了一道看似正常、实际“有诈”（有2组解）的题（各位可以自己动手验证下）：NcH品论天涯网

“四个同学参加数学竞赛，分别是：小A、小B、小C、小D。比赛结束后，他们对自己名次做了如下四个判断：（1）小A说：“我不是第一名。”（2）小B说：“我也不是最后一名。”（3）小C说：“我是第二名”（4）小D说：“我才不是最后一名呢。”已知：这四句中只有一句是真话，且四个人名次两两不同。NcH品论天涯网

问：哪一句是真话？四个人各自的名次如何？请给出推理过程。”NcH品论天涯网

Grok成功找出了2组解，还主动修复题目Bug。NcH品论天涯网

NcH品论天涯网

不过需要说明的是，它其实在主动修复题目Bug时“翻车”了，Grok提出，如果把小C说的话改为：“小B是第二名”，这样答案就有唯一性。NcH品论天涯网

但修改后，结果其实还有多种：第一，如果有只有B在说真话，此时名次唯一确定为A1、C2、B3、D4；第二，如果只有D在说真话，此时只能确定A1、B4，C和D分别为第2第3名但不唯一。NcH品论天涯网

再来看看Grok的写作能力。NcH品论天涯网

我们给出了这样的Prompt：NcH品论天涯网

用讲故事的口吻，准确且生动地、有感染力地讲述马斯克xAI发布Grok4.1的事。要求字数：500-600字，必须包含：发布时间、产品亮点、市场背景等。NcH品论天涯网

Grok4.1的回答如下，还贴心地统计了字数：578——但是，咱就是说，Grok恐怕是统计的英文字数（或者数学不好？），我们手工用Word统计了字数：861字。NcH品论天涯网

NcH品论天涯网

最后，我们测了一下Grok4.1的图像生成能力，效果不错：Grok根据一段Prompt生成了两张图，还真挺像真实照片的（不过细节嘛，大家请自行评价）。NcH品论天涯网

NcH品论天涯网

而且还能直接根据图像，一键生成视频，效果如下：NcH品论天涯网

NcH品论天涯网

感兴趣的读者朋友们，也可以去上手试试。NcH品论天涯网