全球首个混合推理模型Claude 3.7降世最强编程大脑暴击DeepSeek R1-品论天涯网

就在刚刚，Anthropic祭出首个混合推理Claude3.7Sonnet，堪称扩展思考模式的最强模型。在最新编码测试中，新模型暴击o3-mini、DeepSeekR1，AI编码王者出世了。憋了大半年，Anthropic终于放出大招——首款混合推理模型Claude3.7Sonnet重磅登场！loL品论天涯网

loL品论天涯网

这是Claude系列中，迄今为止最智能的模型，几乎能够及时响应，并进行可扩展的、逐步的思考。loL品论天涯网

loL品论天涯网

简言之，一个模型，两种思考方式。loL品论天涯网

假设你想破解一个博弈论数学问题——蒙提霍尔问题，扔给Claude3.7Sonnet，然后同时选择「Extended」模式。loL品论天涯网

它便会展示详细CoT过程，用时52秒就完成了。loL品论天涯网

loL品论天涯网

最关键的是，Claude3.7Sonnet目前所有人免费可用，目前「扩展思考」模式还没有上线。loL品论天涯网

在多项基准测试中，「扩展思考」模式加持下的Claude3.7Sonnet，在数学、物理、指令执行、编程等刷新SOTA。loL品论天涯网

相较于上一代Claude3.5Sonnet，数学、编码能力更是暴涨10%以上。loL品论天涯网

除了数学，Claude3.7Sonnet（64kextendedthinking）几乎完全碾压o3-mini，DeepSeekR1，与Grok3不相上下。loL品论天涯网

loL品论天涯网

API用户可以精确控制模型的思考时间loL品论天涯网

可以说，Claude3.7Sonnet完全是一个最强「软件工程AI」。在SWE-bench上，创下了70.3%的高分。loL品论天涯网

loL品论天涯网

与此同时，首款「智能体编程」工具ClaudeCode（预览版）也在今天问世了。loL品论天涯网

如今，它已经成为Anthropic内部，不可或缺的工具。在早期测试中，Claude一次性就完成人类需要45分钟的任务。loL品论天涯网

也就是说，你做产品经理，AI给你打工写代码。loL品论天涯网

loL品论天涯网

虽没有Claude4，Anthropic这波突如其来的打法，实属给AI界又一震撼。loL品论天涯网

这半个月，注定是2025开年以来AI含金量最高的。loL品论天涯网

Grok3上周刚发布，这周DeepSeek连续开源5天，OpenAIGPT-4.5据称也要上线，再加上Claude3.7Sonnet，大模型领域的混战又开始了。loL品论天涯网

loL品论天涯网

全球首款「混合推理」模型诞生loL品论天涯网

在官方博文中，Anthropic称，Claude3.7Sonnet是Anthropic迄今为止最智能的模型，也是市场上首个混合推理模型。loL品论天涯网

loL品论天涯网

Claude3.7Sonnet能够产生几乎即时的响应或逐步展示思考过程的详细步骤，这些步骤对用户是可见的。API用户还可以精细控制模型的思考时间。loL品论天涯网

在编码和前端网页开发方面，Claude3.7Sonnet得到显著提升。loL品论天涯网

除此之外，他们还推出了一款名为ClaudeCode的命令行工具，用于智能体编码。loL品论天涯网

目前，ClaudeCode仅作为有限的研究预览版提供，它使开发人员能够直接从他们的终端将大量的工程任务委托给Claude。loL品论天涯网

loL品论天涯网

推理，是一个LLM整体能力loL品论天涯网

Claude3.7Sonnet的设计理念与市场上其他推理模型不同。loL品论天涯网

Anthropic相信，就像人类使用一个大脑来处理快速反应和深度思考一样，推理应该是前沿模型的整体能力，而不是一个完全独立的模型。这种统一的方法为用户提供了更流畅的体验。loL品论天涯网

Claude3.7Sonnet在几个方面体现了这一理念。loL品论天涯网

首先，Claude3.7Sonnet既是普通的语言模型（LLM），也是一个推理模型：可以选择在什么时候希望模型正常回答，什么时候希望它在回答之前思考更长的时间。loL品论天涯网

在标准模式下，Claude3.7Sonnet是Claude3.5Sonnet的升级版本。loL品论天涯网

在扩展思考模式下，它在回答之前进行自我反思，这提高了在数学、物理、指令遵循、编码和其他许多任务上的性能。loL品论天涯网

通常，两种模式对模型的提示效果相似。loL品论天涯网

其次，通过API使用Claude3.7Sonnet时，用户还可以控制思考的预算——loL品论天涯网

你可以告诉Claude在回答时最多思考N个tokens，N的最大值为128Ktokens的输出限制。这使得用户可以在速度（和成本）与回答质量之间进行权衡。loL品论天涯网

第三，在开发推理模型时，Anthropic在数学和计算机科学竞赛问题上的优化程度稍微降低，而是将重点转向了更能反映企业实际使用LLM的现实世界任务。loL品论天涯网

loL品论天涯网

Claude3.7Sonnet在SWE-benchVerified上刷线SOTA，该评测旨在评估AI模型解决现实世界软件问题的能力loL品论天涯网

loL品论天涯网

Claude3.7Sonnet在TAU-bench上刷新SOT，TAU-bench是一个测试AI智能体在复杂现实世界任务中与用户和工具交互能力的框架loL品论天涯网

如前所述，Claude3.7Sonnet几乎在各大基准测试中，性能得到了显著提升。loL品论天涯网

相较于最新Grok3Beta模型，Claude3.7Sonnet（64kextendedthinking）在推理方面几乎打成平手。而在数学、视觉推理方面，又略逊色于Grok3Beta。loL品论天涯网

与o3-mini、DeepSeekR1相比，除了数学，带有扩展思考模式的Claude3.7Sonnet拿下最高分。loL品论天涯网

loL品论天涯网

Claude3.7Sonnet在任务指令跟随、通用推理、多模态能力和自主编程方面表现出色，扩展思考模式在数学和科学领域带来了显著提升。除了传统基准测试外，它甚至在宝可梦游戏测试中超越了所有先前模型loL品论天涯网

AI编码智能体，一次完成45分钟任务loL品论天涯网

自2024年6月以来，Sonnet系列一直是全球开发者的首选模型。loL品论天涯网

今天，Anthropic的首个智能体编码工具ClaudeCode诞生，目前以限量研究预览的形式发布。loL品论天涯网

ClaudeCode主动与人协作，能够搜索和阅读代码、编辑文件、编写和运行测试、提交并将代码推送至GitHub，以及使用命令行工具——同时确保用户在每一步都能参与其中。loL品论天涯网

loL品论天涯网

此外，本次更新还改进了Claude.ai上的编码体验。loL品论天涯网

现在，所有Claude套餐都支持GitHub集成——开发者能够将代码仓库直接连接到Claude。loL品论天涯网

作为Anthropic迄今为止最强大的编码模型，Claude3.7Sonnet能更深入地理解个人项目、工作项目和开源项目，并一举成为修复bug、开发新功能以及编写GitHub文档的强大助手。loL品论天涯网

loL品论天涯网

目前，ClaudeCode还处于早期阶段，但已经成为Anthropic团队不可或缺的工具，尤其是在测试驱动开发、调试复杂问题和大规模重构方面。loL品论天涯网

在早期测试中，它能够一次性完成了通常需要手动工作45分钟以上的任务，显著减少了开发时间和工作量。loL品论天涯网

在接下来的几周里，Anthropic计划根据使用情况不断改进它：提升工具调用的可靠性、增加对长时间运行命令的支持、改进应用内渲染效果，并扩展Claude对自身能力的理解。loL品论天涯网

全新的测试时ScalingloL品论天涯网

loL品论天涯网

Claude作为AI智能体loL品论天涯网

Claude3.7Sonnet具备了一项被称为「行为扩展」（actionscaling）的新特性——这种改进使其能够迭代调用函数、响应环境变化，并持续操作直到完成开放式任务。loL品论天涯网

例如在计算机使用方面：Claude能够通过发出虚拟鼠标点击和键盘按键来代替用户完成任务。与前代相比Claude3.7Sonnet能够在计算机使用任务中投入更多的交互次数，同时配备更充足的时间和计算资源，因此往往能取得更好的结果。loL品论天涯网

这一进步在OSWorld评估中得到了充分体现，这是一个用于评估多模态AI智能体能力的测试平台。loL品论天涯网

Claude3.7Sonnet在初始阶段就展现出了较好的表现，而随着其持续与虚拟计算机交互，其性能优势还会随时间推移而不断扩大。loL品论天涯网

loL品论天涯网

Claude的扩展思考模式与AI智能体训练相结合，不仅帮助它在OSWorld等众多标准评估中取得了更好的表现，还让它在一些其他意想不到的任务中实现了重大突破。loL品论天涯网

以玩游戏为例——特别是在GameBoy掌机经典游戏「口袋妖怪：红」中的表现。他们为Claude配备了基础记忆能力、屏幕像素输入功能，以及按键操作和屏幕导航的函数调用能力，使其能够突破常规上下文限制，持续进行游戏，实现长达数万次的持续交互。loL品论天涯网

在下图中，他们对比了具备扩展思考能力的Claude3.7Sonnet与之前版本的ClaudeSonnet在口袋妖怪游戏中的进度。loL品论天涯网

如图所示，早期版本在游戏伊始就难以推进，Claude3.0Sonnet甚至无法走出故事起点真新镇的初始小屋。loL品论天涯网

而Claude3.7Sonnet凭借改进后的AI智能体能力取得了显著进展，成功挑战并击败了三位道馆馆主，获得了相应的徽章。loL品论天涯网

Claude3.7Sonnet在尝试多种策略和重新审视既有假设方面表现出色，这使它能够在游戏过程中不断提升自身能力。loL品论天涯网

loL品论天涯网

串行与并行测试时计算ScalingloL品论天涯网

当Claude3.7Sonnet运用其扩展思考能力时，可以说它利用了「串行测试时计算」机制。loL品论天涯网

具体而言，它会在生成最终输出之前，执行多个连续的推理步骤，并在此过程中持续增加计算资源投入。loL品论天涯网

总体来看，这种机制能够以可预测的方式提升其性能表现：例如，在数学问题求解方面，其准确率会随着允许采样的「思考Token」数量的增加呈对数增长。loL品论天涯网

loL品论天涯网

Claude的研究人员还在探索使用并行测试时计算来提升模型性能。loL品论天涯网

具体方法是通过采样多个独立的思维过程，并在不预先知道正确答案的情况下选择最佳结果。这可以通过多数表决或共识投票机制来实现，即选择出现频率最高的答案作为「最佳」答案。loL品论天涯网

另外也可以使用另一个LLM来验证其工作成果，或采用经过训练的评分函数来选择最优答案。loL品论天涯网

这些优化策略（及相关研究工作）已在多个AI模型的评估报告中得到验证。loL品论天涯网

在GPQA评估中，他们通过并行测试时计算Scaling取得了突破性进展。loL品论天涯网

具体而言，通过调用等同于256个独立样本的计算资源，结合训练优化的评分模型，并设置最大64,000个Token的推理限额，Claude3.7Sonnet在GPQA测试中达到了84.8%的总体得分（其中物理学部分高达96.5%）。loL品论天涯网

值得注意的是，即使超出常规多数表决的限制范围，模型性能仍在持续提升。loL品论天涯网

下图列出了评分模型方法和多数表决方法的详细结果。loL品论天涯网

loL品论天涯网

这些方法能够提升Claude回答的质量，而且通常无需等待其完成推理过程。同时进行多个不同的深度思维运算，Claude能够探索更多问题解决思路，显著提升正确答案的输出频率。loL品论天涯网

三步路线图，Claude合作者已来loL品论天涯网

Claude3.7Sonnet和ClaudeCode标志着，向真正增强人类能力的人工智能系统迈出的重要一步。loL品论天涯网

凭借其深入推理、自主工作和有效协作的能力，它们让我们更接近一个未来，在那里人工智能丰富了人类所能实现的事情。loL品论天涯网

如今，Claude合作者已来。loL品论天涯网

loL品论天涯网

最新版，可以免费用了loL品论天涯网

值得一提的是，Claude3.7Sonnet目前已经在Claude.ai平台上线，Web、iOS和Android用户皆可免费体验。loL品论天涯网

对于希望构建自定义AI解决方案的开发者，可以通过AnthropicAPI、AmazonBedrock以及GoogleCloud的VertexAI进行访问。loL品论天涯网

在标准模式和扩展思考模式下，Claude3.7Sonnet的价格与其前代产品相同：3美元/百万输入token，15美元/百万输出token——这其中包括了思考token的费用。loL品论天涯网

loL品论天涯网

Anthropic套餐定价loL品论天涯网

AI大佬测试loL品论天涯网

宾夕法尼亚大学沃顿商学院的教授EthanMollick已经在过去几天对Claude3.7进行了测试，loL品论天涯网

Claude3.7经常给他带来与第一次使用ChatGPT-4时相同的感觉：既惊叹不已，又对它们的能力感到一丝不安。以Claude的原生编码能力为例，我们现在可以通过自然对话或文档获得可运行的程序，而无需任何编程技能。loL品论天涯网

例如，他向Claude提供了一份关于新型AI教育工具的提案，并在对话中要求它「以3D形式展示所提议的系统架构，并使其具有交互性」。结果，它生成了我们论文中核心设计的交互式可视化效果，没有任何错误。loL品论天涯网

这些图形虽然很简洁，但并不是最令人印象深刻的部分。真正让人惊叹的是，Claude自主决定将其制作成一个逐步演示来解释相关概念，而这并不是我们要求它做的。loL品论天涯网

这种对需求的预判和对新方法的思考是AI领域中的一项新突破。loL品论天涯网

loL品论天涯网

再举一个更有趣的例子，EthanMollick告诉Claude：「给我做一个交互式的时间机器装置，让我可以穿越回过去，并发生一些有趣的事情。挑选一些不寻常的时间点让我回去...」以及「添加更多图像。」loL品论天涯网

仅仅这两条提示之后，就出现了一个功能齐全的交互式体验，甚至还配有粗糙但迷人的像素图像（这些图像实际上令人惊讶地印象深刻——AI必须使用纯代码「绘制」这些图像，而无法看到它正在创建的内容，就像一个被蒙住眼睛的艺术家。loL品论天涯网

loL品论天涯网

参考资料：loL品论天涯网

https://www.anthropic.com/news/claude-3-7-sonnetloL品论天涯网

https://x.com/alexalbert__/status/1894093648121532546loL品论天涯网

https://x.com/AnthropicAI/status/1894092430560965029loL品论天涯网

https://www.oneusefulthing.org/p/a-new-generation-of-ais-claude-37loL品论天涯网

全球首个混合推理模型Claude 3.7降世 最强编程大脑暴击DeepSeek R1

全球首个混合推理模型Claude 3.7降世最强编程大脑暴击DeepSeek R1