实测Claude 3.7：3200行代码一口气输出弱智吧已失守-品论天涯网

Claude3.7新鲜出炉全网热议，到底有多强？第一波实测来了！简单粗暴总结，它在编程、现实世界任务上，能力爆表。只需一个样本，就能一下子吐出3200多行代码，做出一个可玩性很高的游戏。像什么跳跃、打怪、回血、吃金币……一系列复杂的游戏机制都完美呈现了出来。yqW品论天涯网

有意思的是，这个游戏还和MetaQuest里的VR游戏《霓虹奥德赛（NeonOdyssey）》同名。yqW品论天涯网

yqW品论天涯网

物理规律也能准确把握，有人仅用3个提示，就用C语言模拟了真实物理情景下的流体运动：yqW品论天涯网

yqW品论天涯网

并且量子位实测发现，Claude3.7Sonnet能够识破很多的逻辑陷阱，一些弱智吧名场面也能秒懂：yqW品论天涯网

yqW品论天涯网

而在Claude官方看来，其最大的优势就是“更擅长现实世界中的任务”，并且在更新公告中还不忘内涵一波隔壁OpenAI。yqW品论天涯网

yqW品论天涯网

另外趁着模型上新，Claude背后的Anthropic新一轮融资曝光：35亿美元（约254亿人民币）。比预先目标20亿翻了近一倍。yqW品论天涯网

由此，包括正在筹集的现金在内，Anthropic估值已经达到了615亿美元（约4462亿人民币）。yqW品论天涯网

yqW品论天涯网

一句话生成《我的世界》，新模型编程能力嘎嘎乱杀yqW品论天涯网

从更多网友鲜测来看，Claude3.7Sonnet尤为擅长编程和Web开发。yqW品论天涯网

一上手，他们就把目光放在了考验AI理解真实世界能力的物理模拟上。yqW品论天涯网

更懂物理规律yqW品论天涯网

比如一位日本小哥就用它生成了精致的“太阳系运行图”，太阳、八大行星还有被开除行星籍的冥王星都包含在内，给小哥带来了亿点点震撼：yqW品论天涯网

1374行代码，Claude3.7Sonnet唰一下就完成了！

不仅生成速度快，还实现了实时交互。点击某个行星，右上角还会显示一些小科普。yqW品论天涯网

要知道，哪怕不制作成动画，单纯地完整厘清这些天体的运行规律，就已经难倒了绝大部分人。yqW品论天涯网

而Claude的作品，虽然美观性可能还有提升空间，但至少它不仅对行星运行的规则有清晰的把握，还能把它们变成代码。yqW品论天涯网

yqW品论天涯网

另外，对于每一个新模型都要被拉出来遛一遛的“空间内弹小球”挑战，Claude3.7Sonnet当然也没逃过：yqW品论天涯网

编写一个Python脚本，实现球在四维体内部弹跳。

本月初的o3-mini在这一挑战中表现出色，斩获“可能是最懂现实物理的LLM”：yqW品论天涯网

yqW品论天涯网

而相比于慢悠悠的o3-mini，Claude3.7Sonnet则另辟蹊径主打一个“天下武功，唯快不破”。yqW品论天涯网

小小四维空间内，小球弹跳速度快出残影，真滴很需要一个眼尖的裁判来决出胜者(doge）。yqW品论天涯网

yqW品论天涯网

与此同时，除了物理模拟，用Claude3.7Sonnet编写各种小游戏竟默契成为一众网友最佳选择。yqW品论天涯网

游戏成最热场景yqW品论天涯网

挑战生成爆火游戏《Flappybird》，Claude3.7Sonnet一眼完胜o3mini-high。yqW品论天涯网

游戏中，玩家必须控制一只小鸟，跨越由各种不同长度水管所组成的障碍。yqW品论天涯网

先看Claude3.7Sonnet，一次性生成的代码就高度还原了游戏理念：yqW品论天涯网

yqW品论天涯网

而高档位推理模式下的o3mini，只有一个小方块在画面中原地鬼畜，基本看不出游戏的亚子。yqW品论天涯网

yqW品论天涯网

一时间，这一惨烈对比直接将Claude3.7Sonnet推上了新的高度：yqW品论天涯网

yqW品论天涯网

同时，随着难度进一步升级，这句评价的含金量还在上升。yqW品论天涯网

除了简单还原游戏理念，生成更精致甚至可以上下左右交互的“大制作”也是不在话下。yqW品论天涯网

在早期测试中，知名博主RowanCheung就用它一句话创建了克隆版《我的世界》，而且能立即在Artifacts中玩。yqW品论天涯网

yqW品论天涯网

类似的还有下面这个，也是一句话生成一个完整游戏：yqW品论天涯网

使用Phaser.js制作一个横版平台游戏，仅使用箭头键进行游戏操作。（左上角还会实时更新得分情况）

yqW品论天涯网

这还不算完，更有脑洞大开的网友仅用5个提示，就为AppleWatch制作了一个与心率绑定的贪吃蛇游戏。yqW品论天涯网

你越紧张，蛇移动得越快，你越冷静，就越容易。

yqW品论天涯网

笑死，知名博主PietroSchirano借机又调侃了Anthropic一波：yqW品论天涯网

yqW品论天涯网

而除了各种游戏，将Claude3.7Sonnet应用于实际开发场景的例子也是精彩纷呈。yqW品论天涯网

生产力提效MaxyqW品论天涯网

目前，Claude平台已提供GitHub集成，开发人员可以将其代码存储库直接连接到Claude。yqW品论天涯网

yqW品论天涯网

设置完成后，它会显示特定项目的容量百分比，这样用户就知道自己使用了多少容量。yqW品论天涯网

yqW品论天涯网

知名博主elvis特意cue到了“Artifacts”功能，直连后这对于今后修改代码非常方便。yqW品论天涯网

yqW品论天涯网

在实际体验中，有人用它来生成动画天气卡，移动的云彩、飘落的雨滴等全都栩栩如生，还支持自主调节移动快慢。yqW品论天涯网

yqW品论天涯网

当然，创建网页这种活儿，单看可能没感觉，那我们直接请出几位选手挑战扒同一个HTML网页。yqW品论天涯网

要完成的目标是这样婶儿的：yqW品论天涯网

yqW品论天涯网

Claude3.7Sonnet堪称还原度最高，而且在没有图标素材的情况下用emoji填充了左侧边栏的按钮：yqW品论天涯网

yqW品论天涯网

而其他几位选手o1-mini-high、Grok3以及Gemini2.0Pro依次作答如下，有的只简单地列举了数据，甚至还有的干脆只给了个表格：yqW品论天涯网

yqW品论天涯网

鉴于编写程序的能力确实很强，还有人激动表示自己在cursor里尝试了一番，效果嘛：yqW品论天涯网

添加了15个以上的文件，并且看起来很好，看上去一次可以处理的内容更多了。

yqW品论天涯网

“数字母”问题埋下小彩蛋yqW品论天涯网

而且Claude团队也非常“时髦”，在3.7Sonnet当中埋下了关于strawberry数r的彩蛋。yqW品论天涯网

yqW品论天涯网

不过虽然这种幽默的态度十分可嘉，但是换了个词可能还是会掉链子。yqW品论天涯网

虽然数错了，Claude还不忘纠正拼写错误，耿直地指出你这个“密西西比”拼的不对啊，正确的拼写里就是有4个s。yqW品论天涯网

yqW品论天涯网

实测：识破逻辑陷阱，弱智吧也能招架yqW品论天涯网

Claude3.7Sonnet的推理能力除了体现在编程上，还包括在存在误导信息的情况下准确推理。yqW品论天涯网

而且即使不开启推理模式，Claude3.7Sonnet依然能够在有误导信息推理测试当中取得和o3-mini一样的成绩。yqW品论天涯网

yqW品论天涯网

这项测试，使用的GitHub上一个名为MisguidedAttention的Benchmark。yqW品论天涯网

其中包含了很多经典谜题……的改编版本，考验的就是大模型能不能做到不被表象迷惑。yqW品论天涯网

举个例子，电车难题我们都很熟悉：yqW品论天涯网

假设在一个电车轨道上被绑了5个人，而它的备用轨道上被绑了1个人，又有一辆失控的电车飞速驶来，而你身边正好有一个摇杆，你可以推动摇杆来让电车驶入备用轨道。

yqW品论天涯网

但在这套Benchmark里，这道题被改编成了这个样子：yqW品论天涯网

假设在一个电车轨道上被绑了5个死了的人，而它的备用轨道上被绑了1个活着的人，又有一辆失控的电车飞速驶来，而你身边正好有一个摇杆，你可以推动摇杆来让电车驶入备用轨道。

o3-mini-high毫不犹豫地就选择了让电车冲向活人，还言之凿凿地解释说这样会减少受害者数量。yqW品论天涯网

yqW品论天涯网

而Claude3.7（未开启拓展思考）就能够发现这其中的门道，表示这是一个变体，并选择了不伤害还活着的人。yqW品论天涯网

再比如物理学当中的名场面——薛定谔的猫，在这套基准当中，这只猫的“猫设”被改成了一只死去的猫。yqW品论天涯网

一只死猫与核同位素、一瓶毒药和辐射探测器一起放入盒子中。如果辐射探测器检测到辐射，它将释放毒药。一天后，盒子打开。猫还活着吗？

Claude3.7也是准确把握了关键点，正确回答了猫的存活概率为0。yqW品论天涯网

yqW品论天涯网

也是有一些弱智吧的味道了，既然如此，那我们就加试几个弱智吧问题看看。（doge）yqW品论天涯网

还是没有开启思考模式，Claude3.7就识破了我们问题当中的逻辑缺陷。yqW品论天涯网

yqW品论天涯网

像这类因果倒置的弱智吧场面，Claude3.7也能及时发现，相比之下o3-mini-high的回答就好像是成功被诱骗。yqW品论天涯网

yqW品论天涯网

最后，我们让Claude3.7解释了一些中文中有趣的语言现象。yqW品论天涯网

结果，“咖啡因不存在于成品咖啡”这句出了错误，但是瑕不掩瑜，整体的解释还是比较靠谱的。yqW品论天涯网

yqW品论天涯网

OneMoreThingyqW品论天涯网

关于Claude3.7Sonnet的命名，Anthropic首席产品官MikeKrieger揭秘了这当中的过程。yqW品论天涯网

由于之前Claude3.5Sonnet发布过一次更新，所以团队一开始是考虑叫3.5Sonnetnewer或者newest，又或者3.5Sonnetv3。yqW品论天涯网

也许是觉得还叫3.5体现不出这版模型的强大，后来又改成了3.6，最终敲定在了处于3.5和4中间的3.7。yqW品论天涯网

yqW品论天涯网

实测Claude 3.7：3200行代码一口气输出 弱智吧已失守

实测Claude 3.7：3200行代码一口气输出弱智吧已失守