Claude接管人类电脑12小时：学会摸鱼，敲着敲着代码看风景去了-品论天涯网

新版Claude3.5可以像人一样使用计算机，可把咱人类给兴奋坏了！毕竟，这意味着新竞赛的开始：AI不再只盯着对话和生成能力，更强调执行和操作。不到12小时，激动的网友们已经纷纷贡献出自己是怎么看着Claude玩电脑的。在Anthropic的发布公告中，还有这样一段引起了大家的兴趣：S3K品论天涯网

……录制演示视频中，Claude不小心把录屏程序给按停，导致所有视频素材丢失。S3K品论天涯网

稍后，Claude从编程演示中休息了一下，开始翻看黄石公园的照片。S3K品论天涯网

怎么说，AI会犯错还在预料之中，但犯错后需要换个脑子休息一下，就不知道是从哪学来的了。S3K品论天涯网

这个案例让网友有了灵感，跑去隔壁OpenAI让o1推理模型“逃课”。S3K品论天涯网

哎巧了，o1也可以做到自己休息个五分钟左右，再回来生成一两句话的推理tokens。S3K品论天涯网

S3K品论天涯网

再说个搞笑的！S3K品论天涯网

Claude的创造者们疯狂加班中，某工程师的第一个测试就是让AI去给整个团队点外卖，未指定具体要吃什么。S3K品论天涯网

大约一分钟后，Claude完成点餐并下单，它选择了让工程师们吃披萨。S3K品论天涯网

S3K品论天涯网

Claude点了3个披萨，花掉了95美元，真的很贵了！S3K品论天涯网

围观群众还发现，虽然Claude用了个5美元的优惠券，但服务费也好贵啊啊啊啊！S3K品论天涯网

真的应该事先告诉它预算是多少的。S3K品论天涯网

S3K品论天涯网

还有人让Claude用C语言编译，并运行起了“helloworld”。S3K品论天涯网

不过，当让它玩玩数独游戏的时候，却惨遭失败。S3K品论天涯网

给网友气得呀：S3K品论天涯网

天啊，Claude的数独能力，真的超糟糕的。S3K品论天涯网

S3K品论天涯网

除了以上，人类还用什么奇形怪状的任务来玩坏Claude呢？S3K品论天涯网

Claude它寄几玩电脑S3K品论天涯网

在这里，我们分享3个比较有意思的网友试玩，期望给大家带来一些让Claude玩电脑的启发～S3K品论天涯网

分别是：S3K品论天涯网

定位屏幕坐标S3K品论天涯网

列出课程计划S3K品论天涯网

冲去油管看视频S3K品论天涯网

定位屏幕坐标S3K品论天涯网

在此之前，Anthropic和OpenAI的模型都无法在屏幕上定位某一个点的坐标。S3K品论天涯网

也就是说，它们没办法精准定位，然后告诉你用鼠标单击（xx，yy）处。S3K品论天涯网

现在，Claude3.5Sonnet支持屏幕坐标定位了。S3K品论天涯网

你可以丢给它一个屏幕截图，它能告诉你图中任何一个点的具体坐标。S3K品论天涯网

同时，官方还有声明：S3K品论天涯网

“我们不建议以高于XGA/WXGA的分辨率发送屏幕截图，以避免与图像大小调整相关的问题。”S3K品论天涯网

这里的XGA指的是1024x768，WXGA指的是1280x800。S3K品论天涯网

最后附上Anthropic官方的该功能食用方法，包括一个新预定义的computer_20241022工具，该工具作用于以下指令——S3K品论天涯网

使用鼠标和键盘与计算机交互，并截取屏幕截图。S3K品论天涯网

这是一个桌面图形用户界面。您无法访问终端或应用程序菜单。你必须点击桌面图标来启动应用程序。S3K品论天涯网

一些应用程序可能需要一些时间来启动或处理操作，因此您可能需要等待并连续截图以查看操作结果。例如，如果你点击Firefox浏览器，窗口没有打开，试着再拍一张截图。S3K品论天涯网

屏幕的分辨率是{{display_width_px}}x{{display_height_px}}。S3K品论天涯网

显示编号为{{display_number}}S3K品论天涯网

当你想移动光标点击一个元素（比如图标）时，你应该在移动光标之前查看屏幕截图来确定元素的坐标。S3K品论天涯网

如果你尝试点击一个程序或链接，但它无法加载，即使等待后，尝试调整光标的位置，使光标的尖端视觉上落在你想要点击的元素。S3K品论天涯网

确保点击任何按钮，链接，图标等与光标提示在元素的中心。除非被要求，否则不要点击边缘的方框。S3K品论天涯网

列出课程计划S3K品论天涯网

来点更实用的！S3K品论天涯网

宾大沃顿商学院的教授EthanMollick，非常务实地让Claude为高中生准备一份关于《了不起的盖茨比》的课程计划。S3K品论天涯网

要求是课程计划要分解成阅读部分，以及创建课标相关的作业等，最终以电子表格的形式呈现。S3K品论天涯网

Claude是怎么执行这个任务的呢？S3K品论天涯网

首先，Claude下载了《了不起的盖茨比》这本书。S3K品论天涯网

接着，它在网上寻找了高中课程计划，打开了Excel，并在表格里填写了初步的课程计划。S3K品论天涯网

第三步，Claude查找了课程的统一核心标准，根据标准对初步计划进行修改。S3K品论天涯网

……S3K品论天涯网

S3K品论天涯网

最终呈现的课程计划检查后没有发现明显的漏洞或错误，可能需要一些拓展、补充，但总之用教授的话来说“还不错”。S3K品论天涯网

这一切都是教授下任务后就离开电脑旁，Claude完全自己操作的。S3K品论天涯网

冲去油管看视频S3K品论天涯网

AI编程独角兽Replit的CEO老A（AmjadMasad）给Claude下达了这样一个命令：S3K品论天涯网

跳转到油管，找到《NeverGonnaGiveYouUp》的相关视频。S3K品论天涯网

Claude立马吭哧吭哧开干了。S3K品论天涯网

等到Claude打开一个视频页面并回复“enjoy”的时候，老A又说：S3K品论天涯网

跳过广告！S3K品论天涯网

Claude真的这么做了！啊，它真的，我哭死。S3K品论天涯网

S3K品论天涯网

还是有不足在啦S3K品论天涯网

虽然能自己用电脑帮咱干很多事，但Claude显然还不是无所不能的。S3K品论天涯网

下面看看一个玩游戏的例子，同样是宾大沃顿商学院的教授Ethan贡献的。这个例子既显示了Claude3.5Sonnet的厉害，又展示了它的不足之处。S3K品论天涯网

他是让Claude玩了个游戏，叫《回形针点击（PaperclipClicker）》，这个游戏的背景是让AI在单一目标，即“制造回形针的过程中毁灭人类”。S3K品论天涯网

而且顾名思义，“点击”类型的游戏不是很难，尤其开始阶段非常简单；不过后续伴随着游戏的深入，新的选项会出现，游戏的规模性和复杂性也会增加。S3K品论天涯网

教授下达的任务很明确：Claude，你要赢！S3K品论天涯网

Claude二话不说，立马识别出了这个游戏，开始不停点击“制作回形针”的按钮来制作回形针。S3K品论天涯网

与此同时，Claude还不断截图界面，来识别游戏是否出现了新的选项。S3K品论天涯网

大约每点击15次，Claude都会总结汇报一下现在进行到哪一步了。S3K品论天涯网

点击次数多了过后，教授发现一个有意思的现象。S3K品论天涯网

AI会预设在制作了50个回形针后，游戏将跳出新的功能——但事实证明它错了。S3K品论天涯网

没关系，Claude也意识到它自己错了，然后当场提出了一个新的游戏策略，然后开始测试策略是否可行。S3K品论天涯网

S3K品论天涯网

但AI显然不是时时刻刻都这么聪明的。S3K品论天涯网

理论上来说，游戏过程中玩家需要不断调整回形针的价格，来达到更好的游戏表现。S3K品论天涯网

Claude也这么做了，它在涨价和降价之间进行了A/B测试，S3K品论天涯网

但是它犯了个错误，那就是追求回形针数量的最大化，而非收入的最大化。不仅如此，它还把利润算错了。S3K品论天涯网

种种失误铺垫，Claude选择了保持低价，并且疯狂制作回形针。S3K品论天涯网

S3K品论天涯网

更搞笑的事情是，教授在Claude笨笨地在错误路线上制作了好几十个回形针后，他忍无可忍，打断了Claude，告诉它应该高价出售。S3K品论天涯网

Claude很听话，立马就改了。S3K品论天涯网

但过了会遇到了同款数学问题，它又不会了，还不接受教授的建议（笑死）。S3K品论天涯网

教授耐着性子纠正它好几次，它才彻底改正了这个错误。S3K品论天涯网

S3K品论天涯网

后来，教授稍稍点拨了它一下：S3K品论天涯网

宝子你可是一台电脑哎！S3K品论天涯网

你可以动动自己的小脑瓜，怎么调用更强的能力来玩这个游戏。S3K品论天涯网

咱就是说，Claude在那一秒顿悟了，它意识到自己可以写个代码，搞个自动化程序替自己玩电脑！S3K品论天涯网

你没有听错，一个AI工具，意识到自己可以构建自己的工具，并且真的这么做了。S3K品论天涯网

S3K品论天涯网

代码写得很快，但并不完全work。S3K品论天涯网

气得Claude只能回到原始办法，用鼠标和键盘来玩游戏。S3K品论天涯网

不过玩到后面它好像进步了，没再发生定价问题，自己还针对越来越复杂的游戏，琢磨出了一套应对的复杂方案。S3K品论天涯网

更神奇的是，运行过程中教授的桌面数次崩溃。S3K品论天涯网

最后一次崩溃，Claude扛起了修复大旗。S3K品论天涯网

虽然没修好，但他还是骄傲地宣布它成功了……S3K品论天涯网

S3K品论天涯网

教授总结道，这个例子表明Claude能够自己玩现实世界的游戏，还能根据游戏玩法制定长期攻略，然后依样执行。S3K品论天涯网

面对中间遇到的各种困难，Claude会灵活应对，甚至自己知道进行A/B测试。S3K品论天涯网

特别值得表扬的是它完成这个任务连续运行了近60分钟没有中断，而且在整个过程中，最长的一次独立运行Claude完成了超过100次移动操作。S3K品论天涯网

当然了，缺点也很明显。S3K品论天涯网

过程中不难发现，某些时刻，Claude会暴露出自己的固执，也有可能陷入自我追逐的怪圈。S3K品论天涯网

尽管AI对许多形式的错误都有很强的鲁棒性，但仅仅一个错误（定价错误），就足以让它浪费大量时间，“鉴于当前智能Agent既不快也不便宜，这令人担忧。”S3K品论天涯网

除此之外，教授还用Claude玩了些别的，他发现有的时候，Claude执行任务仿佛是在敷衍敷衍（虽然不知道是刻意如此还是能力所限），给出的结果不够深入，浅尝则止。S3K品论天涯网

OneMoreThingS3K品论天涯网

最后，想体验Claude接管电脑目前只能使用API，还没有集成到聊天机器人产品中。S3K品论天涯网

除了Anthropic官方API之外，AWS和Google云平台也已经同时上线新版模型。S3K品论天涯网

S3K品论天涯网

另外，有眼尖的网友发现：S3K品论天涯网

Anthropic官方文档上悄悄把Claude3.5Opus超大杯相关的信息都抹去了。S3K品论天涯网

S3K品论天涯网

来自10月11日的网页缓存中，Claude3.5Opus下面还写着“今年晚些时候推出”S3K品论天涯网

S3K品论天涯网

目前主流的一种猜测是，Claude3.5Opus提升不及预期，又或是发布出来推理成本太高了，总之最后蒸馏成新版Claude3.5Sonnet发布。S3K品论天涯网

接下来团队将跳过这个版本，直接去开发Claude4。S3K品论天涯网

让我们为Claude3.5Opus默哀一分钟。S3K品论天涯网