Anthropic正在发布Claude3.7Sonnet,这是其首个"混合推理模型",可以解决更复杂的问题,在数学和编程等领域的表现优于之前的模型。除了新模型,Anthropic还发布了其名为ClaudeCode的"代理"编程工具的"有限研究预览版"。
虽然Anthropic已经为Cursor等人工智能编程工具提供了支持,但它将ClaudeCode称作"一个活跃的协作者,可以搜索和读取代码、编辑文件、编写和运行测试、提交代码并将其推送到GitHub,还可以使用命令行工具。"
Claude3.7Sonnet从周一开始在Claude应用程序中提供,开发者也可以通过Anthropic的API、亚马逊Bedrock和Google云的VertixAI使用。该模型的运行成本与其前身3.5Sonnet相同,每百万输入词元3美元,每百万输出词元15美元。
虽然OpenAI和其他公司提供了独立的所谓推理模型,但Anthropic产品研究负责人DiannePenn介绍说,公司希望简化模型的使用体验。她说:"我们从根本上认为,推理是人工智能的一项功能,而不是一个完全独立的东西。"她指出,Claude回答"现在几点了?"这个问题应该不会花很长时间,而回答"计划去意大利旅行两周,同时考虑三月底的天气"这样更复杂的提示则需要很长时间。
Claude3.7Sonnet在"代理编程"、金融和法律任务方面的表现明显更好。虽然Claude仍然缺乏像其他模型那样的实时网络搜索,但3.7版本的知识截止日期为2024年10月。Anthropic公司还允许开发人员通过抓取板帮助引导模型如何"思考",甚至可以精确地决定模型做出反应所需的时间。
Anthropic公司的产品副总裁迈克尔-格斯滕哈伯(MichaelGerstenhaber)说:"有时候,开发人员只需要说,回答这个问题的时间不应该超过200毫秒。这就是产品决策。在Anthropic内部,员工们已经使用新模式构建前端网站设计、互动游戏,甚至通过建立测试集和来回迭代编辑测试用例,花费长达45分钟的时间进行编程工作,"佩恩说。
她说,公司还通过将模型的API映射到控制器方案,测试模型在旧版《神奇宝贝》游戏中的前进能力。Claude3.5Sonnet在游戏开始时无法走出Pallet镇,而3.7版本却能打败多个健身房的领导者。
正如埃隆-马斯克上周在《Grok-3》中展示的那样,人工智能模型竞赛的发展速度令人难以置信。目前,由于Claude3.7Sonnet性能的提升,Anthropic似乎再次处于领先地位。Anthropic的发布也表明,业界正朝着一个模型能做所有事情的方向发展,而不是提供独立的推理模型。
【查看完整讨论话题】 | 【用户登录】 | 【用户注册】