公开版Mythos上线 Claude最强模型开始分层发售-品论天涯网

Anthropic正式发布ClaudeFable5和ClaudeMythos5。前者面向普通用户开放，后者则继续限制在“受信任的安全合作伙伴”范围内。新模型的命名可以说很符合Claude一贯的风格。kaP品论天涯网

kaP品论天涯网

从Haiku（俳句）到Sonnet（十四行诗）再到Opus（艺术巨著），Anthropic一直在用文学和艺术概念给模型分层，到了Mythos，名字已经从文学作品膨胀到“神话”本身。kaP品论天涯网

Fable来自拉丁语fabula，意思是“被讲述之物”，和希腊语mythos同源，直译过来的话一般被称为“寓言”。这个名字正如新模型的定位，一个“Mythos级”的模型，一个“公开的神话”。kaP品论天涯网

按照Anthropic的描述，Fable5和Mythos5共享同一个底层模型，只是被装进了更适合公开分发的安全壳里。在官方给出的模型能力上，它们两个被放在同一个位置。kaP品论天涯网

kaP品论天涯网

但跑分归跑分，如果Fable和Mythos的表现完全一样，我想应该也不用分成两个名字了。kaP品论天涯网

被改写的“神话”kaP品论天涯网

神话被改写、被压缩、被加上训诫之后，变成了寓言。kaP品论天涯网

按照官方文档，Fable5是公开版本。它面向普通用户和开发者开放，但在网络安全、生物、化学以及模型蒸馏等高风险领域，会由额外的安全分类器介入。一旦系统判断请求可能涉及这些敏感方向，回答就不会由Fable5继续完成，而是自动回退到ClaudeOpus4.8。kaP品论天涯网

Mythos5基于同样的底层模型，但在部分领域解除了Fable5的护栏。Anthropic称，ProjectGlasswing里的网络安全合作伙伴可以使用“满血版”Mythos5；未来，部分生命科学研究者也可能通过受信任访问计划，使用解除生物和化学限制的版本。kaP品论天涯网

用不到的Mythos我们暂时不提，先看点实在的东西。kaP品论天涯网

首先是定价，一个字，贵。kaP品论天涯网

Fable5的定价是输入10美元/百万token，输出50美元/百万token。开发者现在就可以通过ClaudeAPI调用claude-fable-5（模型名）。kaP品论天涯网

这个价格刚好是Opus4.8的两倍，和Opus4.8的fastmode相同，Anthropic显然把它放在了比Opus更高一档的价格层级里。kaP品论天涯网

不过Anthropic称，这一价格不到此前ClaudeMythosPreview的一半——但由于MythosPreview并非公开API模型，官方并未给出面向公众的标准价，这句话也无从验证。kaP品论天涯网

订阅用户也需要注意，Fable5不一定会长期直接包含在基础订阅包里。kaP品论天涯网

Anthropic在官方说明中提到，6月23日以后，即使用户已经订阅Claude，Fable5也可能根据算力情况按量提供，不一定会直接包含在基础订阅服务中。kaP品论天涯网

这公司越来越吝啬了，不过好歹还留了小半个月试用期。官方也留了一点余地：如果6月23日以后算力资源足够，Anthropic会尽量把Fable5继续包含在Pro、Max等订阅服务里。kaP品论天涯网

kaP品论天涯网

定价高本身并非难以理解，但它最好保证它的能力配得上它的价格。kaP品论天涯网

从跑分上看，Fable5/Mythos5基本是Anthropic目前公开表里最强的一档。kaP品论天涯网

不过官方表格有一个说明，ClaudeFable5和ClaudeMythos5的分数一般只差1–3个百分点（除了带星号的网络安全、生物相关测试），所以表里显示的是两者更高的分数。这一点很难不让人想要吐槽。kaP品论天涯网

kaP品论天涯网

Anthropic把Fable5的重点放在几个方向：软件工程、知识工作、视觉、长上下文记忆和生命科学研究。kaP品论天涯网

软件工程是最突出的场景之一，根据表格，Fable/Mythos5在SWE-BenchPro上达到80.3%，明显高于Opus4.8的69.2%；在更难的FrontierCodeDiamond上，它拿到29.3%，而Opus4.8只有13.4%，GPT-5.5只有5.7%。kaP品论天涯网

kaP品论天涯网

知识工作和视觉任务上，Anthropic给出了两类证据。kaP品论天涯网

一类是标准化benchmark。官方表格显示，Fable/Mythos5在GDPval-AA上得分1932，高于Opus4.8、GPT-5.5和Gemini3.1Pro；在GDP.pdf这种带视觉理解的文档任务上，它达到29.8%，也超过其他主要模型。kaP品论天涯网

另一类是早期客户测试。Anthropic称，Fable5在Hebbia的高级金融推理基准上取得最高分，优势集中在文档推理、图表和表格理解、问题求解；IMC也反馈，它在交易分析评估中几乎全面通过。kaP品论天涯网

为了展示Fable5的视觉能力，Anthropic举的例子是：此前Claude模型需要复杂辅助工具才能玩《宝可梦火红》，而Fable5只靠视觉输入就可以通关。kaP品论天涯网

kaP品论天涯网

长任务和记忆能力上，Anthropic称，Fable5可以在数百万token的长期任务中保持专注，并利用自己的笔记改进输出。kaP品论天涯网

在《杀戮尖塔》这类需要连续决策和长期策略的游戏里，如果给Fable5接入持久文件记忆，让它能记录前面的选择和经验，它的表现会明显提升。提升幅度是Opus4.8的三倍，到达最终关卡的次数也提高了三倍。kaP品论天涯网

顺便一提，Fable也是一款经典RPG游戏的名字，中文译作《神鬼寓言》——或许某天我们能看到Fable玩《Fable》。kaP品论天涯网

另外，网络安全能力方面，Fable/Mythos5在ExploitBenchCap%上达到78.0%，超过ClaudeMythosPreview的69.0%，接近Opus4.8的两倍。kaP品论天涯网

这里用的应该是Mythos5的得分，因为Fable5在高风险请求上会回退到Opus4.8。kaP品论天涯网

强大的模型必须分层kaP品论天涯网

Anthropic这次把模型能力的直观展示放到了一个类似”作品集“的滑页里，并且每个demo只给了一小段注释。kaP品论天涯网

kaP品论天涯网

比如，Fable5写了一个太阳系模拟，从物理第一性原理推导行星轨道运动，并用它预测日食。kaP品论天涯网

kaP品论天涯网

又比如，它可以自主玩《异星工厂》。这是一款工程师很爱的工厂自动化游戏，玩家要采集资源、规划生产线、搭建物流和能源系统。kaP品论天涯网

Anthropic用这个例子说明，Fable5可以在一个开放环境里制定策略，并持续推进一个复杂系统的建设。kaP品论天涯网

kaP品论天涯网

在另一个demo里，Fable5先做了一个基于浏览器的CAD编辑器，然后又使用这个由自己开发的CAD工具，设计了一个可以3D打印的完整模型。这个编辑器里还内置了AIcopilot，用来辅助建模。kaP品论天涯网

这个demo的重点在于Fable5完成了一个闭环：先创造工具，再使用工具，最后完成一个实体设计任务。kaP品论天涯网

kaP品论天涯网

最后一个demo，Anthropic展示了一个由Fable5写出来的流体模拟，运动节奏和一段古典音乐EDMremix同步。官方还特意提到，音乐也是Fable5用代码生成的。kaP品论天涯网

kaP品论天涯网

这些案例看起来挺花哨，但意思是一样的：Fable5很擅长把代码、视觉、物理、设计和长期规划混在一起做任务。kaP品论天涯网

如果说这部分展示的还是Fable5在开发者手里能做到什么程度，后面的部分说的就是Mythos5在研究者手里能做什么——以及Anthropic为什么要把Fable和Mythos分开。kaP品论天涯网

Anthropic称，在内部蛋白设计专家的评估中，Mythos5把药物设计流程中的部分环节加速了大约10倍。其中一个案例里，Mythos5接入蛋白设计和生物信息学工具、没有人类帮助，就可以匹配甚至超过熟练人类操作员。kaP品论天涯网

在该任务中，Mythos5做的不是简单问答，而是完成一整套科学工作流：选择结合位点，选择并运行蛋白设计工具，在失败后自己恢复。官方称，在这项研究的14个蛋白靶点中，有9个产生了强候选分子，目前正在进一步研究。kaP品论天涯网

kaP品论天涯网

Anthropic还提到，Mythos5可以稳定提出新颖、有吸引力的分子生物学假设。在和Opus级模型的盲测对比中，内部科学家大约80%的时候更偏好Mythos提出的假设，其中一些已经进入实验评估。kaP品论天涯网

与此同时，Mythos5的一个关于大肠杆菌蛋白的新机制的假设，在另一家独立研究同一问题的实验室的研究中得到了证实。kaP品论天涯网

它甚至还做了一项基因组学研究。kaP品论天涯网

Anthropic称，Mythos5在一周多的时间里，几乎自主完成了一项新的基因组学研究。它整理了横跨138种动物、数百万个细胞的单细胞数据，并设计、训练了一个定制机器学习模型，用来识别不同物种中执行相同角色的细胞。kaP品论天涯网

更夸张的是，Anthropic称，Mythos5训练出的模型性能超过了近期发表在《Science》上的一个模型，尽管它的规模只有后者的百分之一。Anthropic表示，计划在未来几个月发表这些结果。kaP品论天涯网

当然，这部分还需要等待论文和外部复核。但如果只看Anthropic官方给出的信息，Mythos5在生命科学里展示的能力已经接近科研Agent：能读问题、用工具、处理数据、训练模型、提出假设，并把一项研究推进到可以发表的程度。kaP品论天涯网

而一旦模型可以在药物设计、病毒载体、蛋白设计、基因组学研究这些方向里真正推进任务，它就天然具备双重用途。kaP品论天涯网

可以认为，生命科学这部分不是Fable5的普通功能演示，而是Mythos5的能力上限展示。kaP品论天涯网

但它被展示出来，是为了说明Anthropic手里的这套底层模型，已经强到了必须通过受信任访问来分发。kaP品论天涯网

有意思的是，过去的模型发布更像是一件技术产品的事：参数、跑分、价格、上下文长度、API名称。强就是强，发布就是发布。kaP品论天涯网

但到了Mythos这里，事情开始变得复杂。同一个底层模型被分为两个版本，普通用户拿到的是Fable5，安全研究者和部分生命科学研究者拿到的是Mythos5；前者被装进更严格的护栏里，后者则需要受信任访问。kaP品论天涯网

模型能力不再只有高低之分，也开始有权限、场景和责任之分。kaP品论天涯网

某种意义上来讲，可以看作前沿模型商业化进入新阶段的信号——越强的模型，越不可能直接扔给所有人。它们会被拆成不同版本，放进不同安全边界，再交给不同类型的用户。kaP品论天涯网

Anthropic先这么做了，因为它们的模型“强到不能完全公开”。未来其它想要讲故事的公司，想要证明自己的模型也很强，或许也会效仿这种方式。kaP品论天涯网