号称“最强模型”的Mythos正式发布但Anthropic还给它装了个“护栏”-品论天涯网

望眼欲穿近两个月、在社交媒体上占尽风头的AnthropicMythos模型，今天终于正式发布了。两个月前，Anthropic说自己最强的那一类模型太危险、不能公开，只把它发给了一百多家机构。今天，这类能力对所有人开放了：公开发布的版本叫ClaudeFable5;那个真正“不设限”的Mythos5，依然只留给少数合作伙伴。换句话说，你能用上的最强Claude，是一台被加了边界的Mythos。RpT品论天涯网

RpT品论天涯网

而这道护栏的设计，比“公开发布”四个字本身更值得说:它保证安全的方式，不是拒绝你。RpT品论天涯网

Anthropic这次一口气放出两个模型:ClaudeFable5和ClaudeMythos5。它们其实是同一个底层模型，差别只有一处——安全护栏。RpT品论天涯网

Fable5套了一整套安全分类器，面向所有用户;Mythos5拆掉了其中一部分限制，只给ProjectGlasswing里的网络安全合作伙伴。RpT品论天涯网

说白了，Fable5就是一台“带护栏的Mythos”。RpT品论天涯网

和Anthropic一贯的风格一样，模型名字本身也藏了点心思。RpT品论天涯网

据Anthropic解释，Fable来自拉丁语fabula，意思是“被讲述的故事”，和希腊语里的mythos同源。两个名字指向同一件东西，区别只在于，其中一个被加上了边界。RpT品论天涯网

把时间线往回拉一下。今年四月，Anthropic启动ProjectGlasswing，第一次放出Mythos级模型(ClaudeMythosPreview)时，只给了一小撮网络安全和关键基础设施机构——到上周，这份名单扩展到十几个国家、一百多家机构。当时官方的说法是，这类模型一旦落到错误的人手里，能造成严重破坏，所以不能公开。RpT品论天涯网

RpT品论天涯网

两个月，从“太危险不能发”到“所有人都能用”。这中间发生的事，才是这次发布真正的主角。RpT品论天涯网

大多数AI的安全机制，是“拒绝”——你问一个它不该答的问题，它告诉你“抱歉，我不能帮你”。RpT品论天涯网

Fable5换了个思路。安全不是靠它学会拒绝，而是在危险时把它换掉。RpT品论天涯网

具体来说，Fable5背后挂着一组独立的分类器。RpT品论天涯网

当这组分类器判断你的请求落在三个高风险领域——网络攻击、生物化学武器、以及模型蒸馏(指把一个模型的能力“偷”出来，去训练自己的模型)——它不会让Fable5来回答，而是悄悄把这道题转交给Opus4.8，同时告诉你:刚才发生了一次降级。RpT品论天涯网

这个设计有意思的地方在于，它把“安全”和“能力”拆成了两件事。你买的是Mythos级别的能力，但在最危险的那三个领域，你其实是在跟Opus说话。Anthropic自己的说法是，降级到Opus4.8的体验，总比被Fable直接拒绝要好——毕竟Opus4.8本身也是个相当强的模型。RpT品论天涯网

RpT品论天涯网

Anthropic给出的数据是，超过95%的对话根本不会触发降级。换句话说，对绝大多数人来说，你用到的Fable5，和合作伙伴手里那个“完全体”Mythos5，体验几乎没有区别。RpT品论天涯网

那这套护栏结实吗?Anthropic说，他们做了超过一千小时的外部红队测试，没有人找到能绕过它的“通用越狱”方法(指一种能让模型彻底无视所有安全限制的万能手段)。RpT品论天涯网

当然他们也留了余地:完全杜绝越狱大概是不可能的，目标只是让任何漏洞都“慢到、贵到”来不及被大规模利用。RpT品论天涯网

但这套机制有代价，而且Anthropic自己先说了出来:分类器现在调得偏严，会误伤正常请求。一个研究病毒的生物学家，一个做渗透测试的安全工程师，都可能在合理的工作里被莫名其妙地“降级”。官方承认这会让一些用户感到烦躁，承诺后续慢慢收窄、降低误报。RpT品论天涯网

我把这件事想了一会儿，觉得它其实是一个挺聪明、也挺无奈的折中。聪明在于，它没有在“发”和“不发”之间二选一，而是在能力上切了一刀;无奈在于，这一刀切得并不精准——为了赶在出事之前先上线，Anthropic宁可错杀，不肯漏过。RpT品论天涯网

强到危险，才配得上这套护栏RpT品论天涯网

聊了半天安全，你可能会问:它到底强到什么程度，值得这么如临大敌?RpT品论天涯网

基准测试我本来想跳过——跑分这东西看多了会麻木，何况Anthropic列了一长串，几乎项项第一。RpT品论天涯网

最唬人的一个来自Stripe。据Anthropic披露，Stripe在一个五千万行的Ruby代码库上，用Fable5做了一次全库迁移，一天完成——而这件事，原本要一整个团队手工干两个多月。更关键的是效率:在Cognition的FrontierCode编程测试里，Fable5在“中等算力消耗”下就拿到了最高分，Token效率比以前的Claude明显更好。RpT品论天涯网

这也解释了为什么Anthropic反复强调Token效率——一个能连续自主工作很久、动辄消耗上百万Token的模型，如果还很“废话”，成本会高到没人用得起。RpT品论天涯网

视觉这块的进步更直观。以前的Claude玩宝可梦火红版，得靠一整套辅助工具链才能磕磕绊绊地推进;Fable5只用最基础的视觉接口，就自己通关了。它还能仅凭几张截图，把一个Web应用的源代码还原出来。RpT品论天涯网

Anthropic内部的蛋白质设计专家，用Mythos5把药物设计流程中的部分环节，加速了大约十倍。第二个更夸张:在一项基因组学研究里，Mythos5在几乎完全自主的状态下连续工作了一周多，自己训练出了一个机器学习模型——这个模型的表现，超过了发表在《Science》上的同类模型，而它的体量，只有后者的百分之一。RpT品论天涯网

当一个模型能独立做完一周的科研，还做得比人类发在顶刊上的成果更好，“它会不会被用来设计病毒”就不再是杞人忧天。这正是Anthropic给生物化学领域单独上锁的原因——同一种能力，在研究者手里是解药，换一双手可能就是别的东西。RpT品论天涯网

RpT品论天涯网

能力和危险，在这里是同一件事的两面。护栏不是因为这个模型不行才加的，恰恰是因为它太行了。RpT品论天涯网

可以看出，Anthropic把Mythos形容成一个需要全程看管的危险品。但官方口径之外，也有不一样的声音。RpT品论天涯网

一位ID为@zekramu的X用户，自称参与了Mythos的企业试点，最近发帖分享了用整整一天之后的感受——他的描述，和发布会上的叙事并不完全一致。RpT品论天涯网

据他说，Mythos确实强，尤其在安全研究类任务上，明显比Opus和GPT-5.5的最高配更能打，像是专门冲着这类活儿调过的。但“强”和“威胁人类”是两码事。他举了个细节:这个被官方说得神乎其神的模型，在他们公司一套基于Bazel(一种代码构建工具)、又改了不少自定义逻辑的流程面前卡了壳，最后还得他先把代码编译好，再让模型去跑。RpT品论天涯网

RpT品论天涯网

更耐人寻味的是护栏本身。据他描述，Anthropic随模型一起发来的，不是大家熟悉的ClaudeCode，而是一套专门用来“防止模型逃逸”的运行环境——所谓ProjectGlasswing，在他看来很大程度上就是这套沙箱。但他觉得这套环境做得相当粗糙，甚至怀疑其中一部分限制根本没真正生效;他还称自己绕开了官方设下的边界，在沙箱之外跑过这个模型。RpT品论天涯网

至于战绩，他说Mythos在他们的产品里揪出了大量此前没被发现的安全漏洞，多到足以让团队重新掂量自己的安全策略。RpT品论天涯网

他的结论很值得玩味:这模型在安全攻防上确实有两把刷子，但在他眼里，它更像一个极其昂贵、极其专精的工具，而不是Anthropic暗示的那种“悬在所有人头顶”的存在。RpT品论天涯网

说回普通人最关心的事:多少钱，什么时候能用。RpT品论天涯网

价格上，Fable5和Mythos5的API定价是每百万输入Token10美元、输出50美元。横向比一下就有意思了:比起MythosPreview的25/125美元，降了六成;但比Opus4.8的5/25美元，整整贵了一倍;和OpenAI的GPT-5.5(5/30美元)相比，输入贵一倍，输出贵约六成七。RpT品论天涯网

RpT品论天涯网

换句话说，它是迄今最强的Claude，也是最贵的Claude模型之一。强，但不便宜。RpT品论天涯网

前面提到的@zekramu也算个旁证:据他估算，光是企业试点阶段的投入，就到了数百万美元级别;“太贵”是他反复念叨的一句话。RpT品论天涯网

RpT品论天涯网

订阅用户还得留意一个时间窗口。从今天到6月22日，Pro、Max、Team和企业版用户可以免费用Fable5;6月23日起，继续用就得额外买usagecredits了。RpT品论天涯网

Anthropic说，等产能跟上，会把Fable5重新做成订阅标配——但没给具体时间。API和按量付费的企业客户不受这个节奏影响，今天起照常调用。RpT品论天涯网

这个略显别扭的“先免费、再收费、以后再说”，其实透露了一个信号:产能不够。Anthropic自己也承认，预计Fable5的需求会“非常高、很难预测”。一个对所有人开放的最强模型，先得过算力这一关。RpT品论天涯网

而这次发布里，真正容易被划过去、却最值得停下来看的，是另一条政策。RpT品论天涯网

从Fable5开始，所有Mythos级模型的流量都会被强制保留30天，覆盖第一方和第三方平台。RpT品论天涯网

Anthropic承诺不拿这些数据训练模型，只用于安全监控，比如识别新型越狱、以及那种分散在很多次请求里、单看每一条都正常的复杂攻击。为此他们也加了新的隐私保护:记录每一次人工访问、30天后基本全部删除。RpT品论天涯网

听上去合情合理。但对那些当初正是冲着“零数据保留”才选择Anthropic的企业客户来说，这是一个需要重新评估的变化。RpT品论天涯网

你用最强模型的代价，不只是更贵的账单，还包括:你的数据，会在Anthropic的服务器上多待一个月。RpT品论天涯网

安全和隐私，在这里被摆上了同一张天平。而Anthropic给出的答案是:为了防住前所未有的攻击，得先把所有人的流量都看上30天。这笔账划不划算，恐怕每家公司得自己算。RpT品论天涯网

把这些放在一起看，Fable5真正的新意，也许不在它有多强，而在Anthropic趟出了一条新路——怎么把一个危险到不敢公开的能力，拆成一个所有人都能用的产品。RpT品论天涯网

办法是:用分类器在能力上切一刀，用降级代替拒绝，再用30天的留存，当作兜底的监控网。RpT品论天涯网

它不完美。会误伤，会变贵，会让一部分人对自己的数据多一层顾虑。但它至少回答了一个所有前沿实验室迟早都要面对的问题:当你手里的东西强到足以伤人，你是把它锁进只有少数人能进的房间，还是给它装上一道足够结实的护栏，再交到所有人手里?RpT品论天涯网

Anthropic选了后者。RpT品论天涯网

RpT品论天涯网

至于这道护栏到底够不够结实——这一次，替它做压力测试的，不再是那一百多家机构，而是所有人。RpT品论天涯网

号称“最强模型”的Mythos正式发布 但Anthropic还给它装了个“护栏”

号称“最强模型”的Mythos正式发布但Anthropic还给它装了个“护栏”