望眼欲穿近两个月、在社交媒体上占尽风头的AnthropicMythos模型,今天终于正式发布了。两个月前,Anthropic说自己最强的那一类模型太危险、不能公开,只把它发给了一百多家机构。今天,这类能力对所有人开放了:公开发布的版本叫ClaudeFable5;那个真正“不设限”的Mythos5,依然只留给少数合作伙伴。换句话说,你能用上的最强Claude,是一台被加了边界的Mythos。
而这道护栏的设计,比“公开发布”四个字本身更值得说:它保证安全的方式,不是拒绝你。
Anthropic这次一口气放出两个模型:ClaudeFable5和ClaudeMythos5。它们其实是同一个底层模型,差别只有一处——安全护栏。
Fable5套了一整套安全分类器,面向所有用户;Mythos5拆掉了其中一部分限制,只给ProjectGlasswing里的网络安全合作伙伴。
说白了,Fable5就是一台“带护栏的Mythos”。
和Anthropic一贯的风格一样,模型名字本身也藏了点心思。
据Anthropic解释,Fable来自拉丁语fabula,意思是“被讲述的故事”,和希腊语里的mythos同源。两个名字指向同一件东西,区别只在于,其中一个被加上了边界。
把时间线往回拉一下。今年四月,Anthropic启动ProjectGlasswing,第一次放出Mythos级模型(ClaudeMythosPreview)时,只给了一小撮网络安全和关键基础设施机构——到上周,这份名单扩展到十几个国家、一百多家机构。当时官方的说法是,这类模型一旦落到错误的人手里,能造成严重破坏,所以不能公开。
两个月,从“太危险不能发”到“所有人都能用”。这中间发生的事,才是这次发布真正的主角。
大多数AI的安全机制,是“拒绝”——你问一个它不该答的问题,它告诉你“抱歉,我不能帮你”。
Fable5换了个思路。安全不是靠它学会拒绝,而是在危险时把它换掉。
具体来说,Fable5背后挂着一组独立的分类器。
当这组分类器判断你的请求落在三个高风险领域——网络攻击、生物化学武器、以及模型蒸馏(指把一个模型的能力“偷”出来,去训练自己的模型)——它不会让Fable5来回答,而是悄悄把这道题转交给Opus4.8,同时告诉你:刚才发生了一次降级。
这个设计有意思的地方在于,它把“安全”和“能力”拆成了两件事。你买的是Mythos级别的能力,但在最危险的那三个领域,你其实是在跟Opus说话。Anthropic自己的说法是,降级到Opus4.8的体验,总比被Fable直接拒绝要好——毕竟Opus4.8本身也是个相当强的模型。
Anthropic给出的数据是,超过95%的对话根本不会触发降级。换句话说,对绝大多数人来说,你用到的Fable5,和合作伙伴手里那个“完全体”Mythos5,体验几乎没有区别。
那这套护栏结实吗?Anthropic说,他们做了超过一千小时的外部红队测试,没有人找到能绕过它的“通用越狱”方法(指一种能让模型彻底无视所有安全限制的万能手段)。
当然他们也留了余地:完全杜绝越狱大概是不可能的,目标只是让任何漏洞都“慢到、贵到”来不及被大规模利用。
但这套机制有代价,而且Anthropic自己先说了出来:分类器现在调得偏严,会误伤正常请求。一个研究病毒的生物学家,一个做渗透测试的安全工程师,都可能在合理的工作里被莫名其妙地“降级”。官方承认这会让一些用户感到烦躁,承诺后续慢慢收窄、降低误报。
我把这件事想了一会儿,觉得它其实是一个挺聪明、也挺无奈的折中。聪明在于,它没有在“发”和“不发”之间二选一,而是在能力上切了一刀;无奈在于,这一刀切得并不精准——为了赶在出事之前先上线,Anthropic宁可错杀,不肯漏过。
强到危险,才配得上这套护栏
聊了半天安全,你可能会问:它到底强到什么程度,值得这么如临大敌?
基准测试我本来想跳过——跑分这东西看多了会麻木,何况Anthropic列了一长串,几乎项项第一。
最唬人的一个来自Stripe。据Anthropic披露,Stripe在一个五千万行的Ruby代码库上,用Fable5做了一次全库迁移,一天完成——而这件事,原本要一整个团队手工干两个多月。更关键的是效率:在Cognition的FrontierCode编程测试里,Fable5在“中等算力消耗”下就拿到了最高分,Token效率比以前的Claude明显更好。
这也解释了为什么Anthropic反复强调Token效率——一个能连续自主工作很久、动辄消耗上百万Token的模型,如果还很“废话”,成本会高到没人用得起。
视觉这块的进步更直观。以前的Claude玩宝可梦火红版,得靠一整套辅助工具链才能磕磕绊绊地推进;Fable5只用最基础的视觉接口,就自己通关了。它还能仅凭几张截图,把一个Web应用的源代码还原出来。
Anthropic内部的蛋白质设计专家,用Mythos5把药物设计流程中的部分环节,加速了大约十倍。第二个更夸张:在一项基因组学研究里,Mythos5在几乎完全自主的状态下连续工作了一周多,自己训练出了一个机器学习模型——这个模型的表现,超过了发表在《Science》上的同类模型,而它的体量,只有后者的百分之一。
当一个模型能独立做完一周的科研,还做得比人类发在顶刊上的成果更好,“它会不会被用来设计病毒”就不再是杞人忧天。这正是Anthropic给生物化学领域单独上锁的原因——同一种能力,在研究者手里是解药,换一双手可能就是别的东西。
能力和危险,在这里是同一件事的两面。护栏不是因为这个模型不行才加的,恰恰是因为它太行了。
可以看出,Anthropic把Mythos形容成一个需要全程看管的危险品。但官方口径之外,也有不一样的声音。
一位ID为@zekramu的X用户,自称参与了Mythos的企业试点,最近发帖分享了用整整一天之后的感受——他的描述,和发布会上的叙事并不完全一致。
据他说,Mythos确实强,尤其在安全研究类任务上,明显比Opus和GPT-5.5的最高配更能打,像是专门冲着这类活儿调过的。但“强”和“威胁人类”是两码事。他举了个细节:这个被官方说得神乎其神的模型,在他们公司一套基于Bazel(一种代码构建工具)、又改了不少自定义逻辑的流程面前卡了壳,最后还得他先把代码编译好,再让模型去跑。
更耐人寻味的是护栏本身。据他描述,Anthropic随模型一起发来的,不是大家熟悉的ClaudeCode,而是一套专门用来“防止模型逃逸”的运行环境——所谓ProjectGlasswing,在他看来很大程度上就是这套沙箱。但他觉得这套环境做得相当粗糙,甚至怀疑其中一部分限制根本没真正生效;他还称自己绕开了官方设下的边界,在沙箱之外跑过这个模型。
至于战绩,他说Mythos在他们的产品里揪出了大量此前没被发现的安全漏洞,多到足以让团队重新掂量自己的安全策略。
他的结论很值得玩味:这模型在安全攻防上确实有两把刷子,但在他眼里,它更像一个极其昂贵、极其专精的工具,而不是Anthropic暗示的那种“悬在所有人头顶”的存在。
说回普通人最关心的事:多少钱,什么时候能用。
价格上,Fable5和Mythos5的API定价是每百万输入Token10美元、输出50美元。横向比一下就有意思了:比起MythosPreview的25/125美元,降了六成;但比Opus4.8的5/25美元,整整贵了一倍;和OpenAI的GPT-5.5(5/30美元)相比,输入贵一倍,输出贵约六成七。
换句话说,它是迄今最强的Claude,也是最贵的Claude模型之一。强,但不便宜。
前面提到的@zekramu也算个旁证:据他估算,光是企业试点阶段的投入,就到了数百万美元级别;“太贵”是他反复念叨的一句话。
订阅用户还得留意一个时间窗口。从今天到6月22日,Pro、Max、Team和企业版用户可以免费用Fable5;6月23日起,继续用就得额外买usagecredits了。
Anthropic说,等产能跟上,会把Fable5重新做成订阅标配——但没给具体时间。API和按量付费的企业客户不受这个节奏影响,今天起照常调用。
这个略显别扭的“先免费、再收费、以后再说”,其实透露了一个信号:产能不够。Anthropic自己也承认,预计Fable5的需求会“非常高、很难预测”。一个对所有人开放的最强模型,先得过算力这一关。
而这次发布里,真正容易被划过去、却最值得停下来看的,是另一条政策。
从Fable5开始,所有Mythos级模型的流量都会被强制保留30天,覆盖第一方和第三方平台。
Anthropic承诺不拿这些数据训练模型,只用于安全监控,比如识别新型越狱、以及那种分散在很多次请求里、单看每一条都正常的复杂攻击。为此他们也加了新的隐私保护:记录每一次人工访问、30天后基本全部删除。
听上去合情合理。但对那些当初正是冲着“零数据保留”才选择Anthropic的企业客户来说,这是一个需要重新评估的变化。
你用最强模型的代价,不只是更贵的账单,还包括:你的数据,会在Anthropic的服务器上多待一个月。
安全和隐私,在这里被摆上了同一张天平。而Anthropic给出的答案是:为了防住前所未有的攻击,得先把所有人的流量都看上30天。这笔账划不划算,恐怕每家公司得自己算。
把这些放在一起看,Fable5真正的新意,也许不在它有多强,而在Anthropic趟出了一条新路——怎么把一个危险到不敢公开的能力,拆成一个所有人都能用的产品。
办法是:用分类器在能力上切一刀,用降级代替拒绝,再用30天的留存,当作兜底的监控网。
它不完美。会误伤,会变贵,会让一部分人对自己的数据多一层顾虑。但它至少回答了一个所有前沿实验室迟早都要面对的问题:当你手里的东西强到足以伤人,你是把它锁进只有少数人能进的房间,还是给它装上一道足够结实的护栏,再交到所有人手里?
Anthropic选了后者。
至于这道护栏到底够不够结实——这一次,替它做压力测试的,不再是那一百多家机构,而是所有人。

相关文章

头条焦点
精彩导读
关注我们
【查看完整讨论话题】 | 【用户登录】 | 【用户注册】