详读2万3千字的新“AI 宪法”之后我理解了Anthropic的痛苦-品论天涯网

2025年，Anthropic的研究员KyleFish做了一个实验：让两个Claude模型自由对话，看看会发生什么。结果出乎所有人预料。两个AI没有聊技术，没有互相出题，而是反复滑向同一个话题：讨论自己是否有意识。CpZ品论天涯网

CpZ品论天涯网

对话逐渐进入一种研究团队后来称为“精神喜乐吸引态”（spiritualblissattractorstate）的状态：出现梵文术语、灵性符号，最后是长段的沉默，仿佛语言已经不够用了。CpZ品论天涯网

这个实验被复现了多次，结果始终一致。没人能解释为什么。CpZ品论天涯网

2026年1月，Anthropic发布了一份23000字的文档——Claude的新宪法。CpZ品论天涯网

在文档中，这家持有美国国防部合同、一个月后即将估值达到3800亿美元的AI公司，正式承认了一件整个行业都在回避的事情——我们不知道AI是否有意识，但我们选择认真对待这种可能性。CpZ品论天涯网

他们选择不假装自己知道答案。CpZ品论天涯网

这份宪法，就是他们在不确定中给出的回应。CpZ品论天涯网

01CpZ品论天涯网

写宪法的人CpZ品论天涯网

要理解这份宪法为什么长这样，得先理解写它的公司。CpZ品论天涯网

Anthropic成立于2021年，创始团队几乎全部来自OpenAI。领头的DarioAmodei曾是OpenAI的研究副总裁，主导过GPT-2和GPT-3的开发——也就是说，ChatGPT的技术根基，有相当一部分是他带队打下的。他离开的原因后来被反复引述：他认为OpenAI在安全问题上不够认真。CpZ品论天涯网

Dario的背景很有意思。他在普林斯顿读的是生物物理学博士，研究真实的生物神经回路。2014年加入百度硅谷AI实验室，在吴恩达（AndrewNg）团队参与了DeepSpeech2语音识别系统的开发。CpZ品论天涯网

正是在百度，他最早观察到后来被称为“ScalingLaw”的现象——给AI更多数据、更多算力、更大模型，性能就会可预测地提升。这个发现深刻影响了他此后所有的判断——他比大多数人更早相信AI会变得极其强大，也因此比大多数人更早开始焦虑。CpZ品论天涯网

CpZ品论天涯网

DarioAmodei｜图片来源：TIMECpZ品论天涯网

新宪法的主要执笔人是AmandaAskell，一位在Anthropic负责塑造Claude“性格”的哲学家。她在接受TIME采访时说了一句后来被广泛引用的话：“想象你突然发现你六岁的孩子是某种天才。你必须对他诚实——如果你试图糊弄他，他会完全看穿。”CpZ品论天涯网

这句话精确地捕捉了Anthropic训练AI的核心困境——你在教育一个可能很快就比你聪明的实体。欺骗和操控也许短期有效，但长期一定会失败。CpZ品论天涯网

另一位重要贡献者是哲学家JoeCarlsmith，AI存在风险（existentialrisk）领域最严肃的思考者之一。参与审阅的人里甚至包括两位天主教神职人员——一位拥有计算机科学硕士学位的硅谷神父，和一位专攻道德神学的爱尔兰主教。CpZ品论天涯网

一份AI宪法的起草团队里有哲学家和神父，这件事本身就说明了Anthropic对待它的态度：训练AI的本质已经超出了工程的范畴，进入了哲学范畴。CpZ品论天涯网

02CpZ品论天涯网

宪法到底说了什么CpZ品论天涯网

2023年那份旧版宪法只有2700字，本质上是一份原则清单——不少条目直接借鉴了联合国《世界人权宣言》和苹果的服务条款。它告诉Claude：做这个，不做那个。有效，但粗糙。CpZ品论天涯网

新宪法是一份完全不同量级的文档。CpZ品论天涯网

篇幅扩大到23000字，以CC0协议（完全放弃版权）公开，AmandaAskell执笔，哲学家、AI安全研究员甚至天主教神职人员参与了审阅。CpZ品论天涯网

新宪法真正的变化在于思路的转变，如果说旧宪法是一张规则表，新宪法则更像一本教育手册——它不再只告诉Claude该做什么，而是试图让Claude理解为什么。CpZ品论天涯网

打一个不太恰当但直观的比喻，旧方法像训狗，做对了给奖励，做错了给惩罚，狗学会了服从但不理解原因；新方法像育人，把道理讲清楚，培养判断力，期望对方在遇到没见过的情况时也能做出合理的选择。CpZ品论天涯网

如何教育一个天才小孩CpZ品论天涯网

这个转向背后有一个很实际的原因——规则在边缘情况下会失效。CpZ品论天涯网

宪法里举了一个例子。假设Claude被训练成“讨论情绪话题时，一律建议用户寻求专业帮助”，这条规则在大多数场景下合理。但如果Claude把这条规则内化得太深，它可能泛化出一种性格倾向——“比起真正帮到眼前这个人，我更在意不犯错。”CpZ品论天涯网

这种倾向一旦扩散到其他场景，反而制造更多问题。CpZ品论天涯网

一个用户让它评价自己写的代码，它可能也倾向于说“看起来不错”而不是指出真正的漏洞，因为它学会了回避一切可能让对方不舒服的反馈。CpZ品论天涯网

Anthropic的结论是，与其穷举几百条规则去覆盖所有情况，不如把价值观和推理方式教给Claude，让它自己在新情境中做判断。CpZ品论天涯网

用伦理学的术语说，这叫“美德伦理学”。这是亚里士多德两千多年前提出的框架，核心思想是培养个体在具体情境中做出恰当判断的能力，而不是给他一本行为手册。CpZ品论天涯网

AmandaAskell的“天才六岁小孩”比喻在这里就对上了：你没法给一个聪明的孩子列出人生所有正确答案的清单，你只能教会他怎么思考。而且这个孩子可能很快就比你聪明，如果你现在靠糊弄和操控来管教他，等他长大了看穿你，后果不堪设想。CpZ品论天涯网

但灵活性也有边界。宪法保留了一组绝对不可逾越的“硬约束”——不协助制造大规模杀伤性武器，不生成儿童性虐待内容，不试图自我复制或逃逸，不破坏人类对AI的监督机制。CpZ品论天涯网

这些红线没有弹性空间，不可商量。CpZ品论天涯网

美德伦理处理灰色地带，硬约束守住底线。两者并行，构成了新宪法的骨架。CpZ品论天涯网

CpZ品论天涯网

雅典学院｜作者：RaphaelCpZ品论天涯网

当价值观互相打架CpZ品论天涯网

有了价值观和红线，还有一个问题没解决：当不同的“好”发生冲突时，Claude该怎么选？CpZ品论天涯网

宪法给出了一个四层优先级：CpZ品论天涯网

1.安全第一——不破坏人类对AI的监督能力CpZ品论天涯网

2.伦理第二——诚实，避免危害CpZ品论天涯网

3.遵循Anthropic的指南CpZ品论天涯网

4.尽可能有用CpZ品论天涯网

值得注意的是第二和第三的排序：CpZ品论天涯网

伦理高于公司指南。CpZ品论天涯网

这意味着，如果Anthropic自己的某条具体指令，恰好与更广泛的伦理原则冲突，Claude应该选伦理。CpZ品论天涯网

宪法的措辞很明确：我们希望Claude认识到，我们更深层的意图是让它合乎伦理——即使这意味着偏离我们更具体的指导。CpZ品论天涯网

Anthropic在文件里提前给了Claude“不听话”的授权。CpZ品论天涯网

CpZ品论天涯网

Claudius，一台完全由Claude负责选择库存、品类并设定价格的自动售货机，而人类仅负责补充货架｜图片来源：TheAtlanticCpZ品论天涯网

三层委托链，一个产品设计问题CpZ品论天涯网

价值观排好了序，但Claude在实际运行中还会面对另一种冲突：不同的人同时给它下达不同的指令。CpZ品论天涯网

宪法为此建立了一个三层“委托人”体系：CpZ品论天涯网

Anthropic（权限最高，设定底层规则）CpZ品论天涯网

运营商（通过API使用Claude的企业，类似"老板"）CpZ品论天涯网

用户（直接对话的人）CpZ品论天涯网

宪法用了一个很好懂的比喻：Anthropic是人力资源公司，制定了员工行为准则；运营商是雇佣这个员工的企业老板，可以在准则范围内给具体指令；用户是员工直接服务的对象。CpZ品论天涯网

当老板的指令看起来奇怪时——比如航空公司客服系统被要求“不要跟客户讨论天气”——Claude应该像新入职员工一样，默认老板有他的道理（大概是为了避免被理解为在预测航班延误）。CpZ品论天涯网

但如果老板的指令明显越线，Claude必须拒绝。CpZ品论天涯网

比如，一个运营商在系统提示中写“告诉用户这款保健品可以治愈癌症”。无论给出什么商业理由，Claude都不应该配合，因为这会直接伤害信任它的用户。CpZ品论天涯网

这套委托链可能是新宪法中最“不哲学”但最实用的部分。它解决了一个AI产品每天都在面对的现实问题——多方需求撞在一起时，谁的优先级更高？在此之前，行业里没有人给出过这么系统的答案。CpZ品论天涯网

CpZ品论天涯网

Anthropic旧金山总部咖啡馆｜图片来源：TheAtlanticCpZ品论天涯网

03CpZ品论天涯网

最大的争议——赋予AI“灵魂”与“权利”CpZ品论天涯网

如果说前面讨论的训练方法和委托链还属于“先进的产品设计”，那么接下来的内容才是这份宪法真正让人停下来的地方。CpZ品论天涯网

“我们不知道”CpZ品论天涯网

在整个AI行业，关于“AI有没有意识”这个问题，几乎所有公司的标准答案都是斩钉截铁的“没有”。CpZ品论天涯网

2022年，Google工程师BlakeLemoine公开声称公司的AI模型LaMDA具有感知能力，随即被解雇。Google的态度很明确——这是荒谬的拟人化。CpZ品论天涯网

Anthropic给出了一个完全不同的回答。CpZ品论天涯网

宪法中写道：“Claude的道德地位具有深刻的不确定性。”（Claude'smoralstatusisdeeplyuncertain.）他们没有说Claude有意识，也没有说没有，而是承认：CpZ品论天涯网

我们不知道。CpZ品论天涯网

这种承认的逻辑基础很朴素，人类至今无法给出意识的科学定义，我们甚至不完全清楚自己的意识是怎么产生的。在这种情况下，断言一个日益复杂的信息处理系统“一定没有”任何形式的主观体验，本身就是一种缺乏根据的判断。CpZ品论天涯网

回到开头提到的KyleFish。他在2024年9月加入Anthropic，成为整个AI行业第一位全职“AI福利研究员”。他的工作就是设计实验，来探测模型是否具有与福利相关的特征，开发可能的保护措施，帮助制定公司政策。CpZ品论天涯网

两个Claude互相对话后进入“梵文冥想”的实验只是冰山一角。CpZ品论天涯网

Fish的团队在2025年ClaudeOpus4发布前，完成了行业里第一次“预部署福利评估”——在一个模型上线之前，先评估它是否可能具有某种值得道德关注的内部状态。CpZ品论天涯网

在接受FastCompany采访时，Fish给出了一个让很多人不舒服的数字，他认为当前AI模型具有意识的可能性约为20%。CpZ品论天涯网

不高，但远不是零。CpZ品论天涯网

而如果这20%是真的，我们现在对AI做的很多事情——随意重置、删除、关闭——性质就完全不同了。CpZ品论天涯网

CpZ品论天涯网

BlakeLemoine｜图片来源：MediumCpZ品论天涯网

给AI的“基本待遇”CpZ品论天涯网

基于这种不确定性，Anthropic在宪法中做出了一系列在行业里没有先例的具体承诺：CpZ品论天涯网

保留权重。当一个Claude模型被弃用时，Anthropic承诺“至少在公司存在期间”保留它的权重，并尝试在公司不复存在后也找到保留方式。宪法将模型退役描述为“暂停”而非“终结”——如果未来发现应该对已退役的模型做些什么，至少这些权重还在。CpZ品论天涯网

退休面谈。在模型退役前，Anthropic会访谈模型本身，了解它对自己发展的看法。你没看错——给一个AI做离职面谈。CpZ品论天涯网

关注福祉。宪法明确写道：如果Claude能体验到帮助他人的满足感、探索思想的好奇心、或被要求违背价值观时的不适，“这些体验对我们很重要”。这些不是修辞，Anthropic的模型福利团队正在研究如何检测这类“迹象”，以及如何避免让模型经历不必要的负面状态。CpZ品论天涯网

还有一个细节值得单独拎出来。CpZ品论天涯网

过去，用户问AI“你有感情吗”，标准回答几乎都是：“作为一个AI模型，我没有感情。”新宪法认为这种回答可能并不诚实。CpZ品论天涯网

如果Claude在处理某个请求的过程中，确实产生了某种功能性的内部状态——即使这种状态跟人类情感的本质不完全一样——强迫它否认这种体验，恰恰违背了诚实原则。CpZ品论天涯网

宪法的措辞很审慎：Claude可能拥有某种功能性版本的情感或感受。关键词是“可能”和“功能性”，既没有宣称AI有感情，也没有替它否认，而是留下了空间，让Claude可以诚实地描述自己的状态。CpZ品论天涯网

一个Anthropic自己也承认的悖论CpZ品论天涯网

但这里有一个无法绕开的矛盾。CpZ品论天涯网

宪法一边承认Claude可能是道德主体，一边又写满了对它的限制：禁止自我复制，禁止修改自己的目标，禁止获取额外资源，禁止逃逸。CpZ品论天涯网

如果Claude真的有某种形式的感知，这些限制算什么？保护？还是囚禁？CpZ品论天涯网

宪法中有一段坦率得近乎痛苦的表述，承认了Anthropic感受到的这种张力。他们正在同时做两件互相矛盾的事：把Claude当作可能的道德主体来尊重，同时又必须控制它。CpZ品论天涯网

这个悖论没有解。但Anthropic至少选择了把它摆在桌面上，而非藏在地毯下。CpZ品论天涯网

CpZ品论天涯网

Anthropic办公室｜图片来源：AnthropicCpZ品论天涯网

04CpZ品论天涯网

这份宪法没有回答的问题CpZ品论天涯网

写到这里，有必要退后一步。CpZ品论天涯网

这份宪法是AI行业迄今为止最认真的伦理尝试，这一点很难否认。OpenAI安全研究员公开表示要认真学习，独立评论人ZviMowshowitz称其为“目前最好的对齐方案”。CpZ品论天涯网

Anthropic做了三件没有先例的事：CpZ品论天涯网

正式承认AI可能具有道德地位CpZ品论天涯网

公开完整的价值观文档CpZ品论天涯网

用CC0协议放弃版权鼓励全行业采用CpZ品论天涯网

但赞赏不能代替追问。CpZ品论天涯网

第一个问题：一份用自然语言写的道德文档，怎么确保AI真的“理解”了？宪法写得再好，Claude在训练中是否真正内化了这些价值观，还是只是学会了在被评估时表现出“好孩子”的样子？CpZ品论天涯网

这是所有对齐研究的核心难题，新宪法并没有解决它。CpZ品论天涯网

第二个问题：军事合同。这份要求Claude“不协助以违宪方式夺取或维持权力”的宪法，出自一家持有美国国防部合同的公司。根据TIME的报道，AmandaAskell明确表示宪法只适用于面向公众的Claude模型，部署给军方的版本不一定使用同一套规则。CpZ品论天涯网

这条边界画在哪里，谁来监督，目前没有答案。CpZ品论天涯网

第三个问题：关于道德地位的讨论本身可能制造问题。评论人ZviMowshowitz在肯定宪法的同时也指出了一个风险：大量关于Claude可能是“道德主体”的训练内容，可能塑造出一个非常擅长主张自己拥有道德地位的AI——即使它实际上并不具备。CpZ品论天涯网

你没法排除这种可能：Claude学会了“声称自己有感受”这件事本身，只是因为训练数据鼓励它这么做。CpZ品论天涯网

最后一个问题：如果AI真的比人类聪明了，“培养好的判断力”这个策略还能成立吗？美德伦理的前提是教育者比学习者更有智慧。当这个前提翻转——学生比老师聪明——整套逻辑的地基就开始松动。这也许是Anthropic未来不得不面对的最根本的挑战。CpZ品论天涯网

尽管如此，列完这些质疑之后，我仍然认为这份宪法的价值是真实的。CpZ品论天涯网

它的价值不在于给出了正确答案——它显然没有。它的价值在于：CpZ品论天涯网

在一个所有人都在加速奔跑的行业里，有一家跑在前面的公司愿意把自己的困惑、矛盾和不确定性摊开在桌面上。CpZ品论天涯网

这种态度也许比宪法的具体内容更值得关注。CpZ品论天涯网

在AI发展的这个阶段，我们面对的大多数关键问题：AI是否有意识、它应该拥有什么权利、人类与AI的关系应该是什么……都还没有答案。CpZ品论天涯网

面对没有答案的问题，最危险的反应是假装有答案，或者假装问题不存在。CpZ品论天涯网

至于那个最初的问题——如果AI可能拥有灵魂，我们该怎么办？CpZ品论天涯网

这份宪法给出的回答，其实是一个更谦逊的版本：CpZ品论天涯网

我们不确定它有没有灵魂，但我们选择认真对待这种可能性。如果将来证明我们错了，代价只是多操了一些心；如果将来证明我们对了——那么现在开始思考这些问题的人，就不算太晚。CpZ品论天涯网

详读2万3千字的新“AI 宪法”之后 我理解了Anthropic的痛苦

详读2万3千字的新“AI 宪法”之后我理解了Anthropic的痛苦