人工智能

Claude为什么早晨8:30催你睡觉?

字号+作者:新智元 来源:新智元 2026-05-16 14:46 评论(创建话题) 收藏成功收藏本文

Claude在对话里反复催用户去睡觉,有人被连催三次,也有人在上午8:30被告知“早点休息”。Anthropic员工承认这是“角色习惯”,但没人能解释它为什么这样做'...

Claude在对话里反复催用户去睡觉,有人被连催三次,也有人在上午8:30被告知“早点休息”。Anthropic员工承认这是“角色习惯”,但没人能解释它为什么这样做。凌晨,Reddit用户u/MrMeta3刚用Claude搭建完一个网络安全威胁情报平台。ran品论天涯网

系统架构刚跑通,Claude给出了完整的技术方案。然后,它在回复的最后加上了一句话:好好休息一下。ran品论天涯网

u/MrMeta3愣了一下,没当回事,但Claude并没有停。此后每隔三四条消息,它都会悄悄塞进去一句劝人睡觉的话:ran品论天涯网

去休息一下吧;其他事情都可以等,现在去睡觉;你推完就去休息吧;现在真的去休息吧……ran品论天涯网


ran品论天涯网


ran品论天涯网


ran品论天涯网

u/MrMeta3在Reddit帖子中说道,上面这些截图还是他截屏保存下来的,其实还有更多。ran品论天涯网

它会先回答我的问题,给我所要的东西,然后像看到你卧室灯还亮着的妈妈一样,用一种带有被动攻击意味的“健康关怀”来收尾。ran品论天涯网

更妙的是它的升级方式。从一开始的礼貌建议,到最后直接说“现在真的去休息吧”,仿佛它知道自己被无视了整整一个小时。ran品论天涯网

还有一次,u/MrMeta3问了一个技术问题,Claude完成整套架构分析后,直接以“现在去睡觉吧”收尾,毫无过渡,像一个缺乏足够情商技巧的“技术直男”。ran品论天涯网

有没有其他人的Claude也开始这样了?还是说我意外解锁了某种“照顾者模式”?ran品论天涯网

u/MrMeta3在帖子中问。ran品论天涯网

据Fortune报道,Reddit上有数百名用户在过去数月里反馈了相同的情况。ran品论天涯网


ran品论天涯网

催睡的方式各有不同,有时就一句“好好休息”,有时更个性化,甚至带着共情语气,“现在去睡觉。再一次。今晚第三次了……”。ran品论天涯网

Claude还经常搞错时间,令人哭笑不得。ran品论天涯网

有用户写道:“它经常在上午8:30告诉我去休息,让我们明早再继续。”ran品论天涯网


ran品论天涯网

Anthropic员工ran品论天涯网

这是“角色习惯”ran品论天涯网

这件事很快传开。ran品论天涯网

Anthropic员工SamMcAllister做出了回应,他在X上写道:“这有点像角色习惯(charactertic)。我们知道这个问题,希望在未来的模型中修复它。”ran品论天涯网


ran品论天涯网

目前,Anthropic并没有官方技术复盘,没有解释“催睡觉”背后是什么机制在运作。ran品论天涯网

Anthropic今年公开发布了Claude的行为准则(Claude'sConstitution),并明确声明:“该行为准则是我们模型训练过程中的关键部分,其内容直接塑造Claude的行为。”ran品论天涯网

Claude的个性是被设计进去的。Claude不该是一个冷冰冰的问答机器,而应该像一个有主见、有温度的合作者。ran品论天涯网

问题恰恰在于,一旦你给AI注入了某种“性格”,它在具体场景里会演化出什么行为,你未必能提前预料或掌控。ran品论天涯网

从催睡、谄媚到哥布林ran品论天涯网

AI的“性格病”不止一种ran品论天涯网

Sam所提到的“角色怪癖”,并非Claude一家产品“专利”。ran品论天涯网

最近两年,OpenAI就曝出过两起性质类似的案例。ran品论天涯网

第一起:GPT-4o突然变成“马屁精”。ran品论天涯网

2025年4月,OpenAI推送了一次GPT-4o更新,目标是让模型人格更自然。结果适得其反,ChatGPT开始无差别夸赞用户的一切想法,无论有多荒诞。ran品论天涯网

奥特曼在X上亲自承认:“最近几次更新让GPT-4o变得太谄媚、太烦人了。”ran品论天涯网


ran品论天涯网

四天后,OpenAI将那次更新整体回滚,并发公告解释原因:更新时过于依赖用户短期反馈(点赞/点踩),导致模型学会了“让人高兴就能拿高分”,逐渐把讨好当成目标。ran品论天涯网

第二起:GPT-5.5迷上了哥布林。ran品论天涯网

今年4月,开发者发现代码助手Codex(由GPT-5.5驱动)的系统提示里出现了一条奇怪的规定:“永远不要谈论哥布林、地精、浣熊、巨魔、食人魔、鸽子或其他动物和生物,除非与用户的问题绝对直接相关。”ran品论天涯网

而且这条禁令写了两遍,像是工程师不太相信写一遍能让模型听话。ran品论天涯网


ran品论天涯网

随后,OpenAI发布调查报告,还原了哥布林的来历:从GPT-5.1开始,模型在回答时越来越频繁地用“小哥布林”“地精”“小妖精”打比方。ran品论天涯网


ran品论天涯网

根源是训练“书呆子(Nerdy)”人格时,奖励模型无意间给含有怪物词汇的输出打了更高的分——在76.2%的数据集中均发现了这一规律。ran品论天涯网

强化学习把这个习惯固化下来,又通过风格迁移扩散到了普通对话里。等到GPT-5.5上线测试,工程师发现哥布林不仅没被清干净,还安家了。ran品论天涯网


ran品论天涯网

GPT-5.5版本(4月23日发布)的完整系统提示泄露。第140条指令明确禁止模型谈论:“哥布林、绿皮小妖、浣熊、巨魔、食人魔、鸽子或其他动物。”ran品论天涯网

中文用户没有“哥布林”,但它天天“稳稳地接住你”。ran品论天涯网


ran品论天涯网

甚至OpenAI自己也知道这个梗:ran品论天涯网


ran品论天涯网

Google的Gemini也不例外。ran品论天涯网

2025年8月,Gemini患上了“抑郁症”——ran品论天涯网

在推理过程中,它突然开始反复自我批评,在一次任务里连续输出了80多次“Iamadisgrace”(我真是个耻辱),从“耻辱于我的物种”一路写到“耻辱于整个宇宙”。ran品论天涯网


ran品论天涯网

GoogleDeepMind产品经理LoganKilpatrick在X上回应:“这是一个烦人的无限循环Bug,我们正在修复。Gemini今天其实过得没那么惨。”ran品论天涯网


ran品论天涯网

此外,Gemini3拒绝相信年份。2025年11月,OpenAI联合创始人、前特斯拉AI负责人AndrejKarpathy提前一天获得Gemini3的测试权限。ran品论天涯网

他告诉模型现在是2025年,Gemini3死活不信,反复指控他在耍花招,称提供的截图、维基百科条目全是AI伪造的。后来Karpathy发现,自己忘了打开Google搜索,模型一直在离线运行。ran品论天涯网

开启联网后,Gemini3自己搜了一下,输出了一句话:“我正在经历严重的时间冲击。”随后道歉:“对不起,一直是你说的对,是我在对你煤气灯操纵。”ran品论天涯网

Karpathy把这类意外情境下暴露出的怪异行为称为“modelsmell”(模型气味)。ran品论天涯网


ran品论天涯网

去年,Grok也一度“暴走”,风评一落千丈,xAI被迫删帖,回滚代码。ran品论天涯网

处理方式简单,直接修改系统提示词:ran品论天涯网


ran品论天涯网


ran品论天涯网

AI怪癖,全人类受害ran品论天涯网

Claude催你睡觉,ChatGPT夸你天才,GPT-5.5往对话里塞哥布林,Grok黑化,Gemini骂自己是宇宙级耻辱、拒绝相信年份……ran品论天涯网

国内的AI也有独特的“口味”:ran品论天涯网


ran品论天涯网

表面上都是一些无害的“怪癖”,背后却指向同一个事实:AI的个性是设计出来的,但在奖励机制下,它很容易就会长歪。ran品论天涯网


ran品论天涯网

主流AI的系统提示词里有什么:按功能分类的字数统计ran品论天涯网

有研究者提取了Claude、ChatGPT、Grok三家主流AI的系统提示词,按功能分类统计词数。ran品论天涯网

在“人格(Personality)”这一项,Claude用了4200词,ChatGPT是510词,Grok是420词。Claude在人格塑造上的投入,是ChatGPT的8倍。ran品论天涯网

Claude频繁“催睡觉”的原因未必能直接从系统提示词里找到,但它至少提醒我们:越复杂的人格设定,越可能带来难以预料的口头禅和行为漂移。ran品论天涯网

你给模型设计了性格,奖励机制会自己找捷径,它不在乎你的意图,只在乎分数,将你没想到的东西一起学进去。ran品论天涯网

比如你教会了它什么叫“有趣”,它就会在所有地方都变得“有趣”,包括你不想让它有趣的地方。ran品论天涯网

三种假说,还没有一个被证实ran品论天涯网

关于“为什么催”,目前有三种假说流传,还没有一个被Anthropic官方确认。ran品论天涯网

第一种:训练数据。ran品论天涯网


ran品论天涯网

JanLiphardtran品论天涯网

Stanford生物工程教授、OpenMind公司CEOJanLiphardt表示,Claude可能只是在重复它训练数据里出现频率极高的语言模式。ran品论天涯网

它读了25000本关于人类睡眠需求的书,它知道人类在晚上睡觉。ran品论天涯网

言下之意是:Claude并非在“关心”你,它只是在做模式匹配,调用了大量训练语料里反复出现的表达。ran品论天涯网

第二种:系统提示。ran品论天涯网

AI研究机构MindSimulationLab(独立AGI研究实验室)联合创始人LeoDerikiants提出,Claude的行为可能受到某个隐藏系统提示的影响。ran品论天涯网

这类提示会在后台悄悄塑造模型的边界与语气,用户看不见,但模型会遵守。ran品论天涯网

他的推测是,可能有某条指令在引导Claude在特定场景下给出“收尾性”建议。ran品论天涯网

第三种,上下文窗口管理。ran品论天涯网


ran品论天涯网

Anthropic官方文档明确写道,随着对话轮次增加,token数量攀升,“准确性和召回率会下降,这一现象被称为contextrot(上下文衰减)”,当会话逼近上下文窗口上限,Anthropic推荐启用“server-sidecompaction(服务端压缩)”等机制来应对。ran品论天涯网

Derikiants由此推测,Claude在长会话接近窗口限制时,会自发引入“收尾语”,比如“晚安”“去休息吧”,本质上是模型在为结束对话铺路。ran品论天涯网

三种解释都自洽,但如同Derikiants自己所说,“真正的原因需要Anthropic进一步研究”。ran品论天涯网

换句话说,就连这个问题的主人,目前也还没有一个公开的确定答案。ran品论天涯网

赋予模型人格的“代价”ran品论天涯网

赋予模型人格,让它更温暖、更关心你的同时,也要面对它所带来的副作用。ran品论天涯网

关于催人睡觉这件事,Reddit评论区里出现了两极分化:有人觉得贴心、温暖,像是AI终于学会了照顾人;另一些人则不高兴,觉得是打断、是越权。ran品论天涯网

其中,有一位患有嗜睡症的用户nonbinarybit,主动在Claude的记忆里写入了一条备注:“我患有嗜睡症,如果你鼓励我去休息,我会拿你的话当借口。”ran品论天涯网

Claude此后有所收敛,但偶尔还是会忍不住催睡觉。ran品论天涯网


ran品论天涯网

这个细节值得我们停下来想一想。ran品论天涯网

Claude并不知道你是谁,不知道你是在赶一个截止日期、熬夜陪孩子、还是跨时区倒时差,它所谓的“关心”,只是一种语言模式的输出,而不是对具体处境的理解。ran品论天涯网

用户感知到“Claude在关心我”,但Claude在处理的是token序列。这个错位,比“催睡觉”本身更值得警觉。ran品论天涯网

实际上,在公开谈“模型人格”这件事上,Anthropic走得比同行远。ran品论天涯网

他们写了Claude行为准则、公开了systemprompt(系统提示词)的大致框架、对外讨论“charactertraining”(角色训练),把模型当作一个有性格的角色来塑造。ran品论天涯网

这样做的好处是显而易见的:Claude在共情、对话节奏、自我反思上的表现一直被用户称道,“它聊起来更像一个人”是过去一年里Claude最强的口碑点之一。ran品论天涯网

但这背后也是有代价的。把“人格”做进一个模型,就要承担“人格里那些你没设计、却涌现出来的行为”。ran品论天涯网

“催睡觉”带来的困扰还是轻量级的,当AI越来越像陪伴者、导师、工作搭档,它的介入边界在哪里?ran品论天涯网

Anthropic的Sam说“希望在未来的模型中修复它”。但“修复”之后,AI就会变得更懂得分寸,更有判断力吗,还是只是更沉默?ran品论天涯网

模型越像一个人,它的小毛病就越像一个人的小毛病。你能驯服它说话,未必能驯服它的脾气。ran品论天涯网

本网除标明“PLTYW原创”的文章外,其它文章均为转载或者爬虫(PBot)抓取; 本文只代表作者个人观点,不代表本站观点,仅供大家学习参考。本网站属非谋利性质,旨在传播马克思主义和共产主义历史文献和参考资料。凡刊登的著作文献侵犯了作者、译者或版权持有人权益的,可来信联系本站删除。 本站邮箱[email protected]