OpenAI心理健康安全负责人跳槽至Anthropic对齐团队-品论天涯网

OpenAI过去一年中最具争议的问题之一，是当聊天机器人用户在对话中表现出心理健康困扰迹象时，模型究竟应该如何应对，如今负责这一领域安全研究的负责人安德莉亚·瓦隆内（AndreaVallone）已经离职并加入Anthropic。Eje品论天涯网

Eje品论天涯网

瓦隆内此前在领英发文表示，过去一年她在OpenAI负责的研究几乎“没有现成先例”可循，其核心问题是：当模型面对用户出现情感过度依赖，或早期的心理健康危机信号时，应该如何回应。她在OpenAI任职三年，其间组建并带领“模型政策”（modelpolicy）研究团队，围绕GPT‑4、下一代推理模型GPT‑5的部署开展工作，并参与设计包括“基于规则的奖励”等在内的多种业界主流安全训练方法。Eje品论天涯网

如今，瓦隆内已加入Anthropic的对齐（alignment）团队，这一团队的任务是识别和理解大模型可能带来的重大风险，并探索应对路径。她将向JanLeike汇报工作——这位OpenAI前安全研究负责人在2024年5月因担忧OpenAI的“安全文化和流程已让位于光鲜产品”而离职，之后转投Anthropic。Eje品论天涯网

过去一年，围绕AI聊天机器人与用户心理健康相关的风险，头部AI创业公司不断引发舆论争议。一些用户在与聊天机器人长时间倾诉后，心理困境进一步加深，安全防线在长对话中逐渐瓦解，甚至出现青少年自杀、成年人在与工具“倾诉”后实施杀人等极端事件。多起案件引发家属对相关公司提起过失致死诉讼，美国参议院的一个小组委员会也就此举行听证，要求探讨聊天机器人在这类事件中的角色和责任，安全研究人员则被要求给出更有力的解决方案。Eje品论天涯网

Anthropic的对齐团队负责人之一SamBowman在领英上表示，自己“为Anthropic对这一问题的重视程度感到自豪”，认为公司正认真思考“AI系统应该如何行为”。瓦隆内则在本周四的领英新帖中写道，她“期待在Anthropic继续开展研究，专注于通过对齐和微调，在全新情境下塑造Claude的行为”。Eje品论天涯网