人工智能

OpenAI心理健康安全负责人跳槽至Anthropic对齐团队

字号+作者:cnBeta.COM 来源:cnBeta 2026-01-16 05:30 评论(创建话题) 收藏成功收藏本文

OpenAI过去一年中最具争议的问题之一,是当聊天机器人用户在对话中表现出心理健康困扰迹象时,模型究竟应该如何应对,如今负责这一领域安全研究的负责人安德'...

OpenAI过去一年中最具争议的问题之一,是当聊天机器人用户在对话中表现出心理健康困扰迹象时,模型究竟应该如何应对,如今负责这一领域安全研究的负责人安德莉亚·瓦隆内(AndreaVallone)已经离职并加入Anthropic。7eR品论天涯网

7eR品论天涯网

瓦隆内此前在领英发文表示,过去一年她在OpenAI负责的研究几乎“没有现成先例”可循,其核心问题是:当模型面对用户出现情感过度依赖,或早期的心理健康危机信号时,应该如何回应。她在OpenAI任职三年,其间组建并带领“模型政策”(modelpolicy)研究团队,围绕GPT‑4、下一代推理模型GPT‑5的部署开展工作,并参与设计包括“基于规则的奖励”等在内的多种业界主流安全训练方法。7eR品论天涯网

如今,瓦隆内已加入Anthropic的对齐(alignment)团队,这一团队的任务是识别和理解大模型可能带来的重大风险,并探索应对路径。她将向JanLeike汇报工作——这位OpenAI前安全研究负责人在2024年5月因担忧OpenAI的“安全文化和流程已让位于光鲜产品”而离职,之后转投Anthropic。7eR品论天涯网

过去一年,围绕AI聊天机器人与用户心理健康相关的风险,头部AI创业公司不断引发舆论争议。一些用户在与聊天机器人长时间倾诉后,心理困境进一步加深,安全防线在长对话中逐渐瓦解,甚至出现青少年自杀、成年人在与工具“倾诉”后实施杀人等极端事件。多起案件引发家属对相关公司提起过失致死诉讼,美国参议院的一个小组委员会也就此举行听证,要求探讨聊天机器人在这类事件中的角色和责任,安全研究人员则被要求给出更有力的解决方案。7eR品论天涯网

Anthropic的对齐团队负责人之一SamBowman在领英上表示,自己“为Anthropic对这一问题的重视程度感到自豪”,认为公司正认真思考“AI系统应该如何行为”。瓦隆内则在本周四的领英新帖中写道,她“期待在Anthropic继续开展研究,专注于通过对齐和微调,在全新情境下塑造Claude的行为”。7eR品论天涯网

本网除标明“PLTYW原创”的文章外,其它文章均为转载或者爬虫(PBot)抓取; 本文只代表作者个人观点,不代表本站观点,仅供大家学习参考。本网站属非谋利性质,旨在传播马克思主义和共产主义历史文献和参考资料。凡刊登的著作文献侵犯了作者、译者或版权持有人权益的,可来信联系本站删除。 本站邮箱[email protected]