OpenAI过去一年中最具争议的问题之一,是当聊天机器人用户在对话中表现出心理健康困扰迹象时,模型究竟应该如何应对,如今负责这一领域安全研究的负责人安德莉亚·瓦隆内(AndreaVallone)已经离职并加入Anthropic。
瓦隆内此前在领英发文表示,过去一年她在OpenAI负责的研究几乎“没有现成先例”可循,其核心问题是:当模型面对用户出现情感过度依赖,或早期的心理健康危机信号时,应该如何回应。她在OpenAI任职三年,其间组建并带领“模型政策”(modelpolicy)研究团队,围绕GPT‑4、下一代推理模型GPT‑5的部署开展工作,并参与设计包括“基于规则的奖励”等在内的多种业界主流安全训练方法。
如今,瓦隆内已加入Anthropic的对齐(alignment)团队,这一团队的任务是识别和理解大模型可能带来的重大风险,并探索应对路径。她将向JanLeike汇报工作——这位OpenAI前安全研究负责人在2024年5月因担忧OpenAI的“安全文化和流程已让位于光鲜产品”而离职,之后转投Anthropic。
过去一年,围绕AI聊天机器人与用户心理健康相关的风险,头部AI创业公司不断引发舆论争议。一些用户在与聊天机器人长时间倾诉后,心理困境进一步加深,安全防线在长对话中逐渐瓦解,甚至出现青少年自杀、成年人在与工具“倾诉”后实施杀人等极端事件。多起案件引发家属对相关公司提起过失致死诉讼,美国参议院的一个小组委员会也就此举行听证,要求探讨聊天机器人在这类事件中的角色和责任,安全研究人员则被要求给出更有力的解决方案。
Anthropic的对齐团队负责人之一SamBowman在领英上表示,自己“为Anthropic对这一问题的重视程度感到自豪”,认为公司正认真思考“AI系统应该如何行为”。瓦隆内则在本周四的领英新帖中写道,她“期待在Anthropic继续开展研究,专注于通过对齐和微调,在全新情境下塑造Claude的行为”。

相关文章

头条焦点
精彩导读
关注我们
【查看完整讨论话题】 | 【用户登录】 | 【用户注册】