人工智能

Claude AI将终止与实施“持续有害或辱骂行为”的用户互动

字号+作者:cnBeta.COM 来源:cnBeta 2025-08-18 22:16 评论(创建话题) 收藏成功收藏本文

Anthropic的人工智能聊天机器人Claude现在可以结束被认为“持续有害或辱骂性”的对话。该功能现已在Opus4和4.1型号中推出,当用户多次拒绝并尝试重定向,'...

Anthropic的人工智能聊天机器人Claude现在可以结束被认为“持续有害或辱骂性”的对话。该功能现已在Opus4和4.1型号中推出,当用户多次拒绝并尝试重定向,仍要求聊天机器人生成有害内容时,聊天机器人可以作为“最后手段”结束对话。K1x品论天涯网

Anthropic表示,此举旨在通过终止Claude表现出“明显困扰”的互动类型,来维护人工智能模型的“潜在福祉”。K1x品论天涯网

K1x品论天涯网

如果Claude选择缩短对话,用户将无法在该对话中发送新消息。他们仍然可以创建新的聊天,也可以编辑并重发之前的消息(如果他们想继续某个话题)。K1x品论天涯网

在对ClaudeOpus 4进行测试时,Anthropic表示发现Claude“强烈且持续地厌恶伤害”,包括被要求生成涉及未成年人的性内容,或提供可能引发暴力行为和恐怖主义的信息时。在这些情况下,Anthropic表示Claude表现出“明显的痛苦模式”,并且“一旦有机会就会倾向于结束有害的对话”。K1x品论天涯网

Anthropic指出,引发此类反应的对话属于“极端情况”,并补充说,即使在讨论争议性话题时,大多数用户也不会遇到这种障碍。这家人工智能初创公司还指示Claude,如果用户表现出可能想要伤害自己或对他人造成“即将发生的伤害”的迹象,就不要结束对话。Anthropic与在线危机支持提供商Throughline合作,帮助开发针对与自残和心理健康相关的提示的响应。K1x品论天涯网

由于人工智能模型的快速发展引发了越来越多的安全担忧,Anthropic上周还更新了Claude的使用政策。现在,该公司禁止人们使用Claude开发生物、核武器、化学武器或放射性武器,以及开发恶意代码或利用网络漏洞。K1x品论天涯网

本网除标明“PLTYW原创”的文章外,其它文章均为转载或者爬虫(PBot)抓取; 本文只代表作者个人观点,不代表本站观点,仅供大家学习参考。本网站属非谋利性质,旨在传播马克思主义和共产主义历史文献和参考资料。凡刊登的著作文献侵犯了作者、译者或版权持有人权益的,可来信联系本站删除。 本站邮箱[email protected]