Claude AI将终止与实施“持续有害或辱骂行为”的用户互动-品论天涯网

Anthropic的人工智能聊天机器人Claude现在可以结束被认为“持续有害或辱骂性”的对话。该功能现已在Opus4和4.1型号中推出，当用户多次拒绝并尝试重定向，仍要求聊天机器人生成有害内容时，聊天机器人可以作为“最后手段”结束对话。HW6品论天涯网

Anthropic表示，此举旨在通过终止Claude表现出“明显困扰”的互动类型，来维护人工智能模型的“潜在福祉”。HW6品论天涯网

如果Claude选择缩短对话，用户将无法在该对话中发送新消息。他们仍然可以创建新的聊天，也可以编辑并重发之前的消息（如果他们想继续某个话题）。HW6品论天涯网

在对ClaudeOpus 4进行测试时，Anthropic表示发现Claude“强烈且持续地厌恶伤害”，包括被要求生成涉及未成年人的性内容，或提供可能引发暴力行为和恐怖主义的信息时。在这些情况下，Anthropic表示Claude表现出“明显的痛苦模式”，并且“一旦有机会就会倾向于结束有害的对话”。HW6品论天涯网

Anthropic指出，引发此类反应的对话属于“极端情况”，并补充说，即使在讨论争议性话题时，大多数用户也不会遇到这种障碍。这家人工智能初创公司还指示Claude，如果用户表现出可能想要伤害自己或对他人造成“即将发生的伤害”的迹象，就不要结束对话。Anthropic与在线危机支持提供商Throughline合作，帮助开发针对与自残和心理健康相关的提示的响应。HW6品论天涯网

由于人工智能模型的快速发展引发了越来越多的安全担忧，Anthropic上周还更新了Claude的使用政策。现在，该公司禁止人们使用Claude开发生物、核武器、化学武器或放射性武器，以及开发恶意代码或利用网络漏洞。HW6品论天涯网