OpenAI的最新AI模型拥有新的保护措施来预防生物风险-品论天涯网

OpenAI表示，它部署了一个新系统来监控其最新的AI推理模型o3和o4-mini，以检测与生物和化学威胁相关的提示。根据OpenAI的安全报告，该系统旨在防止这些模型提供可能指导某人实施潜在有害攻击的建议。d1N品论天涯网

OpenAI表示，O3和o4-mini的性能较之前的模型有了显著提升，因此也给恶意攻击者带来了新的风险。根据OpenAI的内部基准测试，o3在回答特定类型的生物威胁相关问题方面表现得更为熟练。出于这个原因，同时也为了降低其他风险，OpenAI创建了新的监控系统，该公司将其描述为“以安全为中心的推理监控器”。d1N品论天涯网

该监控器基于o3和o4-mini运行，经过定制训练，能够推理OpenAI的内容政策。它旨在识别与生物和化学风险相关的提示，并指示模型拒绝提供有关这些主题的建议。d1N品论天涯网

为了建立基准，OpenAI让红队成员花费大约1000小时标记o3和o4-mini中与生物风险相关的“不安全”对话。OpenAI表示，在一项模拟其安全监视器“阻止逻辑”的测试中，这些模型98.7%的时间拒绝响应风险提示。d1N品论天涯网

OpenAI承认，其测试没有考虑到那些在被监视器阻止后可能会尝试新提示的人，这就是为什么该公司表示将继续部分依赖人工监控。d1N品论天涯网

OpenAI表示，O3和o4-mini并未超出OpenAI设定的生物风险“高风险”门槛。然而，OpenAI表示，与o1和GPT-4相比，o3和o4-mini的早期版本在解答有关开发生物武器的问题方面更有帮助。d1N品论天涯网

o3和o4-mini系统卡的图表（截图：OpenAI）

根据OpenAI最近更新的防范框架，该公司正在积极追踪其模型如何使恶意用户更容易开发化学和生物威胁。d1N品论天涯网

OpenAI越来越依赖自动化系统来降低其模型的风险。例如，为了防止GPT-4o的原生图像生成器创建儿童性虐待内容(CSAM)，OpenAI表示它使用了与该公司为o3和o4-mini部署的类似的推理监视器。d1N品论天涯网

然而，一些研究人员担心OpenAI并未将安全放在应有的位置。该公司的红队合作伙伴之一Metr表示，他们几乎没有时间在基准测试o3的欺骗行为上。与此同时，OpenAI决定不发布其本周早些时候发布的GPT-4.1模型的安全报告。d1N品论天涯网