OpenAI表示,O3和o4-mini的性能较之前的模型有了显著提升,因此也给恶意攻击者带来了新的风险。根据OpenAI的内部基准测试,o3在回答特定类型的生物威胁相关问题方面表现得更为熟练。出于这个原因,同时也为了降低其他风险,OpenAI创建了新的监控系统,该公司将其描述为“以安全为中心的推理监控器”。
该监控器基于o3和o4-mini运行,经过定制训练,能够推理OpenAI的内容政策。它旨在识别与生物和化学风险相关的提示,并指示模型拒绝提供有关这些主题的建议。
为了建立基准,OpenAI让红队成员花费大约1000小时标记o3和o4-mini中与生物风险相关的“不安全”对话。OpenAI表示,在一项模拟其安全监视器“阻止逻辑”的测试中,这些模型98.7%的时间拒绝响应风险提示。
OpenAI承认,其测试没有考虑到那些在被监视器阻止后可能会尝试新提示的人,这就是为什么该公司表示将继续部分依赖人工监控。
OpenAI表示,O3和o4-mini并未超出OpenAI设定的生物风险“高风险”门槛。然而,OpenAI表示,与o1和GPT-4相比,o3和o4-mini的早期版本在解答有关开发生物武器的问题方面更有帮助。
根据OpenAI最近更新的防范框架,该公司正在积极追踪其模型如何使恶意用户更容易开发化学和生物威胁。
OpenAI越来越依赖自动化系统来降低其模型的风险。例如,为了防止GPT-4o的原生图像生成器创建儿童性虐待内容(CSAM),OpenAI表示它使用了与该公司为o3和o4-mini部署的类似的推理监视器。
然而,一些研究人员担心OpenAI并未将安全放在应有的位置。该公司的红队合作伙伴之一Metr表示,他们几乎没有时间在基准测试o3的欺骗行为上。与此同时,OpenAI决定不发布其本周早些时候发布的GPT-4.1模型的安全报告。

相关文章

头条焦点
精彩导读
关注我们
【查看完整讨论话题】 | 【用户登录】 | 【用户注册】