人工智能

OpenAI的最新AI模型拥有新的保护措施来预防生物风险

字号+作者:cnBeta.COM 来源:cnBeta 2025-04-17 05:55 评论(创建话题) 收藏成功收藏本文

OpenAI表示,它部署了一个新系统来监控其最新的AI推理模型o3和o4-mini,以检测与生物和化学威胁相关的提示。根据OpenAI的安全报告,该系统旨在防止这些模型'...

OpenAI表示,它部署了一个新系统来监控其最新的AI推理模型o3和o4-mini,以检测与生物和化学威胁相关的提示。根据OpenAI的安全报告,该系统旨在防止这些模型提供可能指导某人实施潜在有害攻击的建议。TR6品论天涯网

OpenAI表示,O3和o4-mini的性能较之前的模型有了显著提升,因此也给恶意攻击者带来了新的风险。根据OpenAI的内部基准测试,o3在回答特定类型的生物威胁相关问题方面表现得更为熟练。出于这个原因,同时也为了降低其他风险,OpenAI创建了新的监控系统,该公司将其描述为“以安全为中心的推理监控器”。TR6品论天涯网

该监控器基于o3和o4-mini运行,经过定制训练,能够推理OpenAI的内容政策。它旨在识别与生物和化学风险相关的提示,并指示模型拒绝提供有关这些主题的建议。TR6品论天涯网

为了建立基准,OpenAI让红队成员花费大约1000小时标记o3和o4-mini中与生物风险相关的“不安全”对话。OpenAI表示,在一项模拟其安全监视器“阻止逻辑”的测试中,这些模型98.7%的时间拒绝响应风险提示。TR6品论天涯网

OpenAI承认,其测试没有考虑到那些在被监视器阻止后可能会尝试新提示的人,这就是为什么该公司表示将继续部分依赖人工监控。TR6品论天涯网

OpenAI表示,O3和o4-mini并未超出OpenAI设定的生物风险“高风险”门槛。然而,OpenAI表示,与o1和GPT-4相比,o3和o4-mini的早期版本在解答有关开发生物武器的问题方面更有帮助。TR6品论天涯网

TR6品论天涯网

o3和o4-mini系统卡的图表(截图:OpenAI)TR6品论天涯网

根据OpenAI最近更新的防范框架,该公司正在积极追踪其模型如何使恶意用户更容易开发化学和生物威胁。TR6品论天涯网

OpenAI越来越依赖自动化系统来降低其模型的风险。例如,为了防止GPT-4o的原生图像生成器创建儿童性虐待内容(CSAM),OpenAI表示它使用了与该公司为o3和o4-mini部署的类似的推理监视器。TR6品论天涯网

然而,一些研究人员担心OpenAI并未将安全放在应有的位置。该公司的红队合作伙伴之一Metr表示,他们几乎没有时间在基准测试o3的欺骗行为上。与此同时,OpenAI决定不发布其本周早些时候发布的GPT-4.1模型的安全报告。TR6品论天涯网

本网除标明“PLTYW原创”的文章外,其它文章均为转载或者爬虫(PBot)抓取; 本文只代表作者个人观点,不代表本站观点,仅供大家学习参考。本网站属非谋利性质,旨在传播马克思主义和共产主义历史文献和参考资料。凡刊登的著作文献侵犯了作者、译者或版权持有人权益的,可来信联系本站删除。 本站邮箱[email protected]