OpenAI 承诺更频繁地发布 AI 安全测试结果-品论天涯网

OpenAI正在更定期地发布其内部AI模型安全评估的结果，该公司表示此举是为了提高透明度。周三，OpenAI推出了安全评估中心，这是一个网页，用于展示该公司模型在有害内容生成、越狱和幻觉等各种测试中的得分。OpenAI表示，它将“持续”使用该中心共享指标，并计划在未来通过“重大模型更新”来更新该中心。8ym品论天涯网

8ym品论天涯网

OpenAI在一篇博客文章中写道：“随着人工智能评估科学的发展，我们的目标是分享我们在开发更具可扩展性的模型能力和安全性衡量方法方面的进展。通过在此分享我们的部分安全评估结果，我们希望这不仅能让人们更容易地了解OpenAI系统随时间推移的安全性能，还能支持社区为提高整个领域的透明度所做的努力。”8ym品论天涯网

OpenAI表示，随着时间的推移，它可能会向该中心添加额外的评估。8ym品论天涯网

8ym品论天涯网

近几个月来，OpenAI引发了一些伦理学家的愤怒，据报道，该公司仓促完成了某些旗舰模型的安全测试，而未能发布其他模型的技术报告。该公司首席执行官萨姆·奥特曼(SamAltman)还被指控在2023年11月短暂离职之前，在模型安全评估方面误导了OpenAI高管。8ym品论天涯网

上个月底，OpenAI被迫回滚了ChatGPT默认模型GPT-4o的更新，因为用户开始反映该模型的响应方式过于确认和顺从。X上充斥着ChatGPT的截图，这些截图赞扬了各种有问题、危险的决定和想法。8ym品论天涯网

OpenAI表示，它将实施多项修复和更改以防止将来发生此类事件，包括为某些模型引入可选的“alpha阶段”，允许某些ChatGPT用户在发布之前测试模型并提供反馈。8ym品论天涯网