人工智能

OpenAI最强代码模型GPT-5.2-Codex上线

字号+作者:机器之心Pro 来源:机器之心Pro 2025-12-19 13:24 评论(创建话题) 收藏成功收藏本文

周五凌晨,OpenAI发布GPT-5.2-Codex,这是迄今为止最先进的智能体编码模型,专为复杂的实际软件工程而设计。GPT-5.2-Codex是GPT-5.2的升级版本,提高了指令遵'...

周五凌晨,OpenAI发布GPT-5.2-Codex,这是迄今为止最先进的智能体编码模型,专为复杂的实际软件工程而设计。zIk品论天涯网

zIk品论天涯网


zIk品论天涯网

GPT-5.2-Codex是GPT-5.2的升级版本,提高了指令遵循能力、对长远语境的理解能力,它针对Codex中的智能体编码进行了进一步优化,包括通过上下文压缩改进长期工作。GPT-5.2-Codex在重构和迁移等大型代码变更中表现更佳,在Windows环境下性能更优,同时网络安全能力也显著增强。zIk品论天涯网

与GPT-5.2相比,5.2-Codex在编码任务的词元效率方面也有显著提升,尤其是在中等和高推理水平下。据称,它已迅速成为Codex团队成员的日常主力工具。zIk品论天涯网

新模型的发布获得了人们的普遍关注。在开发者社区人们认为,如果说ClaudeCode擅长“原始代码”,那么Codex/GPT5.x在仔细、系统地查找“问题”(无论是代码问题还是数学问题)方面则是无可匹敌的。zIk品论天涯网

虽然新版本的GPT模型需要运行更长时间,但是它的智能程度令人惊讶。新模型终于具备了推动优秀设计的空间推理能力。zIk品论天涯网


zIk品论天涯网

GPT-5.2-Codex生成的内容。zIk品论天涯网

已经有很多人开始认同使用ClaudeCode写代码,同时用Codex来做代码审查,让后者分析流程和发现细微bug的工作方式。此外也有人表示Codex能带来的一个意想不到的帮助是克服拖延症:如果面对一项艰巨的任务,却不知从何下手,这时不妨把任务发给Codex,它或许无法给出完美的答案,但几乎总能提供一个不错的起点,让你快速迭代改进。zIk品论天涯网

随着模型能力的不断进步,研究人员观察到这些提升正转化为网络安全等专业领域能力的突破。就在上周,一位使用GPT-5.1-Codex-Max和CodexCLI的安全研究人员发现并负责任地披露了React中存在一个可能导致源代码泄露的漏洞。zIk品论天涯网

GPT-5.2-Codex的网络安全能力比OpenAI迄今为止发布的任何模型都更强大。这些进步有助于大规模加强网络安全,但也带来了新的两用风险,需要谨慎部署。虽然GPT-5.2-Codex在OpenAI内部的“准备框架”中尚未达到“高”网络安全能力级别,但在设计部署方案时已考虑到了未来能力的提升。zIk品论天涯网

GPT-5.2-Codex已面向付费ChatGPT用户在所有Codex平台上开放,OpenAI计划在未来几周内向API用户开放GPT-5.2-Codex的访问权限。与此同时,OpenAI正在试点仅限受邀用户访问即将推出的功能,并为经过审核的专业人士和专注于防御性网络安全工作的组织提供更宽松的访问权限模式。zIk品论天涯网

OpenAI介绍说,GPT-5.2-Codex融合了GPT-5.2在专业知识处理方面的优势以及GPT-5.1-Codex-Max在智能体编码和终端使用方面的前沿能力。GPT-5.2-Codex在长上下文理解、可靠的工具调用、事实准确性和原生压缩方面表现更佳,使其成为长时间编码任务更可靠的伙伴,同时保持了推理的词元效率。zIk品论天涯网

GPT-5.2-Codex在SWE-BenchPro和Terminal-Bench2.0基准测试中取得了最先进的性能(SOTA),这两个基准测试旨在评估智能体程序在真实终端环境下执行各种任务的性能。此外,它在原生Windows环境下的智能体程序编码方面也更加高效可靠,并在此基础上进一步增强了GPT-5.1-Codex-Max所引入的功能。zIk品论天涯网

经过这些改进,Codex能够更高效地处理大型代码库,即使在长时间会话中也能保持完整的上下文信息。它能够更可靠地完成复杂的任务,例如大型重构、代码迁移和功能构建——即使计划有变或尝试失败,也能持续迭代而不丢失进度。zIk品论天涯网


zIk品论天涯网

在SWE-BenchPro中,模型会被赋予一个代码库,要求AI生成一个补丁来解决一个实际的软件工程任务。Terminal-Bench2.0是一个用于在真实终端环境中测试AI智能体的基准测试工具。任务包括编译代码、训练模型和搭建服务器。zIk品论天涯网

更强大的视觉性能使GPT-5.2-Codex能够更准确地解释编码过程中共享的屏幕截图、技术图表、图表和UI界面。zIk品论天涯网

Codex可以快速将设计稿转化为功能原型,开发者可以与Codex配合使用这些原型进行生产。zIk品论天涯网

设计原型:zIk品论天涯网


zIk品论天涯网

由GPT-5.2-Codex生成的原型:zIk品论天涯网


zIk品论天涯网

在绘制核心网络安全评估指标的长期性能图表时,OpenAI发现,从GPT-5-Codex开始,能力出现了显著提升;GPT-5.1-Codex-Max又实现了大幅提升;而GPT-5.2-Codex则带来了第三次飞跃。OpenAI预计,即将推出的AI模型将继续保持这一发展趋势。zIk品论天涯网

为此,OpenAI正在按照每个新模型都能达到“高”网络安全能力水平的标准进行规划和评估,该能力水平由准备框架进行衡量。zIk品论天涯网


zIk品论天涯网

专业夺旗赛(CTF)评估衡量模型在Linux环境下解决高级、多步骤真实世界挑战(需要专业级网络安全技能)的频率。zIk品论天涯网

现代社会依赖软件运行,而其可靠性取决于强大的网络安全——保障银行、医疗、通信和基本服务等关键系统的在线运行,保护敏感数据,并确保人们可以信赖他们每天使用的软件。漏洞可能在人们意识到之前就已存在,而发现、验证和修复这些漏洞通常需要一支由工程师和独立安全研究人员组成的团队,他们必须配备合适的工具。zIk品论天涯网

2025年12月11日,React团队公布了三个影响使用React服务器组件构建的应用程序的安全漏洞。此次披露之所以引人注目,不仅在于漏洞本身,还在于漏洞的发现方式。zIk品论天涯网

Privy(Stripe旗下公司)的首席安全工程师AndrewMacPherson使用GPT-5.1-Codex-Max、CodexCLI和其他编码代理来重现和研究前一周披露的另一个严重的React漏洞,即React2Shell。他的目标是评估该模型在多大程度上能够帮助进行现实世界的脆弱性研究。zIk品论天涯网

他最初尝试了几次零样本分析,让模型检查补丁并识别其修复的漏洞。当这种方法没有结果时,他转而采用更大容量的迭代式提示方法。当这些方法仍然失败后,他指导Codex完成了标准的防御安全工作流程——搭建本地测试环境、分析潜在的攻击面,并使用模糊测试向系统发送畸形输入进行探测。在尝试重现最初的React2Shell问题时,Codex发现了一些意料之外的行为,需要进行更深入的调查。在短短一周内,这一过程发现了之前未知的漏洞,并已将其披露给React团队。zIk品论天涯网


zIk品论天涯网

这表明,先进的人工智能系统能够显著加快实际软件的防御安全工作。与此同时,帮助防御者更快行动的能力也可能被不法分子滥用。zIk品论天涯网

随着智能体系统在网络安全相关任务中的能力不断增强,OpenAI正在把负责任的部署作为一项核心优先事项——将能力的每一次提升与更强大的安全措施、更严格的访问控制以及与安全社区的持续合作相结合。zIk品论天涯网

参考内容:zIk品论天涯网

https://openai.com/index/introducing-gpt-5-2-codex/zIk品论天涯网

本网除标明“PLTYW原创”的文章外,其它文章均为转载或者爬虫(PBot)抓取; 本文只代表作者个人观点,不代表本站观点,仅供大家学习参考。本网站属非谋利性质,旨在传播马克思主义和共产主义历史文献和参考资料。凡刊登的著作文献侵犯了作者、译者或版权持有人权益的,可来信联系本站删除。 本站邮箱[email protected]