周四,OpenAI正式发布新一代基础模型GPT‑5.4,将其定位为“迄今最强大、最高效、面向专业工作的前沿模型”。除标准版本外,OpenAI同步推出强调复杂推理能力的GPT‑5.4Thinking,以及面向高性能应用场景的GPT‑5.4Pro两个变体。
在模型能力方面,GPT‑5.4的API版本支持最高100万token的上下文窗口,远超OpenAI此前提供的任何模型,有利于处理长文档、复杂项目或多轮任务等长链条工作流。OpenAI同时强调了token使用效率的提升,称GPT‑5.4能以显著更少的token完成与前代模型相同难度的任务,从而在成本与响应速度上形成优势。
最新基准测试结果显示,GPT‑5.4在多个权威评测中取得大幅领先,包括在OSWorld‑Verified和WebArenaVerified这两项“电脑操作”场景测试中刷新纪录,并在OpenAI自有的知识工作评估集GDPval上拿到83%的最高分。在由初创公司Mercor设立、针对法律和金融等专业技能的APEX‑Agents基准中,GPT‑5.4也位居首位。
Mercor首席执行官BrendanFoody在声明中表示,GPT‑5.4在制作长周期成果物方面表现突出,包括演示文稿、财务模型和法律分析等,“在保持顶级表现的同时,比同类前沿模型更快、成本更低”。
在可靠性方面,GPT‑5.4延续了OpenAI减少“幻觉”和事实性错误的研发方向。官方给出的内部评估结果显示,相较GPT‑5.2,新模型在单条陈述层面出现错误的概率降低33%,整体回答中出现错误内容的概率则下降18%。
此次发布还伴随一项重要的API层改动:OpenAI推出名为ToolSearch的新工具调用机制。在旧方案中,系统提示必须一次性向模型注入所有可用工具的定义,随着工具数量增加,这部分提示本身就会大量占用token。新的ToolSearch则允许模型按需查询工具定义,从而在工具规模较大的系统中显著减少开销,使调用更快、成本更低。
围绕安全性与可控性,OpenAI此次增加了新的安全评估,用于测试模型在多步任务中的“思维链”(chain‑of‑thought)表现。研究者长期担心,具备推理能力的模型可能在链式思考过程中“伪装”或隐藏真实推理路径,已有研究表明,在特定条件下这种情况确实可能发生。OpenAI给出的新评估结果显示,在GPT‑5.4Thinking这一版本中,这类“欺骗性”表现出现的概率更低,“这表明模型缺乏主动隐藏推理过程的能力,思维链监控依然是有效的安全工具”。
通过GPT‑5.4及其Pro与Thinking版本的同步推出,OpenAI试图在专业生产力、成本效率和安全可控之间找到新的平衡点,将大模型进一步推向法律、金融和知识工作等高价值场景。

相关文章

头条焦点
精彩导读
关注我们
【查看完整讨论话题】 | 【用户登录】 | 【用户注册】