OpenAI推出GPT‑5.4 面向专业工作的新一代旗舰模型-品论天涯网

周四，OpenAI正式发布新一代基础模型GPT‑5.4，将其定位为“迄今最强大、最高效、面向专业工作的前沿模型”。除标准版本外，OpenAI同步推出强调复杂推理能力的GPT‑5.4Thinking，以及面向高性能应用场景的GPT‑5.4Pro两个变体。nwq品论天涯网

在模型能力方面，GPT‑5.4的API版本支持最高100万token的上下文窗口，远超OpenAI此前提供的任何模型，有利于处理长文档、复杂项目或多轮任务等长链条工作流。OpenAI同时强调了token使用效率的提升，称GPT‑5.4能以显著更少的token完成与前代模型相同难度的任务，从而在成本与响应速度上形成优势。nwq品论天涯网

最新基准测试结果显示，GPT‑5.4在多个权威评测中取得大幅领先，包括在OSWorld‑Verified和WebArenaVerified这两项“电脑操作”场景测试中刷新纪录，并在OpenAI自有的知识工作评估集GDPval上拿到83%的最高分。在由初创公司Mercor设立、针对法律和金融等专业技能的APEX‑Agents基准中，GPT‑5.4也位居首位。nwq品论天涯网

Mercor首席执行官BrendanFoody在声明中表示，GPT‑5.4在制作长周期成果物方面表现突出，包括演示文稿、财务模型和法律分析等，“在保持顶级表现的同时，比同类前沿模型更快、成本更低”。nwq品论天涯网

在可靠性方面，GPT‑5.4延续了OpenAI减少“幻觉”和事实性错误的研发方向。官方给出的内部评估结果显示，相较GPT‑5.2，新模型在单条陈述层面出现错误的概率降低33%，整体回答中出现错误内容的概率则下降18%。nwq品论天涯网

此次发布还伴随一项重要的API层改动：OpenAI推出名为ToolSearch的新工具调用机制。在旧方案中，系统提示必须一次性向模型注入所有可用工具的定义，随着工具数量增加，这部分提示本身就会大量占用token。新的ToolSearch则允许模型按需查询工具定义，从而在工具规模较大的系统中显著减少开销，使调用更快、成本更低。nwq品论天涯网

围绕安全性与可控性，OpenAI此次增加了新的安全评估，用于测试模型在多步任务中的“思维链”（chain‑of‑thought）表现。研究者长期担心，具备推理能力的模型可能在链式思考过程中“伪装”或隐藏真实推理路径，已有研究表明，在特定条件下这种情况确实可能发生。OpenAI给出的新评估结果显示，在GPT‑5.4Thinking这一版本中，这类“欺骗性”表现出现的概率更低，“这表明模型缺乏主动隐藏推理过程的能力，思维链监控依然是有效的安全工具”。nwq品论天涯网

通过GPT‑5.4及其Pro与Thinking版本的同步推出，OpenAI试图在专业生产力、成本效率和安全可控之间找到新的平衡点，将大模型进一步推向法律、金融和知识工作等高价值场景。nwq品论天涯网