人工智能

奥特曼深夜官宣OpenAI重回开源 两大推理模型追平o4-mini

字号+作者:新智元 来源:新智元 2025-08-06 06:56 评论(创建话题) 收藏成功收藏本文

他来了!他来了!就在今夜,奥特曼带着两款全新的开源模型走来了!正如几天前泄露的,它们分别是总参数1170亿,激活参数51亿的“gpt-oss-120b”和总参数210亿,激活'...

他来了!他来了!就在今夜,奥特曼带着两款全新的开源模型走来了!正如几天前泄露的,它们分别是总参数1170亿,激活参数51亿的“gpt-oss-120b”和总参数210亿,激活参数36亿的“gpt-oss-20b”。终于,OpenAI再次回归开源。4ya品论天涯网


4ya品论天涯网

gpt-oss-120b适用于需要高推理能力的生产级和通用型场景4ya品论天涯网

gpt-oss-20b适用于低延迟、本地或专业化场景4ya品论天涯网

在核心推理基准测试中,120B模型的表现与OpenAI o4-mini相当,并且能在单张80GB显存的GPU上高效运行(如H100)。4ya品论天涯网

在常用基准测试中,20B模型的表现与OpenAI o3-mini类似,并且能在仅有16GB显存的边缘设备上运行。4ya品论天涯网

除此之外,两款模型在工具使用、少样本函数调用、CoT推理以及HealthBench评测中也表现强劲,甚至比OpenAIo1和GPT-4o等专有模型还要更强。4ya品论天涯网

其他亮点如下:4ya品论天涯网

宽松的Apache2.0许可证:可自由用于构建,无copyleft限制或专利风险——是实验、定制和商业化部署的理想选择。4ya品论天涯网

可配置的推理投入:可根据用户的具体用例和延迟需求,轻松调整推理投入(低、中、高)。4ya品论天涯网

完整的思维链:可完整访问模型的推理过程,从而简化调试并提升输出结果的可信度。4ya品论天涯网

支持微调:支持参数级微调,可根据您的特定用例对模型进行完全定制。4ya品论天涯网

智能体能力:利用模型原生的函数调用、网页浏览、Python代码执行和结构化输出等能力。4ya品论天涯网

原生MXFP4量化:在训练时,模型的混合专家(MoE)层便采用了原生的MXFP4精度,使得gpt-oss-120b在单张H100GPU上即可运行,而gpt-oss-20b仅需16GB内存。4ya品论天涯网

值得一提的是,OpenAI还特地准备了一个playground网站供大家在线体验。4ya品论天涯网


体验地址:https://gpt-oss.com/4ya品论天涯网


4ya品论天涯网

HuggingFace(120B):https://huggingface.co/openai/gpt-oss-120b4ya品论天涯网

HuggingFace(20B):https://huggingface.co/openai/gpt-oss-20b4ya品论天涯网

GPT-2以来,首次开源4ya品论天涯网

gpt-oss系模型,是OpenAI自GPT-2以来首次开源的语言模型。4ya品论天涯网

今天,OpenAI同时放出了34页技术报告,模型采用了最先进的预训练和后训练技术。4ya品论天涯网


4ya品论天涯网

模型卡:https://cdn.openai.com/pdf/419b6906-9da6-406c-a19d-1bb078ac7637/oai_gpt-oss_model_card.pdf4ya品论天涯网

预训练与模型架构4ya品论天涯网

相较于此前开源的Whisper和CLIP,gpt-oss模型在推理能力、效率以及在广泛部署环境中的实用性上更强。4ya品论天涯网

每个模型都采用了Transformer架构,并融入MoE设计,减少处理输入时激活参数量。4ya品论天涯网

如上所述,gpt-oss-120b总参数1170亿,每token激活51亿参数,gpt-oss-20b总参数210亿,每token激活36亿参数。4ya品论天涯网

此外,模型还借鉴了GPT-3设计理念,采用了交替的密集注意力和局部带状稀疏注意力模式。4ya品论天涯网


4ya品论天涯网

为了提升推理和内存效率,模型还采用了分组多查询注意力机制,组大小为8,以及旋转位置编码(RoPE),原生支持128k上下文。4ya品论天涯网

gpt-oss模型的训练数据以“英语”为主,聚焦STEM、编程和通用知识领域。4ya品论天涯网

OpenAI采用了o200k_harmony分词器对数据进行分词,它是OpenAIo4-mini和GPT-4o所用分词器的“超集”。4ya品论天涯网

今天,这款分词器同步开源。4ya品论天涯网

利好开发者的是,gpt-oss两款模型与ResponsesAPI⁠兼容,专为智能体工作流打造,在指令遵循、工具使用、推理上极其强大。4ya品论天涯网

比如,它能自主为需要复杂推理,或是目标是极低延迟输出的任务调整推理投入。4ya品论天涯网

同时完全可定制,并提供完整的思维链(CoT),以及支持结构化输出⁠。4ya品论天涯网

据悉,gpt-oss模型整个预训练成本,低于50万美元。4ya品论天涯网


4ya品论天涯网

后训练4ya品论天涯网

在后训练阶段,gpt-oss模型的流程与o4-mini相似,包含了“监督微调”和“高算力强化学习”阶段。4ya品论天涯网

训练过程中,团队以“OpenAI模型规范⁠”为目标对齐,并教导模型在生成答案前,使用CoT推理和工具。4ya品论天涯网

通过采用与专有o系推理模型的相同技术,让gpt-oss在后训练中展现出卓越能力。4ya品论天涯网

与API中的OpenAIo系列推理模型相似,这两款开源模型支持三种推理投入——低、中、高。4ya品论天涯网

开发者只需在系统提示词中加入一句话,即可在延迟与性能间灵活切换。4ya品论天涯网

OpenAI官方放出的一个demo中,惊艳展示了gpt-oss如何一步步使用工具,通过CoT推理构建一个视频游戏。4ya品论天涯网

开源小模型,比肩旗舰o3/o4-mini4ya品论天涯网

在多个基准测试中,gpt-oss-120b堪比旗舰级o系模型的性能。4ya品论天涯网

具体来说,在编程竞赛(Codeforces)、通用问题解决(MMLU和HLE)以及工具调用(TauBench)方面,它直接超越了o3-mini,达到甚至超越了o4-mini的水平。4ya品论天涯网



4ya品论天涯网

此外,在健康相关查询(HealthBench⁠)、数学竞赛(AIME2024&2025)基准中,它的表现甚至优于o4-mini。4ya品论天涯网


4ya品论天涯网

尽管gpt-oss-20b规模较小,但在相同的评估中,其表现与o3-mini持平或更优,甚至在AIME、健康领域基准上的表现超越了o3-mini。4ya品论天涯网



4ya品论天涯网

在AIME数学测试中,gpt-oss-120b和gpt-oss-20b随着推理token的增加,准确率折线逐渐逼近。4ya品论天涯网


4ya品论天涯网

在博士级知识问答基准中,gpt-oss-120b的性能始终领先于gpt-oss-20b。4ya品论天涯网


4ya品论天涯网

此外,OpenAI近期研究表明,未经直接监督训练的CoT有助于发现模型潜在不当行为。4ya品论天涯网

这一观点也得到了业内其他同行的认同。4ya品论天涯网

同样,遵循o1-preview⁠的设计原则,研究团队并未对gpt-oss模型CoT直接监督,让模型更加透明。4ya品论天涯网


4ya品论天涯网

OpenAI,OpenAI了4ya品论天涯网

gpt-oss-120b和gpt-oss-20b的开源,标志着OpenAI终于在开源模型上,迈出了重要一步。4ya品论天涯网

在同等规模下,它们在推理性能上,可与o3-mini、o4-mini一较高下,甚至是领先。4ya品论天涯网

OpenAI开源模型为所有开发者,提供了强大的工具,补充了托管模型的生态,加速前沿研究、促进创新。4ya品论天涯网

更重要的是,模型开源降低了一些群体,比如新兴市场、缺少算力小企业的准入门槛。4ya品论天涯网

一个健康的开放模型生态系统,是让AI普及并惠及所有人的一个重要方面。4ya品论天涯网

对于这次的开源,奥特曼骄傲地表示:gpt-oss是OpenAI“数十亿美元”研究成果的结晶,是全世界最出色、最实用的开放模型!4ya品论天涯网


4ya品论天涯网

还等什么?赶快下载下来享用吧!4ya品论天涯网

本网除标明“PLTYW原创”的文章外,其它文章均为转载或者爬虫(PBot)抓取; 本文只代表作者个人观点,不代表本站观点,仅供大家学习参考。本网站属非谋利性质,旨在传播马克思主义和共产主义历史文献和参考资料。凡刊登的著作文献侵犯了作者、译者或版权持有人权益的,可来信联系本站删除。 本站邮箱[email protected]