它们拥有一个包含100万个词元的上下文窗口,这意味着它们可以一次性输入大约75万个单词(比《战争与和平》还要长)。
GPT-4.1的到来正值OpenAI的竞争对手Google和Anthropic加紧构建复杂编程模型之际。Google最近发布的Gemini2.5Pro也拥有100万个词元上下文窗口,在热门编码基准测试中名列前茅。Anthropic的Claude3.7Sonnet和中国AI初创公司DeepSeek的升级版V3也同样名列前茅。
训练能够执行复杂软件工程任务的AI编码模型是包括OpenAI在内的许多科技巨头的目标。OpenAI的宏伟目标是打造“代理软件工程师”,正如其首席财务官SarahFriar上个月在伦敦举行的一次科技峰会上所说。该公司声称,其未来的模型将能够端到端地编写整个应用程序,处理质量保证、错误测试和文档编写等方面的工作。GPT-4.1是朝着这个方向迈出的一步。
OpenAI的一位发言人表示:“我们根据直接反馈对GPT-4.1进行了优化,使其更适合实际使用,从而改进了开发者最关心的领域:前端编码、减少不必要的编辑、可靠地遵循格式、遵循响应结构和顺序、保持一致的工具使用等等。这些改进使开发者能够构建出在实际软件工程任务中表现更出色的代理。”
OpenAI声称,完整的GPT-4.1模型在包括SWE-bench在内的编码基准测试中均优于其GPT-4o和GPT-4omini 模型。据称,GPT-4.1mini和nano效率更高、速度更快,但准确性有所降低。OpenAI表示,GPT-4.1nano是其迄今为止速度最快、成本最低的模型。
GPT-4.1每百万输入词元成本为2美元,每百万输出词元成本为8美元。GPT-4.1mini每百万输入词元成本为0.40美元,每百万输出词元成本为1.60美元;GPT-4.1nano每百万输入词元成本为0.10美元,每百万输出词元成本为0.40美元。
根据OpenAI的内部测试,GPT-4.1可以一次性生成比GPT-4o更多的词元(32768对16384),在SWE-benchVerified(SWE-bench的人工验证子集)上的得分在52%到54.6%之间。(OpenAI在一篇博文中指出,一些SWE-benchVerified问题的解决方案无法在其基础架构上运行,因此得分范围有所不同。)这些数字略低于Google和Anthropic在同一基准测试中分别报告的Gemini2.5Pro(63.8%)和Claude3.7Sonnet(62.3%)的得分。
在另一项评估中,OpenAI使用Video-MME测试了GPT-4.1,该模型旨在衡量模型“理解”视频内容的能力。OpenAI声称,GPT-4.1在“长篇无字幕”视频类别中达到了72%的最高准确率。
虽然GPT-4.1在基准测试中得分相当不错,并且“知识截止”时间也较新,使其能够更好地参考时事(截至2024年6月),但必须牢记,即使是当今一些最好的模型,在处理一些专家不会犯错的任务时也会遇到困难。例如,许多研究表明 ,代码生成模型通常 无法修复安全漏洞和bug,甚至会引入这些漏洞。
OpenAI也承认,GPT-4.1处理的输入词元越多,其可靠性就越低(即更容易出错)。在该公司自己的测试OpenAI-MRCR中,该模型的准确率从8000个词元时的84%左右下降到1024个词元时的50%。该公司表示,GPT-4.1也比GPT-4o更“直白”,有时需要更具体、更明确的提示。

相关文章

头条焦点
精彩导读
关注我们
【查看完整讨论话题】 | 【用户登录】 | 【用户注册】