用过GPT-4 Turbo以后，我们再也回不去了-品论天涯网

昨天，很多人彻夜未眠——全球科技圈都把目光聚焦在了美国旧金山。短短45分钟时间里，OpenAICEO山姆・奥特曼向我们介绍了迄今为止最强的大模型，和基于它的一系列应用，一切似乎就像当初ChatGPT一样令人震撼。OpenAI在本周一的首个开发者日上推出了GPT-4Turbo，新的大模型更聪明，文本处理上限更高，价格也更便宜，应用商店也开了起来。现在，用户还可以根据需求构建自己的GPT。Snw品论天涯网

根据官方说法，这一波GPT的升级包括：Snw品论天涯网

更长的上下文长度：128k，相当于300页文本。Snw品论天涯网

更高的智能程度，更好的JSON/函数调用。Snw品论天涯网

更高的速度：每分钟两倍token。Snw品论天涯网

知识更新：目前的截止日期为2023年4月。Snw品论天涯网

定制化：GPT316k、GPT4微调、定制模型服务。Snw品论天涯网

多模态：Dall-E3、GPT4-V和TTS模型现已在API中。Snw品论天涯网

WhisperV3开源（即将推出API）。Snw品论天涯网

与开发者分享收益的Agent商店。Snw品论天涯网

GPT4Turbo的价格约是GPT4的1/3。Snw品论天涯网

发布会一开完，人们蜂拥而入开始尝试。GPT4Turbo的体验果然不同凡响。首先是快，快到和以前所有大模型拉开了代差：Snw品论天涯网

Snw品论天涯网

然后是功能增多，画画的时候，你一有灵感就可以直接说话让AI负责实现：Snw品论天涯网

Snw品论天涯网

设计个UI，几个小时的工作变成几分钟：Snw品论天涯网

Snw品论天涯网

我直接不装了，截个图复制粘贴别人的网站，生成自己的，只用40秒：Snw品论天涯网

Snw品论天涯网

利用ChatGPT与Bing的浏览功能以及与DALL-E3图像生成器的集成，沃顿商学院教授EthanMollick分享了一段视频，展示了他的名为“趋势分析器”的GPT工具，其可查找市场特定细分市场的趋势，然后创建新产品的原型图像。Snw品论天涯网

Snw品论天涯网

OctaneAI首席执行官MattSchlicht的SimponizeMeGPT会自动应用提示来转换用户上传的个人资料照片，生成《辛普森一家》的风格，做这个小应用只用了不到十分钟。Snw品论天涯网

Snw品论天涯网

GPT-4Turbo具有创纪录的准确率，在PyLLM基准上，GPT-4Turbo的准确率是87%，而GPT-4的准确率是52%，这是在速度几乎快了四倍多的情况下（每秒48token）实现的。Snw品论天涯网

至此，生成式AI的竞争似乎进入了新的阶段。很多人认为，当竞争对手们依然在追求更快、能力更强的大模型时，OpenAI其实早就已经把所有方向都试过了一遍，这一波更新会让一大批创业公司作古。Snw品论天涯网

也有人表示，既然Agent是大模型重要的方向，OpenAI也开出了Agent应用商店，接下来在智能体领域，我们会有很多机会。Snw品论天涯网

竞争者们真的无路可走了吗？价格降低，速度变快以后，大模型的性能还能同时变得更好？这必须要看实践，在OpenAI的博客中，其实说法是这样的：在某些格式的输出下，GPT-4Turbo会比GPT-4结果更好。那么总体情况会如何？Snw品论天涯网

在新模型发布的24小时内，就有研究者在Aider上进行了AI生成代码的能力测试。Snw品论天涯网

在gpt-4-1106-preview模型上，仅使用diff编辑方法对GPT-4模型进行基准测试得出的结论是：Snw品论天涯网

新的gpt-4-1106-preview模型似乎比早期的GPT-4模型快得多；Snw品论天涯网

第一次尝试时似乎更能生成正确的代码，能正确完成大约57%的练习，以前的模型在第一次尝试时只能正确完成46-47%的练习；Snw品论天涯网

在通过检查测试套件错误输出获得第二次纠正错误的机会后，新模型的表现(~66%)似乎与旧模型(63-64%)相似。Snw品论天涯网

接下来是使用whole和diff编辑格式对GPT-3.5模型进行的基准测试。结果表明，似乎没有一个gpt-3.5模型能够有效地使用diff编辑格式，包括最新的11月出现的新模型（简称1106）。下面是一些whole编辑格式结果：Snw品论天涯网

新的gpt-3.5-turbo-1106型号完成基准测试的速度比早期的GPT-3.5型号快3-4倍；Snw品论天涯网

首次尝试后的成功率为42%，与之前的6月(0613)型号相当。1106模型和0613模型都比原来的0301第一次尝试的结果更差，为50%；Snw品论天涯网

新模型在第二次尝试后的成功率为56%，似乎与3月的模型相当，但比6月的模型要好一些，6月的模型为50%得分。Snw品论天涯网

Snw品论天涯网

这项测试是如何进行的呢，具体而言，研究者让Aider尝试完成133个ExercismPython编码练习。对于每个练习，Exercism都提供了一个起始Python文件，文件包含所要解决问题的自然语言描述以及用于评估编码器是否正确解决问题的测试套件。Snw品论天涯网

基准测试分为两步：Snw品论天涯网

第一次尝试时，Aider向GPT提供要编辑的桩代码文件以及描述问题的自然语言指令。这些指令反映了用户如何使用Aider进行编码。用户将源代码文件添加到聊天中并请求更改，这些更改会被自动应用。Snw品论天涯网

如果测试套件在第一次尝试后失败，Aider会将测试错误输出提供给GPT，并要求其修复代码。Aider的这种交互式方式非常便捷，用户使用/runpytest之类的命令来运行pytest并在与GPT的聊天中共享结果。Snw品论天涯网

然后就有了上述结果。至于Aider，对于那些不了解的小伙伴，接下来我们简单介绍一下。Snw品论天涯网

Aider是一个命令行工具，可以让用户将程序与GPT-3.5/GPT-4配对，以编辑本地git存储库中存储的代码。用户既可以启动新项目，也可以使用现有存储库。Aider能够确保GPT中编辑的内容通过合理的提交消息提交到git。Aider的独特之处在于它可以很好地与现有的更大的代码库配合使用。Snw品论天涯网

Snw品论天涯网

简单总结就是，借助该工具，用户可以使用OpenAI的GPT编写和编辑代码，轻松地进行gitcommit、diff和撤消GPT提出的更改，而无需复制/粘贴，它还具有帮助GPT-4理解和修改更大代码库的功能。Snw品论天涯网

为了达到上述功能，Aider需要能够准确地识别GPT何时想要编辑用户源代码，还需要确定GPT想要修改哪些文件并对GPT做出的修改进行准确的应用。然而，做好这项“代码编辑”任务并不简单，需要功能较强的LLM、准确的提示以及与LLM交互的良好工具。Snw品论天涯网

操作过程中，当有修改发生时，Aider会依靠代码编辑基准（codeeditingbenchmark）来定量评估修改后的性能。例如，当用户更改Aider的提示或驱动LLM对话的后端时，可以通过运行基准测试以确定这些更改产生多少改进。Snw品论天涯网

此外还有人使用GPT-4Turbo简单和其他模型对比了一下美国高考SAT的成绩：Snw品论天涯网

Snw品论天涯网

同样，看起来聪明的程度并没有拉开代差，甚至还有点退步。不过必须要指出的是，实验的样本数量很小。Snw品论天涯网

综上所述，GPT-4Turbo的这一波更新更重要的是完善了功能，增加了速度，准确性是否提高仍然存疑。这或许与整个大模型业界目前的潮流一致：重视优化，面向应用。业务落地速度慢的公司要小心了。Snw品论天涯网

另一方面，从这次开发者日的发布内容来看，OpenAI也从一个极度追求前沿技术的创业公司，变得开始关注起用户体验和生态构建，更像大型科技公司了。Snw品论天涯网

再次颠覆AI领域的GPT-5，我们还得再等一等。Snw品论天涯网