OpenAI发布首款具备推理能力的模型o1 拥有初步的事实查核能力-品论天涯网

OpenAI正在发布一款名为o1的新模型，这是计划中的一系列"推理"模型中的第一个，这些模型经过训练，可以比人类更快地回答更复杂的问题。它将与o1-mini同时发布，后者是一个更小、更便宜的版本。没错，如果你对人工智能的传言很熟悉的话：这就是被炒得沸沸扬扬的草莓模型。QsE品论天涯网

QsE品论天涯网

对于OpenAI来说，o1代表着它向类人人工智能的更广泛目标迈进了一步。更实际的是，它在编写代码和解决多步骤问题方面比以前的模型做得更好。但与GPT-4o相比，它的成本更高，速度更慢。OpenAI将这次发布的o1称为"预览版"，以强调它的雏形。QsE品论天涯网

ChatGPTPlus和Team用户从今天开始可以访问o1-preview和o1-mini，而Enterprise和Edu用户将在下周初访问。开发者访问o1的费用非常昂贵：在API中，o1-preview每100万个输入令牌（即模型解析的文本块）收费15美元，每100万个输出令牌收费60美元。相比之下，GPT-4o的价格为每100万个输入词组5美元，每100万个输出词组15美元。QsE品论天涯网

OpenAI的研究负责人杰里-特沃瑞克（JerryTworek）告诉我，o1背后的训练与前代产品有本质区别，不过公司对具体细节含糊其辞。他说，o1"采用了全新的优化算法和专门为其定制的新训练数据集"。QsE品论天涯网

QsE品论天涯网

OpenAI正在培训以前的GPT模型模仿训练数据中的模式。在使用o1时，OpenAI利用一种名为"强化学习"的技术训练模型自行解决问题，该技术通过奖惩来教导系统。然后，它使用"思维链"来处理查询，这与人类逐步解决问题的方式类似。QsE品论天涯网

OpenAI表示，由于采用了这种新的训练方法，模型应该会更加准确。"我们注意到，这个模型产生幻觉的情况减少了，"Tworek说。但问题依然存在。"我们不能说我们解决了幻觉问题"。这个新模型与GPT-4o不同之处主要在于，它能比前代模型更好地处理复杂问题，如编码和数学问题，同时还能解释自己的推理。QsE品论天涯网

OpenAI的首席研究官鲍勃-麦格鲁（BobMcGrew）告诉我："这个模型在解决AP数学考试方面绝对比我强，而我在大学里辅修的是数学。他说，OpenAI还用国际数学奥林匹克竞赛的资格考试对o1进行了测试，GPT-4o只正确解决了13%的问题，而o1则达到了83%。"QsE品论天涯网

"我们不能说我们解决了幻觉问题"QsE品论天涯网

在被称为"Codeforces"的在线编程竞赛中，这种新模型在参赛者中的排名达到了第89位，OpenAI声称，这种模型的下一个更新版本将在"物理、化学和生物学领域具有挑战性的基准任务中取得与博士生类似的表现"。QsE品论天涯网

同时，o1在很多方面的能力都不如GPT-4o。它在对世界的实际了解方面做得不够好。它也不具备浏览网页或处理文件和图像的能力。尽管如此，该公司仍认为它代表了一种全新的能力。它被命名为o1，表示"将计数器重置回1"。QsE品论天涯网

麦克格鲁说："老实说，我认为我们在传统命名方面做得很糟糕。所以我希望这是我们迈出的第一步，我们会用更新、更理智的名字，更好地向世界其他地方传达我们正在做的事情。"QsE品论天涯网

McGrew和Tworek本周通过视频通话展示了o1。他们要求它解决这个难题："当公主的年龄是王子年龄的两倍时，公主的年龄就是王子年龄的两倍。王子和公主的年龄是多少？请提供该问题的所有答案"。QsE品论天涯网

模型运算了30秒钟，然后给出了正确答案。OpenAI设计的界面可以在模型思考时显示推理步骤。让我印象深刻的并不是它展示了自己的工作--GPT-4o可以在提示下做到这一点--而是o1是如何刻意模仿人类的思维。诸如"我很好奇"、"我正在思考"和"好的，让我看看"这样的句子营造出一种循序渐进的思考假象。QsE品论天涯网

但这个模型不会思考，更不是人类。那么，为什么要把它设计得像人一样呢？QsE品论天涯网

我很好奇"、"我正在思考"、"好的，让我看看"等短语会让人产生一种循序渐进的思考错觉。

Tworek认为，OpenAI并不相信人工智能模型的思维等同于人类思维。但他说，该界面旨在展示模型如何花更多时间处理和深入解决问题。"在某些方面，它比之前的模型更有人情味"。QsE品论天涯网

麦克格鲁说："我想你会发现，它有很多让人感觉有点陌生的地方，但也有让人感觉出奇人性化的地方。该模型处理查询的时间有限，因此它可能会说：哦，我没时间了，让我快点找到答案吧。早期，在它的思维链中，它也可能看起来像是在头脑风暴，并会说：我可以做这个或那个，我该怎么做？"QsE品论天涯网

大型语言模型并不完全智能。它们本质上只是根据从大量数据中学到的模式来预测单词序列以提供答案。就拿ChatGPT来说，它往往会误认为"草莓"这个词只有两个R，因为它没有正确地分解这个词。不过，新的o1模型已经可以正确地回答这个问题。QsE品论天涯网

据报道，OpenAI希望以令人瞠目的1500亿美元估值筹集更多资金，其发展势头取决于更多的研究突破。该公司之所以将推理能力引入LLM，是因为它看到了自主系统或代理的未来，它们能够代表你做出决策并采取行动。QsE品论天涯网

对于人工智能研究人员来说，破解推理是迈向人类智能水平的重要一步。他们的想法是，如果一个模型不仅能进行模式识别，还能在医学和工程学等领域实现突破。但目前，o1的推理能力相对较慢，不像代理，开发人员使用起来也很昂贵。QsE品论天涯网

麦格鲁说："我们已经花了好几个月的时间来研究推理，因为我们认为这实际上是关键性的突破。从根本上说，这是模型的一种新模式，以便能够解决真正困难的问题，从而向人类智能水平迈进。"QsE品论天涯网