OpenAI新模型达到博士水平？我找清北博士品鉴了一下-品论天涯网

说实话，有点受不了这些公司，老是半夜丢个大的了……尤其点名OpenAI，这回又毫无预告地发布了那个大家惦记了很久的新模型。之前说什么草莓不草莓的，一张草莓的照片遛了大家好几天。结果，这回新模型根本跟草莓毛关系没有，而是起了一个全新的名字OepnAIo1模型。ADX品论天涯网

ADX品论天涯网

而且这玩意已经号称openAI的天顶星科技，奥特曼直接发帖明说了，这就是他们到现在为止最强、最一致的模型。ADX品论天涯网

ADX品论天涯网

跟往次不同的是，这玩意到底多牛OpenAI实际也没多吹，但是轻飘飘甩出了几张图，就有点让人头皮微麻。ADX品论天涯网

像下面的图里，三个测试项目的结果就能说明了，分别是国际数学奥林匹克竞赛、编程竞赛还有博士级别的科学问题。ADX品论天涯网

这里面最左边为GPT-4o，中间是目前已经开放了的预览版o1，最右边高高的红色柱子为满血o1。你瞅瞅，基本每一项，o1比起自己的前辈来说，都是接近8倍的提升……ADX品论天涯网

ADX品论天涯网

要是把这些测试结果拆开来，这新o1也几乎是在各种学科、各种领域，都全量、全面、全方位地超越4o。ADX品论天涯网

ADX品论天涯网

而真正让差评君觉得可怕的是，OpenAI说自己专门请了博士专家一起答题。ADX品论天涯网

结果在博士级别的测试结果上，我们看到o1答题分数均超过了博士专家。o1得分78，人类得分69.7……ADX品论天涯网

连博士都输了，那我和它比算什么？ADX品论天涯网

ADX品论天涯网

敏感的网友们，直接就炸了呀。又开始喊着，新的神已经出现。ADX品论天涯网

ADX品论天涯网

随便一翻，都是带着【最】字的超高评价，什么“简直太棒了！”、“最接近人类推理的东西”。ADX品论天涯网

ADX品论天涯网

甚至有不少差友跑到咱们后台，感慨o1你小子确实有点东西啊。ADX品论天涯网

ADX品论天涯网

听起来是不是很牛逼？OpenAI他们自己很显然也是这么觉着的。ADX品论天涯网

具体OpenAI在它上面花了多少钱还没公布，但从用户使用上，就能明显看到这玩意多耗钱了。ADX品论天涯网

o1预览版每百万输入15美元，每百万输出60美元ADX品论天涯网

ADX品论天涯网

这次对用户开放的甚至不是满血版本，就是一个早期的预览版和一个小型阉割版。ADX品论天涯网

哪怕只是抢先尝鲜，不仅不免费，哪怕你掏钱开了会员，也卡你问答次数。预览版每周只有30条，mini每周只有50条……ADX品论天涯网

ADX品论天涯网

虽然有点贵，但我们肯定不可能让OpenAI吹什么就是什么。ADX品论天涯网

他们不是说超过博士了吗？差评君就冲了几个账号，去找了几个博士来亲测了一下。ADX品论天涯网

为了保证专业性和客观性，我们专门邀请了理综三科的博士参与测评，有生物学、固体物理学、材料化学等等。ADX品论天涯网

其中，南京大学在读的固体物理学崔博士给出的评价，算是几个人里最高的。他觉得o1已经达到了60-80分（满分100）的水平。ADX品论天涯网

甚至，部分回答也可以给到90分。ADX品论天涯网

崔博士给的第一个问题：远距离纠缠光子分发，有什么克服白噪声的办法？ADX品论天涯网

大概9秒钟左右，o1就给出了10点可行的措施。ADX品论天涯网

当然了，没一个点是我看得明白的。不过，崔博士的评价还可以：答案列举全面，符合现有的最新研究进展，属于科普级别的答案。ADX品论天涯网

其中，提到的自适应光学的方向甚至是今年最新的science成果。ADX品论天涯网

ADX品论天涯网

和老版4o一比，马上高下立判了。ADX品论天涯网

就别说新方向提没提到，光是给出的措施数量上，就差了不少。ADX品论天涯网

ADX品论天涯网

于是后面，我们就专门对自适应光学这个船新方向进行了追问：利用了量子纠缠的什么原理来提高信噪比？能否拓展到量子自适应光学？ADX品论天涯网

几轮答案之后，崔博士给出了80-90分的高分，还大方地和我承认，部分思考是他的薄弱点，对他的方向有提示作用。ADX品论天涯网

ADX品论天涯网

不过，后续我们再深入追问之后，它问题就暴露出来了。当追问到更难的实验细节部分，o1的回答效果就会降低。ADX品论天涯网

ADX品论天涯网

但总体来说，在物理方面，o1的表现算是不错的。和老版比下来，提升基本在20分左右。ADX品论天涯网

不过，在OpenAI的测试里，物理本来就是分数最高的。所以我们又拉来一位北大在读材料化学的K博士，想对它评分最低的化学，来几个狠问题。ADX品论天涯网

K博士围绕Fe-N4问了一系列的问题，o1给了很长的一串回答，为了精简篇幅我们这里只展示了部分问题和结果。ADX品论天涯网

ADX品论天涯网

整体测试之后，K博士给出的评价也差不多：可能有研究生水平，但是深入的认知和给方案的能力，比较虚，主要还是针对已知内容作答。ADX品论天涯网

比如问到如何调节Fe-N4，o1可以说出基于电子态调节，但你要是问它那该咋调节，它就有点卡壳了。ADX品论天涯网

虽然相比gpt4o没那么胡说八道，但具体的问题上他俩都给不了太多建议，老版是丧失细节乱说，新版能力有限就会词穷。ADX品论天涯网

除了这俩，理综三科那肯定也少不了生物。ADX品论天涯网

我们还咨询了来自清华，在读生物学的信博士，他的问题是：“如何从质谱数据集中区分赖氨酸残基的乳酰化和羧乙基修饰？”ADX品论天涯网

虽然我听不懂，但是o1也给了一段非常长的回答，跟论文综述似的，后面还贴了参考文献。ADX品论天涯网

ADX品论天涯网

但出乎意料的是，当我们把这个回答交给信博士，人家看完就发现不对路了，而且是一眼丁真的问题。ADX品论天涯网

倒不是这AI回答的全错，而是AI在参考文献里乱编，这论文压根不存在！ADX品论天涯网

虽然编了，但也没完全编，总体来说人家清华博士还是觉得比之前的AI能强不少，起码理解能力是肉眼可见了，编也编的很像……ADX品论天涯网

ADX品论天涯网

不过，不同方向的博士评价有所区别，这或许也跟o1自己擅长的领域有关。ADX品论天涯网

拿官方给出的理综分数来看，虽然gpt4o在生物学上的评分要比化学和物理高，但这回的o1就完全不一样。ADX品论天涯网

o1在物理上的分数达到了92.8，已经远超其他两门学科，这或许就是崔博士对它比较看好的原因。ADX品论天涯网

ADX品论天涯网

总体而言，真要说到超越专业博士水平，博士们认为还得缓缓。ADX品论天涯网

崔博士直言，在现实科研工作中，多数情况学者们都还得自己动手，AI只能提供大致方向，因此花钱要这样的细致AI意义不大。ADX品论天涯网

他更推荐本科生选择这个AI，要是硕博阶段，那这个AI的回答其实并不符合导师标准，组会上肯定要挨批。ADX品论天涯网

清华的信博士也同样持这种看法，且不说AI的幻觉编造文献问题，就专业程度而言，AI的回答也只能糊弄大同行，也就是同一大学科里面方向不同的人群；而在小同行，专业研究这个方向的人眼里，AI的毛病还是非常明显的。ADX品论天涯网

北大K博士则谈的更深入，他认为这个AI只能说在认知上有了硕士生的水平，但也只是作为一个缝补匠，谈不上说出什么创造性的成果。就创造性这一点来说，AI是远远比不上硕博的水平的，这也是AI需要解决的重要问题。ADX品论天涯网

在博士们的评价里，我们似乎能抓到一个重点：o1模型之所以相对更强，是因为他有了更高维的认知和思考模式。ADX品论天涯网

这，也是o1本次更新的要点。我们在OpenAI官网找到了LearningtoReasonwithLLMs这篇文章，他们在文中表示，主要是他们用上了长思维链( CoT，Chainofthought )，而不是传统的提示链（Promptchain）。ADX品论天涯网

第一眼看上去有点懵，说人话就是，这个大模型改变了以往那种你问我答的思考方式。ADX品论天涯网

在以前的模式下，大模型的问答就跟下意识出答案一样，比如你问我天是啥颜色，这问题我想都不想，秒答蓝色。这实际上需要我本来就知道这个知识点，然后给你直接反应就完了。ADX品论天涯网

但这个长思维链就相当于，我不仅要知道蓝色是个啥，还能自己推一遍为啥是蓝色，什么大气散射，光谱波长都要考虑进去。ADX品论天涯网

ADX品论天涯网

这就需要AI得有实打实的构建逻辑，推理论证的能力，换句话说，他不仅要长脑子，还要动脑子。ADX品论天涯网

尽管思维链这个概念是2022年Google提出来的，但OpenAI这次是第一个实现的。ADX品论天涯网

实操过程中，现在你与o1模型对话，除了收获答案，还可以看选择展开看他解答问题时的思维逻辑，他的思考是具象化的而不是黑盒。ADX品论天涯网

比如我们拿崔博士提问的“远距离纠缠光子分发，有什么克服白噪声的办法？”这一问题为例，o1模型的思考过程如下：ADX品论天涯网

ADX品论天涯网

不过，就像专业领域的问题它也会翻车一样，有些日常场景的简单题似乎也有可能难住它。ADX品论天涯网

拿之前那个经典9.11和9.8比大小例子来说，小红书网友@小水刚醒就发现这玩意“一上难度就崩溃……无限循环发疯般推思维链（CoT）”ADX品论天涯网

ADX品论天涯网

我们编辑部自己评测时也发现了这个问题，不过当询问它为什么的时候，它也会马上反应过来自己推理出现了错误，然后再重新推导一番。ADX品论天涯网

好好好，不愧是博士，善于发现错误是吧。ADX品论天涯网

ADX品论天涯网

整轮测试下来，差评君不得不承认，它确实是大大提升了。士别三日，也的确应当刮目相看。ADX品论天涯网

在效果上，也确实相比前代确实更好，而且长思维的应用，对未来AI发展都是好事。ADX品论天涯网

但在几位博士轮番鞭打完以后，它的问题也暴露得挺明显的，在创造力等某些方面，还替代不了人类博士专家。ADX品论天涯网

不过OpenAI的研究人员NoamBrown透露，未来版本的o1将会思考几个小时、几天甚至几周，虽然这样烧钱会更多，但像在研发抗癌药这些任务上，这种花费也是值得的。ADX品论天涯网

另外，差评君觉得GPTo1实现的思维链模式，也很有可能会像之前的Transformer架构、DiT架构那样，又会引领全世界的大模型的方向。ADX品论天涯网

所以说，通往AGI之路说近不近，但说远也不远，期待接下来各家的选手轮番登场了。ADX品论天涯网