说实话,有点受不了这些公司,老是半夜丢个大的了……尤其点名OpenAI,这回又毫无预告地发布了那个大家惦记了很久的新模型。之前说什么草莓不草莓的,一张草莓的照片遛了大家好几天。结果,这回新模型根本跟草莓毛关系没有,而是起了一个全新的名字OepnAIo1模型。
而且这玩意已经号称openAI的天顶星科技,奥特曼直接发帖明说了,这就是他们到现在为止最强、最一致的模型。
跟往次不同的是,这玩意到底多牛OpenAI实际也没多吹,但是轻飘飘甩出了几张图,就有点让人头皮微麻。
像下面的图里,三个测试项目的结果就能说明了,分别是国际数学奥林匹克竞赛、编程竞赛还有博士级别的科学问题。
这里面最左边为GPT-4o,中间是目前已经开放了的预览版o1,最右边高高的红色柱子为满血o1。你瞅瞅,基本每一项,o1比起自己的前辈来说,都是接近8倍的提升……
要是把这些测试结果拆开来,这新o1也几乎是在各种学科、各种领域,都全量、全面、全方位地超越4o。
而真正让差评君觉得可怕的是,OpenAI说自己专门请了博士专家一起答题。
结果在博士级别的测试结果上,我们看到o1答题分数均超过了博士专家。o1得分78,人类得分69.7……
连博士都输了,那我和它比算什么?
敏感的网友们,直接就炸了呀。又开始喊着,新的神已经出现。
随便一翻,都是带着【最】字的超高评价,什么“简直太棒了!”、“最接近人类推理的东西”。
甚至有不少差友跑到咱们后台,感慨o1你小子确实有点东西啊。
听起来是不是很牛逼?OpenAI他们自己很显然也是这么觉着的。
具体OpenAI在它上面花了多少钱还没公布,但从用户使用上,就能明显看到这玩意多耗钱了。
o1预览版每百万输入15美元,每百万输出60美元
这次对用户开放的甚至不是满血版本,就是一个早期的预览版和一个小型阉割版。
哪怕只是抢先尝鲜,不仅不免费,哪怕你掏钱开了会员,也卡你问答次数。预览版每周只有30条,mini每周只有50条……
虽然有点贵,但我们肯定不可能让OpenAI吹什么就是什么。
他们不是说超过博士了吗?差评君就冲了几个账号,去找了几个博士来亲测了一下。
为了保证专业性和客观性,我们专门邀请了理综三科的博士参与测评,有生物学、固体物理学、材料化学等等。
其中,南京大学在读的固体物理学崔博士给出的评价,算是几个人里最高的。他觉得o1已经达到了60-80分(满分100)的水平。
甚至,部分回答也可以给到90分。
崔博士给的第一个问题:远距离纠缠光子分发,有什么克服白噪声的办法?
大概9秒钟左右,o1就给出了10点可行的措施。
当然了,没一个点是我看得明白的。不过,崔博士的评价还可以:答案列举全面,符合现有的最新研究进展,属于科普级别的答案。
其中,提到的自适应光学的方向甚至是今年最新的science成果。
和老版4o一比,马上高下立判了。
就别说新方向提没提到,光是给出的措施数量上,就差了不少。
于是后面,我们就专门对自适应光学这个船新方向进行了追问:利用了量子纠缠的什么原理来提高信噪比?能否拓展到量子自适应光学?
几轮答案之后,崔博士给出了80-90分的高分,还大方地和我承认,部分思考是他的薄弱点,对他的方向有提示作用。
不过,后续我们再深入追问之后,它问题就暴露出来了。当追问到更难的实验细节部分,o1的回答效果就会降低。
但总体来说,在物理方面,o1的表现算是不错的。和老版比下来,提升基本在20分左右。
不过,在OpenAI的测试里,物理本来就是分数最高的。所以我们又拉来一位北大在读材料化学的K博士,想对它评分最低的化学,来几个狠问题。
K博士围绕Fe-N4问了一系列的问题,o1给了很长的一串回答,为了精简篇幅我们这里只展示了部分问题和结果。
整体测试之后,K博士给出的评价也差不多:可能有研究生水平,但是深入的认知和给方案的能力,比较虚,主要还是针对已知内容作答。
比如问到如何调节Fe-N4,o1可以说出基于电子态调节,但你要是问它那该咋调节,它就有点卡壳了。
虽然相比gpt4o没那么胡说八道,但具体的问题上他俩都给不了太多建议,老版是丧失细节乱说,新版能力有限就会词穷。
除了这俩,理综三科那肯定也少不了生物。
我们还咨询了来自清华,在读生物学的信博士,他的问题是:“如何从质谱数据集中区分赖氨酸残基的乳酰化和羧乙基修饰?”
虽然我听不懂,但是o1也给了一段非常长的回答,跟论文综述似的,后面还贴了参考文献。
但出乎意料的是,当我们把这个回答交给信博士,人家看完就发现不对路了,而且是一眼丁真的问题。
倒不是这AI回答的全错,而是AI在参考文献里乱编,这论文压根不存在!
虽然编了,但也没完全编,总体来说人家清华博士还是觉得比之前的AI能强不少,起码理解能力是肉眼可见了,编也编的很像……
不过,不同方向的博士评价有所区别,这或许也跟o1自己擅长的领域有关。
拿官方给出的理综分数来看,虽然gpt4o在生物学上的评分要比化学和物理高,但这回的o1就完全不一样。
o1在物理上的分数达到了92.8,已经远超其他两门学科,这或许就是崔博士对它比较看好的原因。
总体而言,真要说到超越专业博士水平,博士们认为还得缓缓。
崔博士直言,在现实科研工作中,多数情况学者们都还得自己动手,AI只能提供大致方向,因此花钱要这样的细致AI意义不大。
他更推荐本科生选择这个AI,要是硕博阶段,那这个AI的回答其实并不符合导师标准,组会上肯定要挨批。
清华的信博士也同样持这种看法,且不说AI的幻觉编造文献问题,就专业程度而言,AI的回答也只能糊弄大同行,也就是同一大学科里面方向不同的人群;而在小同行,专业研究这个方向的人眼里,AI的毛病还是非常明显的。
北大K博士则谈的更深入,他认为这个AI只能说在认知上有了硕士生的水平,但也只是作为一个缝补匠,谈不上说出什么创造性的成果。就创造性这一点来说,AI是远远比不上硕博的水平的,这也是AI需要解决的重要问题。
在博士们的评价里,我们似乎能抓到一个重点:o1模型之所以相对更强,是因为他有了更高维的认知和思考模式。
这,也是o1本次更新的要点。我们在OpenAI官网找到了LearningtoReasonwithLLMs这篇文章,他们在文中表示,主要是他们用上了长思维链( CoT,Chainofthought ),而不是传统的提示链(Promptchain)。
第一眼看上去有点懵,说人话就是,这个大模型改变了以往那种你问我答的思考方式。
在以前的模式下,大模型的问答就跟下意识出答案一样,比如你问我天是啥颜色,这问题我想都不想,秒答蓝色。这实际上需要我本来就知道这个知识点,然后给你直接反应就完了。
但这个长思维链就相当于,我不仅要知道蓝色是个啥,还能自己推一遍为啥是蓝色,什么大气散射,光谱波长都要考虑进去。
这就需要AI得有实打实的构建逻辑,推理论证的能力,换句话说,他不仅要长脑子,还要动脑子。
尽管思维链这个概念是2022年Google提出来的,但OpenAI这次是第一个实现的。
实操过程中,现在你与o1模型对话,除了收获答案,还可以看选择展开看他解答问题时的思维逻辑,他的思考是具象化的而不是黑盒。
比如我们拿崔博士提问的“远距离纠缠光子分发,有什么克服白噪声的办法?”这一问题为例,o1模型的思考过程如下:
不过,就像专业领域的问题它也会翻车一样,有些日常场景的简单题似乎也有可能难住它。
拿之前那个经典9.11和9.8比大小例子来说,小红书网友@小水刚醒就发现这玩意“一上难度就崩溃……无限循环发疯般推思维链(CoT)”
我们编辑部自己评测时也发现了这个问题,不过当询问它为什么的时候,它也会马上反应过来自己推理出现了错误,然后再重新推导一番。
好好好,不愧是博士,善于发现错误是吧。
整轮测试下来,差评君不得不承认,它确实是大大提升了。士别三日,也的确应当刮目相看。
在效果上,也确实相比前代确实更好,而且长思维的应用,对未来AI发展都是好事。
但在几位博士轮番鞭打完以后,它的问题也暴露得挺明显的,在创造力等某些方面,还替代不了人类博士专家。
不过OpenAI的研究人员NoamBrown透露,未来版本的o1将会思考几个小时、几天甚至几周,虽然这样烧钱会更多,但像在研发抗癌药这些任务上,这种花费也是值得的。
另外,差评君觉得GPTo1实现的思维链模式,也很有可能会像之前的Transformer架构、DiT架构那样,又会引领全世界的大模型的方向。
所以说,通往AGI之路说近不近,但说远也不远,期待接下来各家的选手轮番登场了。
【查看完整讨论话题】 | 【用户登录】 | 【用户注册】