人工智能

OpenAI正式发布o3:通往AGI的路上 已经没有了任何阻碍

字号+作者:数字生命卡兹克 来源:数字生命卡兹克 2024-12-21 15:30 评论(创建话题) 收藏成功收藏本文

o3的能力,对现在所有模型,几乎都直接是降维打击。今天凌晨2点,OpenAI的12天直播,终于来到了最终章。奥特曼,也在一片圣诞的气息中终于回归。为大家带来了最'...

o3的能力,对现在所有模型,几乎都直接是降维打击。今天凌晨2点,OpenAI的12天直播,终于来到了最终章。奥特曼,也在一片圣诞的气息中终于回归。为大家带来了最后的压轴大戏。OpenAIo3。9W3品论天涯网


9W3品论天涯网

又一次超群,又一次把模型的能力,推到了新的高度。9W3品论天涯网

也向全世界证明了,OpenAI,依然在铁王座上牢不可摧。9W3品论天涯网

我也想起了OpenAI研究员在发布o1之前的那句话:9W3品论天涯网

“我们通往AGI的路上,已经没有任何阻碍了”9W3品论天涯网

之所以OpenAI直接发布o3没有o2,原因也挺简单的。9W3品论天涯网

因为跟英国电信服务提供商O2可能存在版权或商标冲突,所以直接跳过了……9W3品论天涯网

直接到o3。9W3品论天涯网

而OpenAI直播一完,X上基本就沸腾了。9W3品论天涯网



9W3品论天涯网

o3的能力,对现在所有模型,几乎都直接是降维打击。9W3品论天涯网

看下o3的能力吧。9W3品论天涯网

一些粗的评测集简单过一下。9W3品论天涯网


9W3品论天涯网

左边的是软件工程考试(SWE-BenchVerified),这就像是一个考写程序的考试,比如你写一个软件要它快速、准确,还不能有bug(小错误)。这是考察o3是否能像一流的软件工程师一样写出完美的代码。9W3品论天涯网

o3的成绩:71.7%,比o1还强了不少。9W3品论天涯网

右边的那个基准比较猛,Codeforces,一个全球著名的编码竞赛平台。9W3品论天涯网

o3的得分是2727,这个得分,相当于整个榜单的第175名,已经超越了99.99%的人类了。9W3品论天涯网


9W3品论天涯网

o1的代码能力已经强到爆炸了,而o3,又向AGI的山顶,前进了一大步。9W3品论天涯网


9W3品论天涯网

数学竞赛AIEM2024和博士级科学考试GPQADiamond。9W3品论天涯网

AIEM2024接近满分,如果我没记错的话,这应该也是第一次AI能达到有AIEM接近满分的水平。9W3品论天涯网

博士级科学考试有进化,但没数学和编程进化的这么猛。9W3品论天涯网

接下来的这个数学基准比较有趣一点。9W3品论天涯网


9W3品论天涯网

FrontierMath,EpochAI开发的一个数学基准测试,由60多位顶尖数学家的合作开发,旨在评估人工智能在高级数学推理方面的能力。9W3品论天涯网

而且为了避免数据污染,所有的题目都是原创的且从来没有发布过的新题目。9W3品论天涯网

之前GPT-4和Gemini1.5Pro这种模型去评估的时候,成功功率不足2%,与其他传统数学基准(如GSM-8K和MATH)中超过90%的成功率形成鲜明对比。9W3品论天涯网

而这一次,o3直接达到了25.2。9W3品论天涯网

当各大其他模型都还在卷传统数学基准的时候,o3真的已经进入了另一个世界了……9W3品论天涯网

就像大家还在大斗师阶段互相卷,你是五星大斗师,我是八星大斗师。9W3品论天涯网

两者争论不休,正准备要比试比试,忽然就看到一个斗宗强者踏空而行,留下一地的卧槽。9W3品论天涯网

这还比个鬼。9W3品论天涯网

然后,就是我觉得,整个基准里,最有趣的一个基准了:9W3品论天涯网

ARC-AGI。9W3品论天涯网

先说说这是个啥玩意。9W3品论天涯网

ARC-AGI于2019年首次提出,旨在通过一系列抽象和推理任务来测试AI系统的能力。9W3品论天涯网

主要是因为传统的技能测量方法并不能有效代表智能,因为它们往往依赖于先前知识和经验,而真正的智能应体现在广泛的适应能力和通用性上。9W3品论天涯网

所以,ARC-AGI诞生了,里面的这些任务要求AI识别模式并解决新问题,每个任务由输入输出示例组成。这些任务以网格形式呈现,每个方块可以是十种颜色中的一种,网格的大小可以从1x1到30x30不等。参与者需要根据给定的输入生成正确的输出,测试其推理和抽象能力。9W3品论天涯网

可以简单的理解成,找规律。9W3品论天涯网

大概就是这样的。9W3品论天涯网



9W3品论天涯网

非常的难且抽象。9W3品论天涯网

过去几代模型的评分在此:9W3品论天涯网

*GPT-2(2019):0%9W3品论天涯网

*GPT-3(2020):0%9W3品论天涯网

*GPT-4(2023):2%9W3品论天涯网

*GPT-4o(2024):5%9W3品论天涯网

*o1-preview(2024):21%9W3品论天涯网

*o1(2024):32%9W3品论天涯网

*o1Pro(2024):~50%9W3品论天涯网

但是今天,o3的分数,达到了恐怖的87.5%。9W3品论天涯网


9W3品论天涯网

从0%到5%,整整花了5年的时间,而如今,从5%到87.5%,仅仅只花了半年。9W3品论天涯网

而对应的,人类的阈值分数,是85%。9W3品论天涯网

我们通往AGI的路上,已经没有任何阻碍了。9W3品论天涯网

不过o3强归强,但是又是一个期货,OpenAI目前只对红队开放,如果是巨佬的话,可以去申请试试。9W3品论天涯网


9W3品论天涯网

目前不知道o3什么时候放出,但是OpenAI又基于o3,训了3个小尺寸的o3模型。9W3品论天涯网


9W3品论天涯网

目前o3-mimi,预估在1月底可以对外开放,但是感觉到时候,肯定又是pro会员专属的模型了。9W3品论天涯网

我越来越期待,2025年AI行业的进化了。9W3品论天涯网

推理模型、Agent、AI硬件、世界模型。9W3品论天涯网

每一个都是比这个中间态的2024,都更让人兴奋的东西。9W3品论天涯网

2025,必是AI行业,真正的星辰大海。9W3品论天涯网

我们也在最后,回顾一下这12天的直播吧。9W3品论天涯网

Day1:满血o1上线,ChatGPTPro会员上线,o1pro推出。9W3品论天涯网


9W3品论天涯网

Day2:基于o1的强化微调。9W3品论天涯网

Day3:Sora正式发布。9W3品论天涯网


9W3品论天涯网

Day4:ChatGPTCanvas全员开放以及小功能更新。9W3品论天涯网

Day5:给苹果站台,宣传苹果全系接入GPT。9W3品论天涯网

Day6:4o的实时视频理解上线。9W3品论天涯网


9W3品论天涯网

Day7:ChatGPT发布新建文件夹“项目”功能。9W3品论天涯网


9W3品论天涯网

Day8:ChatGPTSearch全量开放,搜索体验大幅优化。9W3品论天涯网

Day9:发布了o1的API、更新了实时语音的API、发布了偏好微调能力(PFT)。9W3品论天涯网

Day10:物理意义上的可以给ChatGPT打电话了。9W3品论天涯网


9W3品论天涯网

Day11:炒冷饭,ChatGPT桌面版能读到别的应用。9W3品论天涯网

Day12:OpenAIo3正式发布。9W3品论天涯网


9W3品论天涯网

这12天,稍微有点惊喜的日子大概只有2、3天,其他都是垃圾时间。9W3品论天涯网

还好,今天的大货,补上了之前的阴霾。9W3品论天涯网

最后,还是忍不住感叹一声。9W3品论天涯网

这12天,像一场漫长的马拉松。9W3品论天涯网

我们经历了深夜中数不胜数的垃圾时间。9W3品论天涯网

却也迎来了最后的高光时刻。这感觉。还挺AI的。9W3品论天涯网

本网除标明“PLTYW原创”的文章外,其它文章均为转载或者爬虫(PBot)抓取; 本文只代表作者个人观点,不代表本站观点,仅供大家学习参考。本网站属非谋利性质,旨在传播马克思主义和共产主义历史文献和参考资料。凡刊登的著作文献侵犯了作者、译者或版权持有人权益的,可来信联系本站删除。 本站邮箱[email protected]