人工智能

GPT-4王者加冕:读图做题性能炸天 凭自己就能考上斯坦福

字号+作者: 来源:新智元 2023-03-15 09:27 评论(创建话题) 收藏成功收藏本文

OpenAI的GPT-4在万众瞩目中闪亮登场,多模态功能太炸裂,简直要闪瞎人类的双眼。李飞飞高徒、斯坦福博士JimFan表示,GPT4凭借如此强大的推理能力,已经可以自'...

OpenAI的GPT-4在万众瞩目中闪亮登场,多模态功能太炸裂,简直要闪瞎人类的双眼。李飞飞高徒、斯坦福博士JimFan表示,GPT4凭借如此强大的推理能力,已经可以自己考上斯坦福了!果然,能打败昨天的OpenAI的,只有今天的OpenAI。fZ2品论天涯网

刚刚,OpenAI震撼发布了大型多模态模型GPT-4,支持图像和文本的输入,并生成文本结果。fZ2品论天涯网

号称史上最先进的AI系统!fZ2品论天涯网


fZ2品论天涯网

GPT-4不仅有了眼睛可以看懂图片,而且在各大考试包括GRE几乎取得了满分成绩,横扫各种benchmark,性能指标爆棚。fZ2品论天涯网

OpenAI花了6个月的时间使用对抗性测试程序和ChatGPT的经验教训对GPT-4进行迭代调整,从而在真实性、可控性等方面取得了有史以来最好的结果。fZ2品论天涯网


fZ2品论天涯网

大家都还记得,2月初时微软和Google鏖战三天,2月8日微软发布ChatGPT版必应时,说法是必应‘基于类ChatGPT技术’。fZ2品论天涯网

今天,谜底终于解开了——它背后的大模型,就是GPT-4!fZ2品论天涯网


fZ2品论天涯网

图灵奖三巨头之一GeoffreyHinton对此赞叹不已,‘毛虫吸取了营养之后,就会化茧为蝶。而人类提取了数十亿个理解的金块,GPT-4,就是人类的蝴蝶。’fZ2品论天涯网


fZ2品论天涯网

顺便提一句,ChatGPTPlus用户现在可以先上手了。fZ2品论天涯网


fZ2品论天涯网

考试几乎满分,性能跃迁炸天fZ2品论天涯网

在随意谈话中,GPT-3.5和GPT-4之间的区别是很微妙的。只有当任务的复杂性达到足够的阈值时,差异就出现了,GPT-4比GPT-3.5更可靠、更有创意,并且能够处理更细微的指令。fZ2品论天涯网

为了了解这两种模型之间的差异,OpenAI在各种基准测试和一些为人类设计的模拟考试上进行了测试。fZ2品论天涯网

GPT-4在各种考试中,有几个测试几乎接近了满分:fZ2品论天涯网

  • USABOSemifinal2020(美国生物奥林匹克竞赛)fZ2品论天涯网

  • GREWritingfZ2品论天涯网


  • fZ2品论天涯网

    以美国BAR律师执照统考为例,GPT3.5可以达到10%水平,GPT4可以达到90%水平。生物奥林匹克竞赛从GPT3.5的31%水平,直接飙升到99%水平。fZ2品论天涯网


    fZ2品论天涯网

    此外,OpenAI还在为机器学习模型设计的传统基准上评估了GPT-4。从实验结果来看,GPT-4大大优于现有的大型语言模型,以及大多数SOTA模型:fZ2品论天涯网


    fZ2品论天涯网

    另外,GPT-4在不同语种上的能力表现:中文的准确度大概在80%左右,已经要优于GPT-3.5的英文表现了。fZ2品论天涯网

    许多现有的ML基准测试都是用英语编写的。为了初步了解GPT-4其他语言的能力,研究人员使用Azure翻译将MMLU基准(一套涵盖57个主题的14000个多项选择题)翻译成多种语言。fZ2品论天涯网

    在测试的26种语言的24种中,GPT-4优于GPT-3.5和其他大语言模型(Chinchilla、PaLM)的英语语言性能:fZ2品论天涯网


    fZ2品论天涯网

    OpenAI表示在内部使用GPT-4,因此也关注大型语言模型在内容生成、销售和编程等方面的应用效果。另外,内部人员还使用它来帮助人类评估人工智能输出。fZ2品论天涯网

    对此,李飞飞高徒、英伟达AI科学家Jim Fan点评道:‘GPT-4最强的其实就是推理能力。它在GRE、SAT、法学院考试上的得分,几乎和人类考生没有区别。也就是说,GPT-4可以全靠自己考进斯坦福了。’fZ2品论天涯网

    (JimFan自己就是斯坦福毕业的!)fZ2品论天涯网

    网友:完了,GPT-4一发布,就不需要我们人类了……fZ2品论天涯网


    fZ2品论天涯网

    读图做题小case,甚至比网友还懂梗fZ2品论天涯网

    GPT-4此次升级的亮点,当然就是多模态。fZ2品论天涯网

    GPT-4不仅能分析汇总图文图标,甚至还能读懂梗图,解释梗在哪里,为什么好笑。从这个意义上说,它甚至能秒杀许多人类。fZ2品论天涯网

    OpenAI称,GPT-4比以往模型都更具创造力和协作性。它可以生成、编辑和迭代用户进行创意和技术写作任务,例如创作歌曲、编写剧本或学习用户的写作风格。fZ2品论天涯网


    fZ2品论天涯网

    GPT-4可以将图像作为输入,并生成标题、分类和分析。比如给它一张食材图,问它用这些食材能做什么。fZ2品论天涯网


    fZ2品论天涯网


    fZ2品论天涯网

    另外,GPT-4能够处理超过25,000字的文本,允许用长形式的内容创建、扩展会话、文档搜索和分析。fZ2品论天涯网

    GPT-4在其先进的推理能力方面超过了ChatGPT。如下:fZ2品论天涯网


    fZ2品论天涯网

    梗图识别fZ2品论天涯网

    比如,给它看一张奇怪的梗图,然后问图中搞笑在哪里。fZ2品论天涯网

    GPT-4拿到之后,会先分析一波图片的内容,然后给出答案。fZ2品论天涯网

    比如,逐图分析下面这个。fZ2品论天涯网


    fZ2品论天涯网

    GPT-4立马反应过来:图里的这个‘Lighting充电线’,看起来就是个又大又过气的VGA接口,插在这个又小又现代的智能手机上,反差强烈。fZ2品论天涯网


    fZ2品论天涯网

    再给出这么一个梗图,问问GPT-4梗在哪里?fZ2品论天涯网


    fZ2品论天涯网

    它流利地回答说:这个梗搞笑的地方在于‘图文不符’。fZ2品论天涯网

    文字明明说是从太空拍摄的地球照片,然而,图里实际上只是一堆排列起来像地图的鸡块。fZ2品论天涯网


    fZ2品论天涯网

    GPT-4还能看懂漫画:为什么要给神经网络加层数?fZ2品论天涯网


    fZ2品论天涯网

    它一针见血地点出,这副漫画讽刺了统计学习和神经网络在提高模型性能方法上的差异。fZ2品论天涯网


    fZ2品论天涯网

    图表分析fZ2品论天涯网

    格鲁吉亚和西亚的平均每日肉类消费量总和是多少?在给出答案前,请提供循序渐进的推理。fZ2品论天涯网


    fZ2品论天涯网

    果然,GPT-4清楚地列出了自己的解题步骤——fZ2品论天涯网

    1.确定格鲁吉亚的平均每日肉类消费量。fZ2品论天涯网

    2.确定西亚的平均每日肉类消费量。fZ2品论天涯网

    3.添加步骤1和2中的值。fZ2品论天涯网


    fZ2品论天涯网

    做物理题fZ2品论天涯网

    要求GPT-4解出巴黎综合理工的一道物理题,测辐射热计的辐射检测原理。值得注意的是,这还是一道法语题。fZ2品论天涯网


    fZ2品论天涯网

    GPT-4开始解题:要回答问题I.1.a,我们需要每个点的温度T(x),用导电棒的横坐标x表示。fZ2品论天涯网

    随后解题过程全程高能。fZ2品论天涯网


    fZ2品论天涯网

    你以为这就是GPT-4能力的全部?fZ2品论天涯网

    老板GregBrockman直接上线进行了演示,通过这个视频你可以很直观的感受到GPT-4的能力。fZ2品论天涯网

    最惊艳的是,GPT-4对代码的超强的理解能力,帮你生成代码。fZ2品论天涯网

    Greg直接在纸上画了一个潦草的示意图,拍个照,发给GPT说,给我按照这个布局写网页代码,就写出来了。fZ2品论天涯网


    fZ2品论天涯网

    另外,如果运行出错了把错误信息,甚至错误信息截图,扔给GPT-4都能帮你给出相应的提示。fZ2品论天涯网

    网友直呼:GPT-4发布会,手把手教你怎么取代程序员。fZ2品论天涯网


    fZ2品论天涯网

    顺便提一句,用GPT-4还可以进行报税。要知道,每年美国人要花好多时间金钱在报税上面。fZ2品论天涯网


    fZ2品论天涯网

    训练过程fZ2品论天涯网

    和以前的GPT模型一样,GPT-4基础模型的训练使用的是公开的互联网数据以及OpenAI授权的数据,目的是为了预测文档中的下一个词。fZ2品论天涯网

    这些数据是一个基于互联网的语料库,其中包括对数学问题的正确/错误的解决方案,薄弱/强大的推理,自相矛盾/一致的声明,足以代表了大量的意识形态和想法。fZ2品论天涯网

    当用户给出提示进行提问时,基础模型可以做出各种各样的反应,然而答案可能与用户的意图相差甚远。fZ2品论天涯网

    因此,为了使其与用户的意图保持一致,OpenAI使用基于人类反馈的强化学习(RLHF)对模型的行为进行了微调。fZ2品论天涯网

    不过,模型的能力似乎主要来自于预训练过程,RLHF并不能提高考试成绩(如果不主动进行强化,它实际上会降低考试成绩)。fZ2品论天涯网

    基础模型需要提示工程,才能知道它应该回答问题,所以说,对模型的引导主要来自于训练后的过程。fZ2品论天涯网

    GPT-4模型的一大重点是建立了一个可预测扩展的深度学习栈。因为对于像GPT-4这样的大型训练,进行广泛的特定模型调整是不可行的。fZ2品论天涯网

    因此,OpenAI团队开发了基础设施和优化,在多种规模下都有可预测的行为。fZ2品论天涯网

    为了验证这种可扩展性,研究人员提前准确地预测了GPT-4在内部代码库(不属于训练集)上的最终损失,方法是通过使用相同的方法训练的模型进行推断,但使用的计算量为1/10000。fZ2品论天涯网


    fZ2品论天涯网

    现在,OpenAI可以准确地预测在训练过程中优化的指标损失。例如从计算量为1/1000的模型中推断并成功地预测了HumanEval数据集的一个子集的通过率:fZ2品论天涯网


    fZ2品论天涯网

    还有些能力仍然难以预测。比如,InverseScaling竞赛旨在找到一个随着模型计算量的增加而变得更糟的指标,而hindsightneglect任务是获胜者之一。但是GPT-4扭转了这一趋势:fZ2品论天涯网


    fZ2品论天涯网

    OpenAI认为能够准确预测未来的机器学习能力对于技术安全来说至关重要,但它并没有得到足够的重视。fZ2品论天涯网

    而现在,OpenAI正在投入更多精力开发相关方法,并呼吁业界共同努力。fZ2品论天涯网

    贡献名单fZ2品论天涯网

    就在GPT-4发布的同时,OpenAI还公开了GPT-4这份组织架构及人员清单。fZ2品论天涯网


    fZ2品论天涯网

    上下滑动查看全部fZ2品论天涯网

    北大陈宝权教授称,fZ2品论天涯网

    再好看的电影,最后的演职员名单也不会有人从头看到尾。OpenAI的这台戏连这个也不走寻常路。毫无疑问这将是一份不仅最被人阅读,也被人仔细研究的‘演职员’(贡献者)名单,而最大的看头,是详细的贡献分类,几乎就是一个粗略的部门设置架构了。fZ2品论天涯网

    这个很‘大胆’的公开其实意义挺深远的,体现了OpenAI背后的核心理念,也一定程度预示了未来进步的走向。fZ2品论天涯网


    fZ2品论天涯网

    本网除标明“PLTYW原创”的文章外,其它文章均为转载或者爬虫(PBot)抓取。 本文只代表作者个人观点,不代表本站观点,仅供大家学习参考;转载此文是出于传递更多信息之目的,若有来源标注错误或侵犯了您的合法权益,请作者持权属证明与本网站编辑联系,我们将及时更正、删除,谢谢。 本站邮箱[email protected]