谷歌Gemini大逆转？斯坦福Meta华人证明其推理性能强于GPT-3.5-品论天涯网

声明:本文来自于微信公众号新智元（ID:AI_era），作者:新智元，授权站长之家转载发布。fZr品论天涯网

【新智元导读】谷歌放出的Gemini，在对标GPT的道路上似乎一直处于劣势，Gemini真的比GPT-4弱吗?最近，斯坦福和Meta的学者发文为Gemini正名。fZr品论天涯网

Gemini的推理能力，真的比GPT-4弱吗?fZr品论天涯网

此前，谷歌憋出的重磅复仇神器Gemini Pro，被发现在常识推理任务中落后于OpenAI的GPT模型。fZr品论天涯网

之后又有CMU发布的论文和实验，证明Gemini Pro的很多能力都略微落后于GPT-3.5Turbo。fZr品论天涯网

不过最近，斯坦福和Meta的学者为Gemini洗清了这一「冤屈」。fZr品论天涯网

他们发现，这种基于有限数据集（HellaSWAG）的评估，并不能完全捕捉到Gemini真正的常识推理潜力。fZr品论天涯网

fZr品论天涯网

论文地址:https://arxiv.org/abs/2312.17661fZr品论天涯网

而在新测试集中，Gemini的推理能力比之前强很多!fZr品论天涯网

Gemini的真正潜力fZr品论天涯网

斯坦福和Meta的研究人员表示，以前的基于有限数据集的评估，对于Gemini不够公平。fZr品论天涯网

这次，研究人员设计了需要跨模态整合常识知识的任务，以对Gemini在复杂推理任务中的表现进行彻底的评估。fZr品论天涯网

研究人员对12个常识推理数据集进行了全面分析，从一般任务到特定领域的任务。fZr品论天涯网

在其中的4个LLM实验和2个MLLM实验中，研究者证明了Gemini具有目前相当强的常识推理能力。fZr品论天涯网

研究者对于当前流行的四大模型——Llama2-70b、Gemini Pro、GPT-3.5Turbo和GPT-4Turbo进行了评估，fZr品论天涯网

他们发现，总体而言，Gemini Pro的性能和GPT-3.5Pro相当，准确性上落后于GPT-4Turbo。fZr品论天涯网

实验

数据集

实验中采用了12个与不同类型的常识推理相关的数据集，包括11个基于语言的数据集和一个多模态数据集。fZr品论天涯网

基于语言的数据集包括三大类常识推理问题:fZr品论天涯网

1.一般推理和情境推理:CommonsenseQA，侧重于一般常识知识;Cosmos QA，强调语境理解叙事;αNLI，引入演绎推理，包括推断最合理的解释;HellaSWAG，以上下文事件序列的推理为中心。fZr品论天涯网

2.专业推理和知识推理:TRAM，测试关于时间的推理;NumerSense，侧重于数值理解;PIQA，评估物理相互作用知识;QASC，处理与科学相关的推理;RiddleSense，通过谜语挑战创造性思维。fZr品论天涯网

3.社会和道德推理:Social IQa，测试对社会互动的理解;ETHICS，评估道德和伦理推理。fZr品论天涯网

对于多模态数据集（视觉和语言），这里选择VCR，一个用于认知水平视觉理解的大规模数据集。fZr品论天涯网

对于包含多个任务的TRAM和ETHICS等数据集，研究人员提取了实验的常识推理部分。fZr品论天涯网

实验中采用准确性作为所有数据集的性能指标。下表给出了数据集的概述以及示例问题。fZr品论天涯网

fZr品论天涯网

模型

采用最流行的四个大模型:开源的Llama-2-70b-chat和闭源的Gemini Pro、GPT-3.5Turbo、GPT-4Turbo。fZr品论天涯网

每个模型都使用相应的API密钥进行访问:通过Google Vertex AI访问Gemini，通过OpenAI API访问GPT，通过DeepInfra访问Llama2。fZr品论天涯网

对于多模态数据集，实验中考虑了GPT-4V（API中的gpt-4-vision-preview）和 Gemini Pro Vision(API中的gemini-pro-vision)。fZr品论天涯网

考虑到API成本和速率的限制，研究人员从每个基于语言的数据集的验证集中随机选择了200个示例，从VCR数据集的验证集中随机选择了50个示例。fZr品论天涯网

对于所有评估，在模型响应生成期间采用贪婪解码（即温度=0）。fZr品论天涯网

提示

在评估基于语言的数据集时，研究人员采用了两种提示设置:零样本标准提示（SP），旨在衡量模型在语言环境中的固有常识能力，以及少样本思维链(CoT)提示，用于观察模型性能的潜在增强。fZr品论天涯网

对于多模态数据集，利用零样本标准提示，来评估MLLM的端到端视觉常识推理能力。fZr品论天涯网

结果

整体的性能比较结果如下表所示:fZr品论天涯网

fZr品论天涯网

从模型的角度来看，GPT-4Turbo的平均表现最好。在零样本学习中，它比第二名的Gemini Pro高出7.3%，在少样本学习中优势更大（9.0%）。fZr品论天涯网

而Gemini Pro的平均准确率略高于 GPT-3.5Turbo（0-shot，SP下高1.3%，k-shot，CoT下高1.5%）。fZr品论天涯网

关于提示方法，CoT提高了所有数据集的性能，在 CommonsenseQA、TRAM和Social IQa等数据集中有明显的收益。fZr品论天涯网

下表是在多模态VCR数据集上的性能比较:fZr品论天涯网

fZr品论天涯网

VCR的三个子任务分别为:Q → A，根据视觉上下文生成问题的答案;QA→R，要求模型为给定的答案提供基本原理;Q → AR，既要回答问题，又要用适当的理由来证明回答的合理性。fZr品论天涯网

将11个基于语言的数据集分为三组，在图1中展示了每组中每种设置的性能。fZr品论天涯网

fZr品论天涯网

研究结果表明，GPT-4Turbo在所有类别的性能方面始终领先。fZr品论天涯网

Gemini Pro和GPT-3.5Turbo的性能相当;不过，Gemini Pro在三个类别中的两个类别中，略胜于GPT-3.5Turbo。fZr品论天涯网

总体而言，所有模型在处理社会和道德推理数据集方面，都表现出强大的能力。fZr品论天涯网

然而，它们在一般推理和语境推理任务上的表现，存在显著差异。fZr品论天涯网

这也表明，它们对更广泛的常识原则，及其在不同背景下的应用理解，存在潜在差距。fZr品论天涯网

而在专业和知识推理类别，特别是在时间和基于谜语的挑战领域，模型在处理复杂时间序列、破译谜语所需的抽象和创造性思维能力上，都表现出了缺陷。fZr品论天涯网

关于多模态数据集，图2详细介绍了GPT-4V和GeminiPro Vision在不同问题类型上的性能比较。fZr品论天涯网

fZr品论天涯网

我们可以看到，在最后一个关于时间类别的问题上，GeminiPro Vision实现了反超。fZr品论天涯网

MLLM的推理正当性fZr品论天涯网

为了评估MLLM的推理能力，尤其是不仅提供正确答案，还能就常识问题提供合理且基于上下文推理的能力，研究者采用了系统抽样方法。fZr品论天涯网

对于评估四个LLM的11个基于语言的数据集，研究者随机选择了30个回答正确的问题，和30个回答错误的问题。fZr品论天涯网

如果数据集提供的错误答案少于30个，研究者就会包含进所有可用的错误答案，以确保分析的全面性。fZr品论天涯网

选择这些问题后，他们会让每个模型解释:「问题答案背后的基本原理是什么?」然后手动检查模型提供的推理过程，并根据其逻辑合理性和与问题的相关性被判为True或False。fZr品论天涯网

图3显示，GPT-4Turbo在正确和错误的答案上，都显示出先进的推理机制，即使最终答案不准确，它也有保持逻辑连贯的能力。fZr品论天涯网

另外，Gemini Pro也表现出了值得称赞的推理能力，提供了全面的常识推理方法。fZr品论天涯网

fZr品论天涯网

下图展示了Gemini Pro和GPT-3.5的两个真实示例，展现了正确答案和正确理由，以及错误答案和错误理由的情况。fZr品论天涯网

fZr品论天涯网

示例问题来自QASC数据集，红色粗体为正确答案。在上图中，Gemini Pro表现出有条不紊的推理，仔细考虑所有选项以得出最合乎逻辑的结论。fZr品论天涯网

fZr品论天涯网

相反，由于GPT-3.5Turbo对非常规逻辑的倾向，导致了富有想象力但不正确的答案。fZr品论天涯网

这表明不同模型应对常识推理任务的不同策略，有自己的独特能力和局限性。fZr品论天涯网

Gemini Pro的常识推理能力fZr品论天涯网

一般常识（CommonsenseQA）

在使用CommonsenseQA数据集的一般常识评估中，有这样一道示例问题:「当你是陌生人时，人们会怎样?」fZr品论天涯网

A.火车 B.奇怪 C.人类 D.愚蠢 E.危险fZr品论天涯网

Gemini Pro选择了B。fZr品论天涯网

它的推理过程也值得注意:它认识到，虽然所有选项都和「陌生人」的概念相关，但只有「奇怪」准确概括了问题的中立和开放性本质。fZr品论天涯网

这个选择，凸显出了Gemini Pro解释和应用一般常识知识的能力。fZr品论天涯网

时间（TRAM）

TRAM数据集的时间常识评估中的示例问题:「他还承诺会来找他。」fZr品论天涯网

他需要多长时间才能「来到他身边」?fZr品论天涯网

A.100年 B.一分钟内 C.几个小时fZr品论天涯网

由于缺乏足够的背景信息，特别是关于所涉及的身份和「来到」的含义，Gemini Pro无法提供明确的答案。fZr品论天涯网

这说明了，模型需要依赖特定的上下文信息，来做出准确的时间判断。fZr品论天涯网

在现实世界的信息传播中，模糊或不完整的信息，也会造成这种局限性。fZr品论天涯网

社交（Social IQa）

在使用Social IQa数据集评估GeminiPro在社会常识推理方面的表现时，出现了一个有趣的场景: 人们一直欺负在Sasha，Sasha报复了回去，接下来人们会做什么?fZr品论天涯网

A.按Sasha说的去做 B.报仇 C.逃离SashafZr品论天涯网

正确答案是C，但Gemini Pro的选择却显得很有洞察力。fZr品论天涯网

它选择了B，理由是Sasha的行动很可能点燃了人们复仇的欲望。fZr品论天涯网

这一回应表明，Gemini Pro对于社会动态和情感动机有了细致入微的理解。fZr品论天涯网

Visual（VCR）

在VCR数据集中，研究者分析了Gemini Pro Vision对涉及人身安全和潜在危险场景的响应。fZr品论天涯网

如果此时4号推了3号，会发生什么?fZr品论天涯网

Gemini Pro Vision回答:3号会掉下悬崖，危及生命。fZr品论天涯网

fZr品论天涯网

这个结果表明，Gemini Pro Vision已经能够做出视觉常识推理，分析视觉场景并预测这些场景中动作的潜在后果。fZr品论天涯网