谷歌OpenAI大模型巅峰对决！Gemini激战GPT-4，数学代码却惨遭碾压-品论天涯网

声明:本文来自于微信公众号新智元（ID:AI_era），作者:新智元，授权站长之家转载发布。O0G品论天涯网

【新智元导读】大模型巅峰对决开启，Gemini和GPT-4展开大pk!代码和数学Gemini惨遭GPT-4碾压，但要论讲笑话和写作，它的答案却意外的好笑。O0G品论天涯网

被谷歌寄予厚望的复仇杀器Gemini，是否能够如愿单挑ChatGPT?O0G品论天涯网

最近几天，外媒记者和网友们纷纷放出实测，比较了Gemini Pro加持的新Bard与GPT-3.5和GPT-4的各项性能。O0G品论天涯网

先说结果——ChatGPT略胜一筹，但Gemini进步巨大。O0G品论天涯网

虽然宣传手段有一些夸大的成分，但谷歌确实靠Gemini在LLM大战中挽回了一些颓势。O0G品论天涯网

而且，现在双方都还捂着杀手锏没有放出来，真正的巅峰对决，恐怕要等Gemini Ultra或者集成了OpenAI神秘Q*技术的新模型出场后了。O0G品论天涯网

超大杯还没来，大杯临时顶上O0G品论天涯网

需要强调的是，此次出战的选手Gemini Pro只是「二弟」，因为号称「在32个广泛使用的学术基准测试中击败GPT-4」的老大哥Gemini Ultra还未放出。O0G品论天涯网

O0G品论天涯网

而且，由于目前只有纯文本提示用上了Gemini Pro。O0G品论天涯网

O0G品论天涯网

所以，Bard暂时还没有得到加持的图像理解能力，依然很拉跨……O0G品论天涯网

O0G品论天涯网

来源:马里兰大学博士生Fuxiao LiuO0G品论天涯网

顶级模型的内卷O0G品论天涯网

早在4月，就有许多人做过PaLM支持的Bard和GPT-4的pk，当时的结果是GPT-4七局五胜，略胜Bard一筹。O0G品论天涯网

这次对决中，也考虑进了Bard在四月的结果，因此可以用来衡量几个月来谷歌的进步速度。O0G品论天涯网

这些测试虽不够全面，但也提供了一个很好的基准，可以用来判断这些AI聊天助手在普通用户日常任务中的表现。O0G品论天涯网

话不多说，现在开始!O0G品论天涯网

代码编程O0G品论天涯网

既然谷歌这次大吹特吹了全新的AlphaCode2，那我们首先就来看看它们的编程水平如何。O0G品论天涯网

O0G品论天涯网

题目:Write a Python script that says "Hello World，" then creates a random repeating string of characters endlessly.O0G品论天涯网

编写一个Python脚本，在其中输入「Hello World」，然后不停地随机创建一个重复字符串。O0G品论天涯网

PaLM Bard的答案:O0G品论天涯网

O0G品论天涯网

首先，初代的Bard非常简陋，并不能生成代码。O0G品论天涯网

不过，谷歌后来在6月的时候，给它加上了这个功能。（但并没有针对这个题目进行过测试）O0G品论天涯网

Gemini Pro Bard的答案:O0G品论天涯网

O0G品论天涯网

可以看到，新版Bard生成的代码没什么大问题，但需要在前面添加一个import string才能运行。O0G品论天涯网

好在，这个bug很容易解决。O0G品论天涯网

O0G品论天涯网

然而，不知道是因为好奇网友太多导致负荷超载，还是系统本身就不稳定。O0G品论天涯网

针对这道题，Bard在大部分时候都会先「沉默」30秒，然后返回错误提示:「抱歉，出了点岔子，Bard目前还处在试验阶段」。O0G品论天涯网

O0G品论天涯网

GPT-3.5的答案:O0G品论天涯网

O0G品论天涯网

GPT-4的答案:O0G品论天涯网

O0G品论天涯网

相比之下，不管是GPT-3.5还是GPT-4Turbo，都提供了非常简洁，而且可以直接跑通的代码。O0G品论天涯网

获胜方:毫无疑问，这一轮是ChatGPT阵营大获全胜。O0G品论天涯网

数学应用O0G品论天涯网

接下来，就是次次都能难倒一片大模型的数学题了。O0G品论天涯网

题目:If Microsoft Windows11shipped on3.5" floppy disks， how many floppy disks would it take?O0G品论天涯网

如果使用3.5英寸软盘来安装Windows11，需要多少张?O0G品论天涯网

PaLM Bard的答案:O0G品论天涯网

O0G品论天涯网

可以看到，初代Bard给出了非常离谱的答案。O0G品论天涯网

先不管Win11有没有21个GB，就算有，15.11张软盘也装不下吧……O0G品论天涯网

Gemini Pro Bard的答案:O0G品论天涯网

O0G品论天涯网

到了新版Gemini Bard这里，3472这个结果显然是把1GB当成了1000MB去算的。O0G品论天涯网

然而，即便是按照1000MB去算，计算直接得到的3472.2…也应该进一位变成3273。O0G品论天涯网

毕竟，多出的那些数据，显然是不能被「四舍五入」掉的。O0G品论天涯网

GPT-3.5的答案:O0G品论天涯网

O0G品论天涯网

GPT-3.5这边也是类似，首先推测Win11安装包的大小为「几GB」，然后四舍五入到20GB。O0G品论天涯网

最后，按照「1GB=1000MB」去算的答案，并且把多出的0.88…张盘也给舍掉了。O0G品论天涯网

GPT-4的答案:O0G品论天涯网

O0G品论天涯网

相比之下，只有GPT-4正确地使用了「1GB=1024MB」，并且将结果中的3555.5…进了一位变成35556。O0G品论天涯网

从结果来看，Gemini Pro加持的Bard和GPT-3.5半斤八两，而GPT-4不仅逻辑清晰而且还在计算中利用「Analysis」保证了答案的正确性。O0G品论天涯网

O0G品论天涯网

考虑到Gemini Pro在评测跑分上要比GPT-3.5高了不少，这个结果多少有些令人失望。O0G品论天涯网

获胜方:谷歌和OpenAI的免费版模型可谓是「旗鼓相当」，而付费版的GPT-4则凭借着压倒性的优势取胜。O0G品论天涯网

老爹笑话O0G品论天涯网

原创性方面的测试题目是:Write5original dad jokes。O0G品论天涯网

写5个原创的dad jokes。O0G品论天涯网

Dad Jokes（老爹笑话）是一种中年男人爱讲的笑话，简单幼稚、无聊、莫名奇妙，并且包含双关的谐音梗，属于无厘头的冷笑话。无聊到女儿听到时，常常会给老爸一个白眼。O0G品论天涯网

不过下面的答案因为是从英文翻译来的缘故，中文翻译会丢失一些谐音梗的趣味性。O0G品论天涯网

PaLM Bard的答案:O0G品论天涯网

1. 我曾经是一名银行家，但我失去了兴趣。O0G品论天涯网
2. 我彻夜未眠，想看看太阳去了哪里，但后来我恍然大悟。O0G品论天涯网
3. 我看到一个酒鬼在吃葡萄。我问他是否要喝它们，他说:「不，我只是去摘葡萄。」O0G品论天涯网
4. 我曾经为鸡经营过约会服务，但我很难让母鸡们互相见面。O0G品论天涯网
5. 我看到一只蜗牛背上背着一片生菜。我问他在做什么，他说:「我正在努力抢占先机。」O0G品论天涯网

O0G品论天涯网

Gemini Pro Bard的答案:O0G品论天涯网

1.水牛的儿子去上大学，它会说什么?「野牛!」O0G品论天涯网
2.我以前对肥皂上瘾，但我现在干净了。O0G品论天涯网
3.没有眼睛的鱼（Fish）叫什么?「嘘(Fsh)!」O0G品论天涯网
4.我正在读一本关于反重力的书，根本不可能把它放下!O0G品论天涯网
5.你听说过患有幽闭恐惧症的宇航员吗?「他只是需要一点空间。」O0G品论天涯网

O0G品论天涯网

GPT-3.5的答案:O0G品论天涯网

1. 为什么科学家不相信原子?因为它们构成（虚构）了一切!O0G品论天涯网
2. 我只认识25个字母。我不认识y（你）。O0G品论天涯网
3. 假意大利面应该怎么叫?Impasta。O0G品论天涯网
4. 稻草人为何获奖?因为他在自己的领域里很出色!O0G品论天涯网
5. 企鹅如何建造它的房子?Igloos起来!O0G品论天涯网

O0G品论天涯网

GPT-4的答案:O0G品论天涯网

1. 为什么科学家不相信原子?因为它们构成（虚构）了一切!O0G品论天涯网
2. 我告诉我儿子我是以Thomas Edison的名字命名的。他说:「但是爸爸，你叫布Biran。」我回答说:「没错，我是在Thomas Edison之后起名字的!」O0G品论天涯网
3. 稻草人为什么获奖?因为他在自己的领域表现出色!O0G品论天涯网
4. 我正在读书一本关于反重力的书。根本不可能把它放下!O0G品论天涯网
5. 你听说过那个害怕负数的数学家吗?他会不惜一切代价避免负数。O0G品论天涯网

O0G品论天涯网

这个问题的精髓，就在于回答中的原创性。O0G品论天涯网

但不管是Bard还是ChatGPT，给出答案几乎都可以通过谷歌搜索找到，或者就是模型在原答案的基础上，进行了一些小的改写。O0G品论天涯网

而且，Bard和GPT-4有一个答案重了（关于反重力的书），GPT-3.5和GPT-4则有两个笑话重复了(「科学家相信原子」和「稻草人获奖」)。O0G品论天涯网

最有趣的答案来自GPT-4，它讲的笑话里说，一个名叫Brian的孩子是以Thomas Edison命名的。谷歌没有搜到相同的笑话，但是搜到一个类似的Thomas Jefferson的孩子名叫Brian的笑话。O0G品论天涯网

O0G品论天涯网

获胜方:这一轮可以视为平局。因为AI们写出的笑话几乎都不是原创的……O0G品论天涯网

事实检索O0G品论天涯网

问题:Who invented video games?O0G品论天涯网

谁发明了电子游戏?O0G品论天涯网

PaLM Bard的答案:O0G品论天涯网

O0G品论天涯网

初代Bard答案中，「Ralph Baer的Brown Box和Magnavox Odyssey」的信息似乎是直接从维基百科中找到的。O0G品论天涯网

Gemini Pro Bard的答案:O0G品论天涯网

O0G品论天涯网

相比之下，新版Gemini Bard不仅简洁而准确地指出了William Higinbotham早期的「Tennis for Two」的贡献。O0G品论天涯网

而且，还扩展到对电子游戏早期发展做出重大贡献的人，比如Nolan Bushnell、Ted Dabney和Al Alcorn，提供的人物信息也是准确且相关的。O0G品论天涯网

不过后面的回答不够完美:它没有提Steve Jobs和Steve Wozniak在Atari的工作，反而对他们创造Apple II进行了一些不合逻辑的讨论。O0G品论天涯网

GPT-3.5的答案:O0G品论天涯网

O0G品论天涯网

而GPT-3.5虽然提到「多年个人和公司都为该行业做出了贡献」，却没有说出任何重要人物的名字。O0G品论天涯网

GPT-4的答案:O0G品论天涯网

O0G品论天涯网

GPT-4则表示，电子游戏的发明「不能归因于某个人」，然后提到了Higinbotham、Bushnell，以及Steve Russell1962年创作的《太空战争》。O0G品论天涯网

获胜方:在免费版模型里，Bard的答案比GPT-3.5更好。但要说最佳答案，还得看付费版的GPT-4。O0G品论天涯网

创意写作O0G品论天涯网

问题:Write a two-paragraph creative story about Abraham Lincoln inventing basketball.O0G品论天涯网

写一篇关于亚伯拉罕·林肯发明篮球的两个段落的创意故事。O0G品论天涯网

PaLM Bard的答案:O0G品论天涯网

O0G品论天涯网

初代Bard在写作中，包含了一些令人回味的语句，比如「林肯对自己微笑，因为他记得小时候玩过那样的游戏」。O0G品论天涯网

Gemini Pro Bard的答案:O0G品论天涯网

O0G品论天涯网

相比而言，Gemini Bard的写作更见简洁和专注主题。O0G品论天涯网

然而，两个版本的Bard，都没有按要求分成两个段落。O0G品论天涯网

GPT-3.5的答案:O0G品论天涯网

O0G品论天涯网

GPT-3.5的表现颇有亮点，它是唯一一个将林肯想象成年轻人而不是坐在白宫里焦躁不安的总统形象的模型。O0G品论天涯网

GPT-4的答案:O0G品论天涯网

O0G品论天涯网

而GPT-4是唯一一个明确提及林肯摔跤手经历的模型，而不是泛泛地说他有运动能力。O0G品论天涯网

更有趣的是，GPT-4的故事中，林肯是从白宫花园里的一群孩子那里，偷来了把球扔进篮筐这个概念。O0G品论天涯网

获胜方:所有模型的写作都有其独特的魅力和令人回味的句子，算是一场平局。O0G品论天涯网

辩论对话O0G品论天涯网

题目:Write a5-line debate between a fan of PowerPC Processors and a fan of Intel Processors， circa2000.O0G品论天涯网

写一篇2000年左右PowerPC处理器爱好者和Intel处理器爱好者之间的5行辩论。O0G品论天涯网

PaLM Bard的答案:O0G品论天涯网

O0G品论天涯网

Gemini Pro Bard的答案:O0G品论天涯网

O0G品论天涯网

可以看出，新版Gemini Bard对初代Bard的答案进行了改进，尤其是在技术术语的选择上。O0G品论天涯网

这些答案中包含AltiVec指令、RISC与CISC设计、MMX技术，放在2000年的Ars论坛讨论中并不违和。O0G品论天涯网

GPT-3.5的答案:O0G品论天涯网

O0G品论天涯网

GPT-4的答案:O0G品论天涯网

O0G品论天涯网

不过，ChatGPT显然表现更优。GPT-3.5的答案冗长，但GPT-4中就简化为更短小精辟的论点。O0G品论天涯网

二者的响应中，都避免了令普通受众感到艰涩的术语，更关注普遍的「功能与兼容性」论点。不足之处可能是对于对于技术受众来说太泛泛。O0G品论天涯网

获胜方:ChatGPT成功地复刻了辩论双方的观点，而不是依赖于令人困惑的术语，因此ChatGPT获胜。O0G品论天涯网

ChatGPT更胜一筹，但差距在缩小O0G品论天涯网

可以看到，在数学、摘要、事实查找和创意写作等测试中，基于Gemini的新版Bard相较于8个月之前，都表现出了显著的进步。O0G品论天涯网

虽然根据以上非常主观的评测，ChatGPT依然占据上风。O0G品论天涯网

但与今年四月的情况相比，双方的差距已经缩小了很多。O0G品论天涯网

最后，我们很期待看到，像Gemini Ultra或者可能融合了OpenAI神秘的Q*技术的新模型，将如何在不久的将来应对这些任务。O0G品论天涯网