Gary Marcus：文本生成图像系统理解不了世界离AGI还差得远-品论天涯网

但真的是如此吗？知名AI学者（给AI泼冷水爱好者）GaryMarcus表示“持保留意见”。zTr品论天涯网

最近，他提出，在评估AGI的进展时，关键要看像Dall-E、Imagen、Midjourney和StableDiffusion这样的系统是否真正理解世界，从而能够根据这些知识进行推理并进行决策。zTr品论天涯网

在判断这些系统之于AI（包括狭义和广义的AI）的意义时，我们可以提出以下三个问题：zTr品论天涯网

图像合成系统能否生成高质量的图像？zTr品论天涯网

它们能否将语言输入与它们产生的图像关联起来？zTr品论天涯网

它们了解它们所呈现出的图像背后的世界吗？zTr品论天涯网

1.AI不懂语言与图像的关联

在第一个问题上，答案是肯定的。区别只在于，在用AI生成图像这件事儿上，经过训练的人类艺术家能做得更好。zTr品论天涯网

在第二个问题上，答案就不一定了。在某些语言输入上，这些系统能表现良好，比如下图是DALL-E2生成的“骑着马的宇航员”：zTr品论天涯网

zTr品论天涯网

但在其他一些语言输入上，这些AI就表现欠佳、很容易被愚弄了。比如前段时间Marcus在Twitter上指出，这些系统在面对“骑着宇航员的马”时，难以生成对应的准确图像：zTr品论天涯网

zTr品论天涯网

尽管深度学习的拥护者对此进行了激烈的反击，比如AI研究员JoschaBach认为“Imagen可能只是使用了错误的训练集”，机器学习教授LucaAmbrogioni反驳说，这正表明了“Imagen已经具有一定程度的常识”，所以拒绝生成一些荒谬的东西。zTr品论天涯网

zTr品论天涯网

还有一位Google的科学家BehnamNeyshabur提出，如果“以正确的方式提问”，Imagen就可以画出“骑着宇航员的马”：zTr品论天涯网

zTr品论天涯网

但是，Marcus认为，问题的关键不在于系统能否生成图像，聪明的人总能找到办法让系统画出特定的图像，但这些系统并没有深刻理解语言与图像之间的关联，这才是关键。zTr品论天涯网

2.不知道自行车轮子是啥怎么能称是AGI？

系统对语言的理解还只是一方面，Marcus指出，最重要的是，判断DALL-E等系统对AGI的贡献最终要取决于第三个问题：如果系统所能做的只是以一种偶然但令人惊叹的方式将许多句子转换为图像，它们可能会彻底改变人类艺术，但仍然不能真正与AGI相提并论，也根本代表不了AGI。zTr品论天涯网

让Marcus对这些系统理解世界的能力感到绝望的是最近的一些例子，比如平面设计师IrinaBlok用Imagen生成的“带有很多孔的咖啡杯”图像：zTr品论天涯网

zTr品论天涯网

正常人看了这张图都会觉得它违反常识，咖啡不可能不从孔里漏出来。类似的还有：zTr品论天涯网

“带有方形轮子的自行车”zTr品论天涯网

zTr品论天涯网

“布满仙人掌刺的厕纸”zTr品论天涯网

zTr品论天涯网

说“有”容易说“无”难，谁能知道一个不存在的事物应当是什么样？这也是让AI绘制不可能事物的难题所在。zTr品论天涯网

但又或许，系统只是“想”绘制一个超现实主义的图像呢，正如DeepMind研究教授MichaelBronstein所说的，他并不认为那是个糟糕的结果，换做是他，也会这样画。zTr品论天涯网

zTr品论天涯网

那么如何最终解决这个问题呢？GaryMarcus在最近同哲学家DaveChalmers的一次交谈中获得了新的灵感。zTr品论天涯网

为了了解系统对于部分和整体、以及功能的认识，GaryMarcus提出了一项对系统性能是否正确有更清晰概念的任务，给出文本提示“Sketchabicycleandlabelthepartsthatrollontheground”（画出一辆自行车并标记出在地面上滚动的部分），以及“Sketchaladderandlabeloneofthepartsyoustandon”（画出一个梯子并标记出你站立的部分）。zTr品论天涯网

这个测试的特别之处在于，并不直接给出“画出一辆自行车并标记出轮子”、“画出一个梯子并标记出踏板”这样的提示，而是让AI从“地面上滚动的部分”、“站立的部分”这样的描述中推理出对应的事物，这正是对AI理解世界能力的考验。zTr品论天涯网

但Marcus的测试结果表明，Craiyon（以前称为DALL-Emini）在这种事情上做得一塌糊涂，它并不能理解自行车的轮子和梯子的踏板是什么：zTr品论天涯网

zTr品论天涯网

那么这是不是DALL-EMini特有的问题呢？zTr品论天涯网

GaryMarcus发现并不是，在目前最火的文本生成图像系统StableDiffusion中也出现了同样的结果。

比如，让StableDiffusion“画一个人，并把拿东西的部分变成紫色”（Sketchapersonandmakethepartsthatholdthingspurple），结果是：zTr品论天涯网

zTr品论天涯网

显然，StableDiffusion并不理解人的双手是什么。zTr品论天涯网

而在接下来的九次尝试中，只有一次成功完成（在右上角），而且准确性还不高：zTr品论天涯网

zTr品论天涯网

下一个测试是，“画出一辆白色自行车，并将用脚推动的部分变成橙色”，得到图像结果是：zTr品论天涯网

zTr品论天涯网

所以它也不能理解什么是自行车的脚踏板。zTr品论天涯网

而在画出“自行车的草图，并标记在地面上滚动部分”的测试中，其表现得也并没有很好：zTr品论天涯网

zTr品论天涯网

如果文本提示带有否定语，比如“画一辆没有轮子的白色自行车"，其结果如下：zTr品论天涯网

zTr品论天涯网

这表明系统并不理解否定的逻辑关系。zTr品论天涯网

即便是“画一辆绿色轮子的白色自行车”这样简单的只关注部分与整体关系提示，而且也没有出现复杂的语法或功能等，其得到的结果仍存在问题：zTr品论天涯网

zTr品论天涯网

因此，Marcus质问道，一个并不了解轮子是什么、或是它们的用途的系统，能称得上是人工智能的重大进步么？zTr品论天涯网

今天，GaryMarcus还针对这个问题发出了一个投票调查，他提出的问题是，“Dall-E和StableDiffusion等系统，对它们所描绘的世界到底了解有多少？”zTr品论天涯网

其中，86.1%的人认为系统对世界的理解并不多，只有13.9%的人认为这些系统理解世界的程度很高。zTr品论天涯网

zTr品论天涯网

对此，Stability.AI的首席执行官EmadMostique也回应称，我投的是“并不多”，并承认“它们只是拼图上的一小块。”zTr品论天涯网

zTr品论天涯网

来自科学机构NewScience的AlexeyGuzey也有与Marcus类似的发现，他让DALL-E画出一辆自行车，但结果只是将一堆自行车的元素堆在一起。zTr品论天涯网

zTr品论天涯网

所以他认为，并没有任何能真正理解自行车是什么以及自行车如何工作的模型，生成当前的ML模型几乎可以与人类媲美或取代人类是很荒谬的。zTr品论天涯网

大家怎么看？zTr品论天涯网

Gary Marcus：文本生成图像系统理解不了世界 离AGI还差得远

Gary Marcus：文本生成图像系统理解不了世界离AGI还差得远