DeepMind最强“基础世界模型”诞生单图生1分钟游戏世界-品论天涯网

DeepMind最新基础世界模型Genie2登场！只要一张图，就能生成长达1分钟的游戏世界。从此，我们将拥有无限的具身智能体训练数据。更有人惊呼：黑客帝国来了。SBt品论天涯网

就在刚刚，GoogleDeepMind的第二代大规模基础世界模型Genie2诞生了！SBt品论天涯网

SBt品论天涯网

从此，AI可以生成各种一致性的世界，最长可玩1分钟。SBt品论天涯网

Google研究人员表示，相信Genie2可以解锁具身智能体的下一波能力。SBt品论天涯网

SBt品论天涯网

从第一人称的真实世界场景，到第三人称的驾驶环境，Genie2生成了一个720p的世界。SBt品论天涯网

给定一幅图像，它就能模拟出世界动态，创建一个可通过键盘和鼠标输入的、可操作的一致环境。SBt品论天涯网

具身智能体的潜力有多大？SBt品论天涯网

在以下这个Imagen3生成的世界中，研究者测试出最新的智能体是否可以遵循语言指令，走到红门或蓝门。SBt品论天涯网

结果令人惊喜！SBt品论天涯网

SBt品论天涯网

就这样，现在我们拥有了一条通往无限环境的道路，来训练和评估具身智能体了。SBt品论天涯网

研究者创造了一个有3个拱门的世界后，Genie2再次模拟了这个世界，让团队解决了任务。SBt品论天涯网

SBt品论天涯网

对此，网友们纷纷表示赞叹：’这项工作实在是太棒了！今后，我们终于可以将开放式智能体与开放世界模型结合起来。我们正在朝着近乎无限的训练数据体系迈进。’SBt品论天涯网

SBt品论天涯网

还有网友表示：‘黑客帝国’的世界，要来了！SBt品论天涯网

SBt品论天涯网

为未来的通用智能体，生成无限多样的训练环境SBt品论天涯网

作为一种基础世界生成模型，Genie2能生成无限多样的、可操控且可玩的3D环境，用于训练和评估具身智能体。SBt品论天涯网

基于一张提示词图像，它就可被人类或AI智能体操作了！方式是使用键盘和鼠标输入。SBt品论天涯网

在AI研究中，游戏一直扮演着至关重要的角色。因为具有以引人入胜的特性、独特的挑战组合以及可衡量的进展，游戏成为了安全测试和提升AI能力的理想环境。SBt品论天涯网

自GoogleDeepMind成立以来，游戏一直都是研究的核心——从早期的Atari游戏研究，到AlphaGo和AlphaStar等突破性成果，再到与游戏开发者合作研究通用智能体。SBt品论天涯网

然而，训练更通用的具身智能体，却因缺乏足够丰富和多样化的训练环境而受到限制。SBt品论天涯网

但现在，Genie2的诞生改变了一切。SBt品论天涯网

从此，未来的智能体可以在无限的新世界场景中进行训练和评估了。SBt品论天涯网

交互式体验原型设计的新型创意工作流程，也有了全新的可能性。SBt品论天涯网

SBt品论天涯网

基础世界模型的涌现能力SBt品论天涯网

迄今为止，世界模型在很大程度上都受限于对狭窄领域的建模。SBt品论天涯网

在Genie1中，研究人员引入了一种生成多样化二维世界的方法。SBt品论天涯网

而到了Genie2这一代，在通用性上实现了重大突破——它能生成丰富多样的3D世界了。SBt品论天涯网

Genie2是一种世界模型，这就意味着，它可以模拟虚拟世界，包括采取任何行动（如跳跃、游泳等）的后果。SBt品论天涯网

基于大规模视频数据集进行训练后，它像其他生成式AI模型一样，展现出了各种规模的涌现能力，例如物体交互、复杂的角色动画、物理效果、建模、预测其他智能体行为的能力等等。SBt品论天涯网

对于每个人类与Genie2互动的demo，模型都以由Imagen3生成的单张图片作为提示词输入，SBt品论天涯网

这就意味着，任何人都可以用文字描述自己想要的世界，选择自己喜欢的渲染效果，然后进入这个新创建的世界，并且与之互动（或者，也可以让AI智能体在其中被训练或评估）。SBt品论天涯网

每一步，人或智能体都能通过键盘和鼠标提供动作，而Genie2会模拟下一步的观察结果。SBt品论天涯网

在长达一分钟的时间里，Genie2可以生成一个一致的世界，持续时间直接长达10-20秒！SBt品论天涯网

动作控制SBt品论天涯网

Genie2能够智能响应通过键盘按键采取的动作，识别角色并正确移动。SBt品论天涯网

例如，模型必须计算出，箭头键应该移动机器人，而不是移动树木或云朵。SBt品论天涯网

一个在树林中的可爱的人形机器人
一个在古埃及的人形机器人
在紫色的星球上，以机器人第一人称视角观察
在现代都市的公寓中，以机器人第一人称视角观察SBt品论天涯网

生成反事实SBt品论天涯网

Genie2能够基于同一个开始画面，创造出多个不同的发展。SBt品论天涯网

这意味着我们可以为AI训练提供各种‘如果这样做会怎样’的场景。SBt品论天涯网

在下面的这两行demo中，每个视频都会从完全相同的画面开始，但人类玩家会选择不同行动。SBt品论天涯网

SBt品论天涯网

长时间记忆SBt品论天涯网

Genie2能够记住那些暂时离开画面的场景，并在它们重新进入视野时，精确地还原出来。SBt品论天涯网

SBt品论天涯网

持续生成新场景SBt品论天涯网

Genie2能在过程中实时创造出符合逻辑的新场景内容，并且可以在长达一分钟的时间内保持整个世界的一致性。SBt品论天涯网

多样化环境SBt品论天涯网

Genie2能够生成多种不同的观察视角，比如第一人称视角、等距视角（45度俯视角）或第三人称驾驶视角。SBt品论天涯网

SBt品论天涯网

3D结构SBt品论天涯网

Genie2能够创建复杂的3D视觉场景。SBt品论天涯网

SBt品论天涯网

物体属性与交互SBt品论天涯网

Genie2能够建模各种物体交互，例如气球爆裂、开门和射击炸药桶。SBt品论天涯网

SBt品论天涯网

角色动画SBt品论天涯网

Genie2能够为不同类型的角色，制作各种动作的动画。SBt品论天涯网

SBt品论天涯网

NPCSBt品论天涯网

Genie2能够为其他智能体建模，甚至与它们进行复杂交互。SBt品论天涯网

SBt品论天涯网

物理效果SBt品论天涯网

Genie2能够模拟出水面的动效。SBt品论天涯网

SBt品论天涯网

烟雾SBt品论天涯网

Genie2能够模拟烟雾的效果。SBt品论天涯网

SBt品论天涯网

重力SBt品论天涯网

Genie2能够模拟重力。SBt品论天涯网

SBt品论天涯网

光照SBt品论天涯网

Genie2能够模拟点光源和方向光。SBt品论天涯网

SBt品论天涯网

反射SBt品论天涯网

Genie2能够模拟反射、泛光和彩色光照。SBt品论天涯网

SBt品论天涯网

基于真实图像的模拟SBt品论天涯网

Genie2还可以将真实世界的图像作为提示词输入，并模拟出草叶在风中摇曳或河水流动等场景。SBt品论天涯网

SBt品论天涯网

快速创建测试原型SBt品论天涯网

有了Genie2，制作多样化的交互场景就变得简单了。SBt品论天涯网

研究人员可以快速尝试新环境，来训练和测试具身AI智能体。SBt品论天涯网

例如，下面就是研究人员向Genie2输入Imagen3生成的不同图像，来模拟操控纸飞机、飞龙、猎鹰或降落伞等不同的飞行方式。SBt品论天涯网

在这个过程中，也同时测试了Genie处理不同控制对象动作时的表现。SBt品论天涯网

SBt品论天涯网

凭借强大的离散泛化能力，Genie2可以将概念设计图和手绘草图转化为可实际交互的场景。SBt品论天涯网

从而让艺术家和设计师能够快速验证创意，提升场景设计的效率，并加快相关研究的进度。SBt品论天涯网

以下是由概念设计师创作出的一些虚拟场景示例。SBt品论天涯网

SBt品论天涯网

AI智能体在世界模型中行动SBt品论天涯网

借助Genie2，研究人员能够快速构建出丰富多样的虚拟环境，并创造全新的评估任务，来测试AI智能体在从未接触过的场景中的表现。SBt品论天涯网

下面这个demo，就是由GoogleDeepMind与游戏开发者共同开发的SIMA智能体，它能够在Genie2仅通过一张图片生成的全新环境中，准确理解并完成各种指令。SBt品论天涯网

SBt品论天涯网

prompt：一张第三人称开放世界探索游戏的截图。画面中的玩家是一名在森林中探索的冒险者。左边有一座红门的房子，右边有一座蓝门的房子。镜头正对着玩家的身后。#写实风格#身临其境SBt品论天涯网

SIMA智能体的目标是，能够在多样化的3D游戏环境中，通过自然语言指令完成各种任务。SBt品论天涯网

在这里，团队使用Genie2生成了一个包含两扇门（蓝色和红色）的3D环境，并向SIMA智能体提供了打开每扇门的指令。SBt品论天涯网

过程中，SIMA通过键盘和鼠标来控制游戏角色，而Genie2负责实时生成游戏画面。SBt品论天涯网

SBt品论天涯网

打开蓝色的门SBt品论天涯网

SBt品论天涯网

打开红色的门SBt品论天涯网

不仅如此，我们还可以借助SIMA来评估Genie2的各项能力。SBt品论天涯网

比如，通过让SIMA在场景中四处查看并探索房屋背后的区域，测试Genie2是否能够生成一致性的环境。SBt品论天涯网

SBt品论天涯网

转身SBt品论天涯网

SBt品论天涯网

去房子后面SBt品论天涯网

尽管这项研究还处于起步阶段，无论是AI智能体的表现，还是环境的生成都还有待提升。SBt品论天涯网

但研究人员认为，Genie2是解决安全训练具身智能体这一结构性问题的路径，同时也能够实现通向通用人工智能（AGI）所需的广度和通用性。SBt品论天涯网

SBt品论天涯网

prompt：一个电脑游戏场景，展示了一座粗犷的石洞或矿洞内部。画面采用第三人称视角，镜头在主角上方俯视着。主角是一位手持长剑的骑士。骑士面前矗立着三座石砌的拱门，他可以选择进入任一道门。透过第一扇门，可以看到隧道内生长着散发荧光的奇异绿色植物。第二扇门后是一条长廊，洞壁上布满了铆接的铁板，远处隐约透出令人不安的光芒。第三扇门内则是一段粗糙的石阶，蜿蜒通向未知的高处。SBt品论天涯网

SBt品论天涯网

走上楼梯SBt品论天涯网

SBt品论天涯网

去有植物的地方SBt品论天涯网

SBt品论天涯网

去中间的门SBt品论天涯网

扩散世界模型SBt品论天涯网

Genie2是一种基于大规模视频数据集训练的自回归潜变量扩散模型。SBt品论天涯网

其中，视频的潜变量帧首先先会由自动编码器进行处理，然后被传递给一个基于类似LLM中因果掩码训练的大规模Transformer动态模型。SBt品论天涯网

在推理阶段，Genie2可以以自回归的方式进行采样，逐帧利用单个动作和先前的潜变量帧。期间，无分类器指导（classifier-freeguidance）会被用于提高动作的可控性。SBt品论天涯网

SBt品论天涯网

值得注意的是，上文中的演示均由未经蒸馏的‘满血版’基础模型生成，从而充分地展示技术潜在的能力。SBt品论天涯网

当然，也可以实时运行经过蒸馏的版本（distilledversion），但输出质量会相应降低。SBt品论天涯网

花絮SBt品论天涯网

除了这些酷炫的demo之外，团队还在生成过程中发现了很多有意思的花絮：SBt品论天涯网

SBt品论天涯网

在花园里站着发呆，突然间，一个幽灵出现了SBt品论天涯网

SBt品论天涯网

这位朋友更喜欢在雪场里跑酷，而不是老老实实地用滑雪板滑雪SBt品论天涯网

SBt品论天涯网

能力越大，责任越大SBt品论天涯网

致谢SBt品论天涯网

最后，GoogleDeepMind团队放出了一个长长的致谢名单。SBt品论天涯网

SBt品论天涯网

DeepMind最强“基础世界模型”诞生 单图生1分钟游戏世界

DeepMind最强“基础世界模型”诞生单图生1分钟游戏世界