人类被AI“毁灭” 一定是从教它玩《我的世界》开始的-品论天涯网

上周，几乎是前后脚，英伟达和国内几家科研机构分别发布了两份内容相似的论文。首先是英伟达宣布开发出了一个全新的游戏AI智能体“VOYAGER”，将AI大模型GPT-4接入了《我的世界》（Minecraft）游戏。jdR品论天涯网

基于GPT-4，VOYAGER能够在《我的世界》里扩充着自己的物品和装备，完成诸如建造房屋、挖矿、收集仙人掌和狩猎等基本生存技能；也能独立进行开放式探索，去到不同的城市和地点，甚至是自己搭建传送门。jdR品论天涯网

jdR品论天涯网

英伟达称VOYAGER在《我的世界》里获得的物品增加了3.3倍，旅行距离增加了2.3倍，解锁关键技能树的速度也比之前的方法快了15.3倍。jdR品论天涯网

接着就是商汤科技联合清华大学、上海人工智能实验室等机构发布了通才AI智能体“GhostintheMinecraft（GITM）”。jdR品论天涯网

同样是将大语言模型（LLM）整合进《我的世界》，GITM在《我的世界》内主世界的所有技术挑战上实现了100%的任务覆盖率（成功通关解锁了完整的科技树），而此前所有智能体的总和只能覆盖30%；另外在“获取钻石”任务上，GITM成功率达67.5%，同样相比于此前的最佳成绩——OpenAI的VPT方法大幅提高了47.5%。jdR品论天涯网

jdR品论天涯网

GITM在《我的世界》的任务覆盖率远高于现有AI智能体jdR品论天涯网

直白点说，他们都选择了《我的世界》这款游戏来训练AI，并且AI都实现了真人玩家能够完成的几乎所有游戏任务，堪比是能以假乱真的效果（这放在几个月前还是不可能的事）。jdR品论天涯网

我们先抛开看起来艰涩的技术细节不谈，为啥他们不约而同都迷上了拿《我的世界》做实验？jdR品论天涯网

《我的世界》就是个大型AI试验场jdR品论天涯网

要说起在《我的世界》里训练过的AI，那可就太多了。jdR品论天涯网

著名的莫拉维克悖论是这么说的：一些任务对于人类而言很困难，例如下棋，但对AI来说很简单；而像《我的世界》这样开放世界中与环境交互、进行规划和决策等对人类来说较为简单的事情，对AI来说却是巨大挑战。jdR品论天涯网

正因为这种情况的存在，在AI还不像现在这么发达的早几年，科学家们最初只是在《我的世界》里用AI完成一些简单的指令。jdR品论天涯网

jdR品论天涯网

比如在2019年，Facebook研发过一款《我的世界》AI助手“craftassistbot”，这是一个智能协作式的助理机器人，可以执行人类玩家指定的各种任务，如驯服马匹、建造城市、与村民会面及交易等。jdR品论天涯网

也是在2019年，卡内基·梅隆大学、微软、DeepMind和OpenAI，联合机器学习顶级会议NeurIPS共同举办了一个叫做“MineRL”的专门针对《我的世界》游戏的AI比赛，到2022年一共举办了四届。jdR品论天涯网

这个比赛同样见证了AI在《我的世界》中的应用由简单到复杂的过程。jdR品论天涯网

比如第一届MineRL比的东西还很简单：看哪个研究团员能够创造出可以在《我的世界》中成功开采钻石的AI。不过很惨，最后参加的900多个全球顶尖团队没有一个能完成挑战，一些AI撸掉木材却不会合成，一些AI造出了熔炉却不会冶炼，一些AI知道去地下挖矿，但却选择了垂直挖……jdR品论天涯网

后来到了第三届，比赛内容就变成了看谁能训练出样本高效的《我的世界》AI智能体。这一届的冠军是以76.970分的绝对优势夺冠的腾讯AILab“绝悟”。jdR品论天涯网

各种公司、机构密集开始在《我的世界》中训练AI其实也是最近五年的事。jdR品论天涯网

美国国防高级研究计划局（DARPA）在2020年8月启动了自适应分布式概率任务分配（ADAPT）项目，以期在战场空间中利用AI协助指挥官进行决策，该项目的承包商Aptima公司用到的就是《我的世界》来训练AI与人类的互动能力。jdR品论天涯网

2021年哥本哈根信息技术大学、纽约大学和上海大学的研究者也创建过一个使用3D神经元胞自动机（NeuralCellularAutomata，NCA）的系统，并将该系统部署在了《我的世界》里，这个时候的NCA已经可以建造毛毛虫、城堡、公寓楼和树等复杂的实体。jdR品论天涯网

比较出圈的一次实验是在去年。jdR品论天涯网

OpenAI去年宣布由他们训练的AI已经做到了熟练游玩《我的世界》。通过引入一种新颖且便捷的AI训练法“视频预训练（VideoPreTraining）”，在向AI“投喂”了7万小时从相关合作方处获取的《我的世界》演示视频以及与视频配套的键盘鼠标操作记录后，OpenAI旗下的AI的操作已经相当传神，掌握了只有人类才能领悟的高阶玩法。jdR品论天涯网

jdR品论天涯网

OpenAI在《我的世界》中的实操演示jdR品论天涯网

此外，DeepMind也在今年年初开发出了能够媲美OpenAI成果的名叫“DreamerV3”的AI智能体。DreamerV3在没有任何人工数据辅助的情况下，被丢进《我的世界》里摸爬滚打了17天，惊人地学会了如何从0开始挖钻石，成了世界上第一个纯靠自己摸索，就能在《我的世界》里速挖钻石的AI智能体。jdR品论天涯网

当时MineRL比赛的发起人之一WilliamGuss都忍不住第一时间发来贺电：4年了，“钻石挑战”终于被攻克了！jdR品论天涯网

没有谁比《我的世界》更合适了jdR品论天涯网

《我的世界》面世12年，已经成为世界上最受欢迎的一款游戏，被许多玩家形容为电子版的乐高。早在2019年，《我的世界》就超过《俄罗斯方块》成为全球销量最高的游戏。jdR品论天涯网

《我的世界》“开放世界”的游戏属性让它成了科学家们训练AI的绝佳场所。jdR品论天涯网

不同于LOL和王者荣耀等单一的战略对战游戏，《我的世界》并不预先设定目标，仅有的两个模式是“生存”和“创造”。“生存”模式中，玩家要造好房子并收集东西，保证活下来，即使是用来击退僵尸和蜘蛛的剑也需要玩家用木材和铁矿来锻造；“创造”模式则更加自由，玩家使用各种功能的立方体，自由构建建筑物和物体，而且游戏永远不会结束。jdR品论天涯网

如果说LOL、王者荣耀或是很多棋类游戏因为简单的规则和游戏机制，可以让AI以极快的速度学习并超越战胜人类，《我的世界》游戏过程的复杂程度就几乎是在挑战AI的极限。jdR品论天涯网

极度多样的环境、完全靠随机种子生成的地图、长决策序列与复杂的技能学习、高自由度玩法带来的海量策略偏好，都增加了《我的世界》AI研究的难度。jdR品论天涯网

比如，为了让AI在15分钟内找到钻石，AI需要经历徒手采集原木、合成木板、木棍与木镐，采集到铁矿，经过一系列加工才能合成钻石，看似只是一件小事，但对于AI来说，却需要掌握其中复杂的逻辑关系——这还只是《我的世界》游戏的一部分，除了制造工具，AI还需要给自己制定目标，学着在游戏世界里探索，直到解锁所有的游戏任务。jdR品论天涯网

jdR品论天涯网

《我的世界》中找钻石的步骤jdR品论天涯网

而如果只是学下棋或是打LOL，AI只用知道怎么赢就行了。jdR品论天涯网

是不是觉得，《我的世界》训练出来的AI，要比靠下棋、玩LOL训练出来的AI高级多了（虽然学习速度可能慢了点）？jdR品论天涯网

事实上在当前的AI研究中，科学家们会越来越追求通用人工智能（AGI）的研究，追求打造更通用的AI智能体，也就是发展AI智能体能够掌握广泛的技能，适应各种环境变化，更深入地模拟和应对人类在复杂问题上的能力，像人一样的进行感知、理解和交互（而不是只会回答简单问题、下棋能赢人类那种“小打小闹”的AI）。jdR品论天涯网

这就意味着要训练通用AI，《我的世界》模拟的环境是非常合适的。jdR品论天涯网

不过，开放世界游戏那么多，为什么又偏偏是《我的世界》呢？jdR品论天涯网

有网友在Twitter向参与开发了VOYAGER的英伟达首席科学家JimFan发问说，既然VOYAGER是为开放世界而生，那为什么没有选择在《塞尔达》或者是《艾尔登法环》这样看上去更加宏大的开放世界游戏中作AI训练？jdR品论天涯网

JimFan的回答是，这中间的主要难点其实并不是算法，而是因为《塞尔达》和《艾尔登法环》这样的游戏运用了“缓慢且难以以编程方式控制高端控制台”，并且“需要一个好的编码API来控制角色”。相较之下，《我的世界》的技术门槛要更低，在目标和玩法类似的情况下，《我的世界》实际也为AI训练降低了难度。jdR品论天涯网

jdR品论天涯网

另外，《我的世界》对开发者也很友好。许多用于构建《我的世界》的代码库都是开源的，所以人们可以很容易修改。并且该游戏也允许研究人员记录和学习人们是如何一起完成任务的，然后观察他们将如何与AI智能体一起工作。jdR品论天涯网

从这些意义上说，没有谁比《我的世界》来训练AI更合适的了。jdR品论天涯网

这次《我的世界》里的AI有什么特别？jdR品论天涯网

此次英伟达开发的VOYAGER，和商汤科技联合清华大学、上海人工智能实验室等机构开发的GITM，与过去基于《我的世界》训练的AI智能体最大的不同在于，引入了大语言模型（LLM）作为AI训练的核心方法。jdR品论天涯网

以往在《我的世界》中训练AI用到的主流方法则是，模仿学习和强化学习。jdR品论天涯网

即便是此前OpenAI和DeepMind开发出的最先进的《我的世界》AI智能体，用到的训练方法也是模仿学习和强化学习。jdR品论天涯网

打个比方，如果想让AI在《我的世界》里学会挖矿，模拟学习要做的就是先喂给AI上万个游戏视频，让它分析学习为什么要撸树，如何利用工作台进行分解合成，如何做出第一把镐子，如何冶炼铁锭，制作铁镐，获取钻石，如何避免落入岩浆，如何战斗等等挖矿的必要步骤。jdR品论天涯网

等到投喂学习结束，AI接下来就要接受强化学习，也就是把AI小人扔进《我的世界》，让它去“真正”执行挖矿的任务，通过反复实验来发现和解决问题，从而真正学会挖矿这一技能。jdR品论天涯网

但在大语言模型的训练方法下，AI的学习逻辑是被完全重构的。jdR品论天涯网

依然拿挖矿来说，AI智能体自身会首先根据“尽可能多发现不同的东西来帮助挖矿”的总体目标去提问、自动生成许多小任务，通过去存储有助于成功解决某个任务的行动程序（比如撸掉树木再去进行合成被验证是正确的，造出了熔炉就要去冶炼也是正确的），AI就会逐渐建立起一个如何正确挖矿的技能库。而往后如果再遇到挖矿任务，AI就可以根据其描述的嵌入在技能库中进行检索。jdR品论天涯网

jdR品论天涯网

大语言模型训练方法下的GITMjdR品论天涯网

也就是说，大语言模型的训练方法下，AI是可以自主驱动探索并掌握广泛技能的，这就使得大语言模型方法更能帮助AI成为一个终身学习者，能在较长的时间跨度内逐步获得、更新、积累和迁移知识，同时缓解了其他持续学习方法中的“灾难性遗忘”。jdR品论天涯网

jdR品论天涯网

VOYAGER探索物品量高于其他许多AI智能体jdR品论天涯网

有点像是一直让AI呆在学校里读书实习，还是让AI一开始就在社会里摸爬滚打的区别。jdR品论天涯网

总而言之，用大语言模型方法在《我的世界》训练出来的AI更像一个真实的人了。jdR品论天涯网

我们知道，一个理想的AI应该具有与人类类似的能力。《我的世界》里的AI不管是根据其当前的技能水平和世界状态提出合适的任务（如果发现自己处于沙漠而不是森林，就会在打铁前学会获取沙子和仙人掌），根据环境反馈完善技能并将掌握的技能存入记忆（比如打僵尸和打蜘蛛的技能类似），还是不断探索世界，以自驱动的方式寻找新任务，其实都已经和现实世界中人类的决策过程和行为方式非常相近。jdR品论天涯网

说《我的世界》已经是一个缩小版的现实世界也许一点也不夸张。jdR品论天涯网

而让人细思极恐的是，随着VOYAGER和GITM的研究成果发布，AI现在已经能通关《我的世界》了。jdR品论天涯网

这不禁让人猜想，AI是不是很快就能在现实世界里如鱼得水，它能像人一样生活，会做饭、会用手机、知道怎么穿衣服、怎么养宠物、怎么坐公交地铁……更不可思议的是，它还能像人一样有自己的想法，知道穿哪件衣服好看，怎么做饭能更好吃，电话应该打给谁……没准在不久的将来，我们在生活中遇到到的“人”，都无法分辨它是不是AI。jdR品论天涯网

既然都能通关《我的世界》了，AI过上人的生活从技术上来讲也不是不能实现。jdR品论天涯网

人类又会如何选择呢？jdR品论天涯网