DeepMind用新AI超越自己：提速200倍所有雅达利游戏上胜过人类-品论天涯网

hfi品论天涯网

但它有一个致命缺陷是效率低：需要近800亿帧的数据训练才能实现。hfi品论天涯网

现在，MEME的出现完美解决了这一问题。hfi品论天涯网

有网友看完表示：这就是真正的样本高效吧。hfi品论天涯网

hfi品论天涯网

话不多说，赶紧来一睹为快吧。hfi品论天涯网

新的智能体：MEMEhfi品论天涯网

Agent57，作为首个在所有雅达利游戏中超越人类基准表现的智能体，性能上已足够先进。hfi品论天涯网

但问题是，要想达到这一目标，背后需要780亿帧的庞大的经验训练，这在时间和成本上都是一笔大开支。hfi品论天涯网

因此，以Agent57为起点，DeepMind采用了一系列不同的策略，来实现训练效率上的提升。hfi品论天涯网

他们调查了在减少数据制度时遇到的一系列不稳定因素和瓶颈，并提出了有效的解决方案，最后建立一个更加强大和高效的智能体：MEME。hfi品论天涯网

新的MEME智能体主要针对Agent57的4个方面进行改善，分别是：hfi品论天涯网

A.实现与罕见事件相关的学习信号的快速传播；hfi品论天涯网

B.在不同的价值尺度下稳定学习；hfi品论天涯网

C.改进神经网络结构；hfi品论天涯网

D.在快速变化的政策下使更新更加稳健。hfi品论天涯网

hfi品论天涯网

为了达到这四个目标，DeepMind采取了以下方法，与上述四点相对应。hfi品论天涯网

A1.用在线网络进行引导；hfi品论天涯网

A2.有公差的目标计算；hfi品论天涯网

B1.损失和优先权归一化；hfi品论天涯网

B2.交叉混合训练；hfi品论天涯网

C1.无归一化的躯干网络；hfi品论天涯网

C2.带有综合损失的共享躯干；hfi品论天涯网

D.通过策略提炼的鲁棒行为。hfi品论天涯网

hfi品论天涯网

这些方法旨在提高Agent57的数据效率，但这种效率的提高不能以牺牲终端性能为代价。hfi品论天涯网

因此，为了检验经过上述步骤的智能体MEME的效率和性能，研究团队分别在2亿、10亿、200亿、900亿帧环境进行了训练。hfi品论天涯网

hfi品论天涯网

通过下图可以直观的看出，新智能体MEME在3.9亿帧时就超过了人类基准，比Agent57快了两个数量级，并且在将参数量从90B减少到1B的情况下，取得了类似的最终表现。hfi品论天涯网

可以说相比Agent57而言，MEME既提升了效率，又保持了性能。hfi品论天涯网

hfi品论天涯网

研究团队hfi品论天涯网

MEME的研究团队来自DeepMind。hfi品论天涯网

其中三位AdriàPuigdomènechBadia、StevenKapturowski、CharlesBlunDELL也是之前Agent57的论文作者。hfi品论天涯网

hfi品论天涯网

值得一提的是，StevenKapturowski在两篇论文中都是一作。hfi品论天涯网

他毕业于美国科罗拉多大学博尔德分校，曾在苹果、微软、GlaSSDoor等公司工作过，现在是DeepMind的一名高级研究工程师。hfi品论天涯网

hfi品论天涯网

DeepMind用新AI超越自己：提速200倍 所有雅达利游戏上胜过人类