人工智能

DeepMind用新AI超越自己:提速200倍 所有雅达利游戏上胜过人类

字号+作者: 来源:量子位 2022-09-21 10:11 评论(创建话题) 收藏成功收藏本文

但它有一个致命缺陷是效率低:需要近800亿帧的数据训练才能实现。现在,MEME的出现完美解决了这一问题。有网友看完表示:这就是真正的样本高效吧。话不多说,'...

www.pltyw.com,pltyw.com


N4J品论天涯网

但它有一个致命缺陷是效率低:需要近800亿帧的数据训练才能实现。N4J品论天涯网

现在,MEME的出现完美解决了这一问题。N4J品论天涯网

有网友看完表示:这就是真正的样本高效吧。N4J品论天涯网


N4J品论天涯网

话不多说,赶紧来一睹为快吧。N4J品论天涯网

新的智能体:MEMEN4J品论天涯网

Agent57,作为首个在所有雅达利游戏中超越人类基准表现的智能体,性能上已足够先进。N4J品论天涯网

但问题是,要想达到这一目标,背后需要780亿帧的庞大的经验训练,这在时间和成本上都是一笔大开支。N4J品论天涯网

因此,以Agent57为起点,DeepMind采用了一系列不同的策略,来实现训练效率上的提升。N4J品论天涯网

他们调查了在减少数据制度时遇到的一系列不稳定因素和瓶颈,并提出了有效的解决方案,最后建立一个更加强大和高效的智能体:MEME。N4J品论天涯网

新的MEME智能体主要针对Agent57的4个方面进行改善,分别是:N4J品论天涯网

A.实现与罕见事件相关的学习信号的快速传播N4J品论天涯网

B.在不同的价值尺度下稳定学习N4J品论天涯网

C.改进神经网络结构N4J品论天涯网

D.在快速变化的政策下使更新更加稳健N4J品论天涯网


N4J品论天涯网

为了达到这四个目标,DeepMind采取了以下方法,与上述四点相对应。N4J品论天涯网

A1.用在线网络进行引导;N4J品论天涯网

A2.有公差的目标计算;N4J品论天涯网

B1.损失和优先权归一化;N4J品论天涯网

B2.交叉混合训练;N4J品论天涯网

C1.无归一化的躯干网络;N4J品论天涯网

C2.带有综合损失的共享躯干;N4J品论天涯网

D.通过策略提炼的鲁棒行为。N4J品论天涯网


N4J品论天涯网

这些方法旨在提高Agent57的数据效率,但这种效率的提高不能以牺牲终端性能为代价。N4J品论天涯网

因此,为了检验经过上述步骤的智能体MEME的效率和性能,研究团队分别在2亿、10亿、200亿、900亿帧环境进行了训练。N4J品论天涯网


N4J品论天涯网

通过下图可以直观的看出,新智能体MEME在3.9亿帧时就超过了人类基准,比Agent57快了两个数量级,并且在将参数量从90B减少到1B的情况下,取得了类似的最终表现。N4J品论天涯网

可以说相比Agent57而言,MEME既提升了效率,又保持了性能。N4J品论天涯网


N4J品论天涯网

研究团队N4J品论天涯网

MEME的研究团队来自DeepMind。N4J品论天涯网

其中三位AdriàPuigdomènechBadia、StevenKapturowski、CharlesBlunDELL也是之前Agent57的论文作者。N4J品论天涯网


N4J品论天涯网

值得一提的是,StevenKapturowski在两篇论文中都是一作。N4J品论天涯网

他毕业于美国科罗拉多大学博尔德分校,曾在苹果、微软、GlaSSDoor等公司工作过,现在是DeepMind的一名高级研究工程师。N4J品论天涯网


N4J品论天涯网

www.pltyw.com,pltyw.com

本网除标明“PLTYW原创”的文章外,其它文章均为转载或者爬虫(PBot)抓取。 本文只代表作者个人观点,不代表本站观点,仅供大家学习参考;转载此文是出于传递更多信息之目的,若有来源标注错误或侵犯了您的合法权益,请作者持权属证明与本网站编辑联系,我们将及时更正、删除,谢谢。 本站邮箱[email protected]