卡内基梅隆大学完成机器狗跑酷挑战-品论天涯网

跑酷是一项极限运动，需要参与者以高度动态的方式跨越障碍，对于大多数时候“笨手笨脚”的机器人来说，这似乎是件遥不可及的事，不过最近在机器人控制领域里出现了一些技术突破的趋势。几周前，机器之心曾报道过一个使用强化学习方法让机器狗实现跑酷的研究，实现了不错的效果。4wO品论天涯网

最近，卡内基梅隆大学（CMU）的一项新研究也针对机器狗跑酷的挑战提出了新方法，效果又上了一个台阶，以至于人们的评价一致是：amazing.4wO品论天涯网

4wO品论天涯网

观众：“是《黑镜》里面演的样子”。4wO品论天涯网

CMU的这项研究让机器狗可以像狗狗障碍赛里的选手一样，自动越过不连续的箱子，在不同角度倾斜的坡面之间轻松地跑跳：4wO品论天涯网

4wO品论天涯网

而且通过这些障碍的速度也很快。4wO品论天涯网

轻松跳过0.8米（机器狗长度的2倍）的间距：4wO品论天涯网

4wO品论天涯网

爬上0.51米高（机器狗高度的2倍）的障碍物：4wO品论天涯网

4wO品论天涯网

这回没有一把站稳，它还用后腿进行了补救，动作像真的狗一样。4wO品论天涯网

机器狗还可以做一些真实世界里动物难以完成的事，比如仅用两条前腿行走，相当于倒立行走：4wO品论天涯网

4wO品论天涯网

还能仅用两条前腿下楼梯：4wO品论天涯网

4wO品论天涯网

像在游戏里面卡了bug，有点滑稽，又带有一点点恐怖谷效应。4wO品论天涯网

该研究旨在让小型低成本机器狗能够完成跑酷任务。这类机器狗的驱动不精确，且仅有用于感知的单个前置深度摄像头，频率低、容易出现抖动和伪影。4wO品论天涯网

基于此，该研究提出一种直接从原始深度和机载传感到关节角度命令的神经网络，并通过大规模强化学习进行模拟训练，以克服不精确的传感和驱动带来的问题，端到端地输出高度精确的控制行为。研究项目已开源。4wO品论天涯网

4wO品论天涯网

论文地址：https://extreme-parkour.github.io/resources/parkour.pdf4wO品论天涯网

项目地址：https://github.com/chengxuxin/extreme-parkour4wO品论天涯网

方法简介4wO品论天涯网

该研究通过端到端数据驱动的强化学习框架使机器狗具备“跑酷”的能力。为了让机器狗在部署时根据障碍物类型进行自我调整，该研究提出了一种新颖的双重蒸馏（dualdistillation）方法。该策略不仅能输出灵活的运动命令，还可以根据输入深度图像快速调整方向。4wO品论天涯网

4wO品论天涯网

为了让单个神经网络能够表征不同的跑酷技能行为，该研究提出了一种基于内积的简单而有效的通用奖励设计原则。4wO品论天涯网

具体来说，该研究旨在训练一个直接从原始深度和机载传感到关节角度命令的神经网络。为了训练适应性运动策略，该研究采用了正则化在线适应（ROA）方法，并针对极限跑酷任务进行了关键修改。4wO品论天涯网

实验结果4wO品论天涯网

该研究主要让机器狗掌握4种技能，包括攀爬、跳过间距、在斜坡上跑跳、倒立，与其他几种方法的比较结果如下表1所示：4wO品论天涯网

4wO品论天涯网

为了验证系统中各部分的作用，该研究提出了两组基线。该研究首先测试了奖励设计和整体pipeline，结果如下表2所示：4wO品论天涯网

4wO品论天涯网

第二组基线旨在测试蒸馏设置，其中涉及用于方向预测的BC和用于动作的dagger，实验结果如下表3所示：4wO品论天涯网

4wO品论天涯网

此外，该研究还进行了很多现实实验（记录成功率），并与NoClear和NoDir基线进行比较，实验结果如下图7所示：4wO品论天涯网

4wO品论天涯网