本周四,一大批大学和私营企业的研究人员发布了Genesis,这是一个新的开源计算机模拟系统,可让机器人在模拟现实中练习任务,速度比现实世界快43万倍。研究人员还可以使用人工智能代理根据文本提示生成三维物理模拟。
加速模拟意味着,只需几个小时的真实计算机时间,用于驾驶机器人的神经网络就能在虚拟世界中学习拾取物体、行走或操作工具,相当于几十年的时间。
"一个小时的计算时间可以让机器人获得10年的训练经验。这就是尼欧如何在《黑客帝国》的道场中眨眼间学会武术的。"《创世纪》论文的合著者吉姆-范(JimFan)在《X》上写道,他说自己在这项研究中只是"小角色"。范曾为NVIDIA参与过多个机器人仿真项目。
机器人研究人员正在寻找更好的工具来测试和训练机器人,然后再将其部署到现实世界中。快速、准确的模拟可以帮助机器人更快地学习复杂的任务,同时减少对昂贵的物理测试的需求。
由卡内基梅隆大学周贤领导的小组开发的Genesis平台处理物理计算的速度比现有的机器人模拟器(如NVIDIA的IsaacGym)快80倍。它使用类似于视频游戏的显卡,可同时运行多达10万份模拟。这对于训练控制未来真实世界机器人的神经网络非常重要。
"如果一个人工智能可以在10亿个不同的模拟中控制1000个机器人完成100万种技能,那么它在我们的现实世界中就可能'恰好奏效',而现实世界只不过是广阔的可能现实空间中的另一个点,"范在他的X帖子中写道。"这就是为什么模拟在机器人技术中如此有效的基本原理"。
生成动态世界
该团队还宣布了生成所谓"4D动态世界"的能力--之所以使用"4D",可能是因为它们可以模拟随时间运动的三维世界。该系统使用视觉语言模型(VLM),通过文本描述(类似于其他人工智能模型中的"提示")生成完整的虚拟环境,并利用Genesis自己的模拟基础API来创建世界。
据报道,人工智能生成的世界包括逼真的物理、摄像机运动和物体行为,所有这些都来自文本命令。然后,该系统会生成物理上精确的光线跟踪视频和数据,供机器人用于训练。
这种基于提示的系统可让研究人员通过键入自然语言命令来创建复杂的机器人测试环境,而无需手工编程。传统上,模拟器需要美工人员大量的手工劳动:三维资产、纹理、场景布局等。但工作流程中的每个组件都可以实现自动化。
利用其引擎,Genesis还可以生成角色动作、交互式三维场景、面部动画等,这不仅可以为创意项目创建艺术资产,还可能在未来开发出更逼真的人工智能生成游戏和视频,在数据中构建一个模拟世界,而不是像视频合成扩散模型那样根据像素的统计外观进行操作。
虽然生成系统还不是GitHub上代码的一部分,但该团队计划在未来发布它。Genesis仍在GitHub上积极开发,团队接受社区贡献。
该平台在用户界面和核心物理引擎上都使用了Python,从而在其他用于机器人训练的3D世界模拟器中脱颖而出。其他引擎使用C++或CUDA进行底层计算,并用PythonAPI进行封装。Genesis采用的是Python优先的方法。
值得注意的是,Genesis平台的非专有性使得任何研究人员都可以通过简单的Python命令免费获得高速机器人训练模拟,这些命令可以在使用现成硬件的普通计算机上运行。
以前,运行机器人仿真需要复杂的编程和专用硬件,范在他发布Genesis的文章中说,但现在不应该这样了。他写道:"机器人技术应该是全人类共同拥有的一项登月计划。"
【查看完整讨论话题】 | 【用户登录】 | 【用户注册】