站长之家(ChinaZ.com)3月14日 消息:Figure最新展示了他们与OpenAI合作的成果,这一合作让他们的机器人获得了惊人的能力。机器人可以进行语音对话、描述周围环境、做出决策推理、执行高层次请求,并口头解释推理过程。这些功能使得机器人能够执行类似人类的快速、灵巧动作,表明这一合作取得了显著进展。
Figure的机器人具有以下主要功能和能力:
描述周围环境、使用常识推理做出决策、将高层次请求转化为适当的行为,以及用简单英语描述执行特定动作的原因。这些能力都是机器人通过学习得来的,而不是遥控操作,并且以正常速度运行。
技术方面,机器人通过将摄像头获取的图像和麦克风捕获的转录文本输入到一个大型的多模态模型中,实现了视觉和语言理解。该模型由OpenAI训练,负责决定运行哪种学习到的闭环行为以满足给定的命令,并执行相应的策略。
这一成果展示了如何通过综合应用多模态理解能力和机器学习,实现与机器人的自然交互和智能行为规划。OpenAI提供了视觉推理和语言理解能力,而Figure的神经网络则实现了快速、低级别、灵巧的机器人动作。这一合作旨在推动机器人学习的边界,为人形机器人开发AI模型。
Figure的机器人使用搭载摄像头和OpenAI训练的大型视觉语言模型(VLM),实现了200Hz的24自由度动作。此外,Figure在工程方面进行了垂直整合,包括电机、固件、热管理和电子设备等。这些努力使得机器人的动作速度显著加快,接近人类速度,展示了合作的巨大潜力和成果。
【查看完整讨论话题】 | 【用户登录】 | 【用户注册】