UCLA提出多模态具身智能大模型MultiPLY AI首次拥有类人感官-品论天涯网

要点:RE1品论天涯网
UCLA等机构的研究人员最近推出了具身智能大模型MultiPLY，该模型具备多模态感知能力，包括触觉、视觉、听觉等，使得AI能够更全面地与3D环境进行交互。RE1品论天涯网
通过与3D环境的交互，MultiPLY在对象检索、工具使用、多感官标注和任务分解等具体任务实验中，表现出比当前技术水平更高的性能。RE1品论天涯网
为了训练MultiPLY，研究人员创建了一个大规模多感官数据集Multisensory-Universe，包含50万条由AI智能体在3D虚拟环境中交互时收集的数据，涵盖了多种任务类型。RE1品论天涯网

站长之家（ChinaZ.com）1月22日消息:近日，UCLA等机构的研究人员推出了具身智能大模型MultiPLY，该模型不仅具备多模态感知能力，包括触觉、视觉、听觉等，使得AI能够更全面地与3D环境进行交互。这标志着具备多感官能力的大模型成为未来AI发展的重要方向。RE1品论天涯网

RE1品论天涯网

MultiPLY在多任务实验中表现出色，包括对象检索、工具使用、多感官标注和任务分解等，刷新了当前技术水平。为了训练这一新模型，研究人员创建了Multisensory-Universe数据集，包含50万条多感官数据，涵盖了多种任务类型。尽管面临挑战，如当前缺少训练多感官交互的数据和正确表示3D场景的多感官信息，但MultiPLY的出现为实现AGI提供了新的方向。RE1品论天涯网

RE1品论天涯网

在模型训练阶段，研究人员引入了新物体，并通过触觉、环境声音、撞击声音、温度等多种传感器数据获取方式，让模型学会感知物体的多模态信息。RE1品论天涯网

为此，研究人员提出了多感官全景生成管线，通过不同传感器收集触觉、声音、温度等信息。整个训练过程中，MultiPLY通过智能体与3D环境交互，生成多感官观测值，并在推理过程中不断生成动作token，展现出强大的多模态能力。这一研究的出现，为构建更全面、具备多感官能力的大模型提供了新思路。RE1品论天涯网