人工智能

上海AI实验室、Meta联合开发开源模型 可为人体生成3D空间音频

字号+作者: 来源:站长之家 2023-11-29 08:59 评论(创建话题) 收藏成功收藏本文

要点:上海AI实验室和Meta联合开发的开源模型能够为人体生成3D空间音频,实现身临其境的3D音场效果。该模型利用头戴式麦克风的音频信号和人体姿态作为输'...

要点:h7F品论天涯网

上海AI实验室和Meta联合开发的开源模型能够为人体生成3D空间音频,实现身临其境的3D音场效果。h7F品论天涯网

该模型利用头戴式麦克风的音频信号和人体姿态作为输入,通过多模态融合模式解决音源位置未知、麦克风距离音源较远等技术难题。h7F品论天涯网

尽管取得了在3D空间音频生成方面的技术突破,但目前仅适用于渲染人体音,难以处理非自由音场传播环境,计算量较大难以部署到资源受限的设备上。h7F品论天涯网

站长之家(ChinaZ.com)11月29日 消息:近期上海AI实验室与Meta合作推出的开源模型标志着在3D空间音频领域迈出的一大步。该模型通过处理头戴式麦克风的输入音频信号和分析人体姿态关键点,成功地实现了为人体生成3D空间音频的目标。这一技术突破为虚拟环境的沉浸感和临场感提供了关键支持,弥补了目前学术界和企业在听觉方面的疏漏。h7F品论天涯网

image.pngh7F品论天涯网

然而,从技术层面看,开发这样的3D空间音频模型并非易事。文章指出,面临着三大技术难题,其中包括音源位置未知、麦克风距离音源较远等挑战。为了解决这些问题,研究人员创新性地构建了多模态融合模式,并引入了身体姿态信息,从而成功消除了声源位置的歧义,实现了正确的空间音频生成。h7F品论天涯网

具体而言,模型包括音频编码器、人体姿态编码器和音频解码器等模块。音频编码器处理头戴式麦克风的输入音频信号,通过时间平移对齐不同身体部位的音源位置,最终得到包含各个可能音源位置信息的音频特征表达。人体姿态编码器则分析人体姿态关键点,生成姿态特征表达,为正确生成三维空间音频提供了重要的提示。h7F品论天涯网

image.pngh7F品论天涯网

项目地址:https://github.com/facebookresearch/SoundingBodiesh7F品论天涯网

尽管该模型在技术上取得了显著进展,成功实现了身临其境的3D音场效果,但研究人员也指出了其局限性。目前,该模型仅适用于渲染人体音,难以处理非自由音场传播环境,且计算量较大,难以在资源受限的消费类设备上部署。这一点对于模型的实际应用和推广提出了一定挑战。h7F品论天涯网

综合而言,上海AI实验室和Meta联合开发的这一开源模型为人体生成3D空间音频开辟了新的可能性,为虚拟现实领域的发展贡献了有力的技术支持。然而,未来仍需进一步优化和拓展,以满足更广泛的应用场景和设备要求。h7F品论天涯网

本网除标明“PLTYW原创”的文章外,其它文章均为转载或者爬虫(PBot)抓取; 本文只代表作者个人观点,不代表本站观点,仅供大家学习参考。本网站属非谋利性质,旨在传播马克思主义和共产主义历史文献和参考资料。凡刊登的著作文献侵犯了作者、译者或版权持有人权益的,可来信联系本站删除。 本站邮箱[email protected]