人工智能

阿里团队推新AI模型I2VGen-XL:单张静止图像就能生成高质量视频

字号+作者: 来源:站长之家 2023-12-25 10:12 评论(创建话题) 收藏成功收藏本文

站长之家(ChinaZ.com)12月25日 消息:视频合成最近取得了显著的进步,这得益于扩散模型的快速发展。然而,它在语义准确性、清晰度和时空连续性方面仍然存在挑'...

站长之家(ChinaZ.com)12月25日 消息:视频合成最近取得了显著的进步,这得益于扩散模型的快速发展。然而,它在语义准确性、清晰度和时空连续性方面仍然存在挑战。它们主要源于文本-视频数据的稀缺性和视频的复杂固有结构,使得模型难以同时确保语义和定性的卓越性。EF8品论天涯网

阿里巴巴、浙江大学和华中科技大学的研究人员提出了一种级联的 I2VGen-XL 方法,该方法通过解耦这两个因素来增强模型性能,并通过利用静态图像作为关键指导形式来确保输入数据的对齐。EF8品论天涯网

image.pngEF8品论天涯网

项目体验网址:https://top.aibase.com/tool/i2vgen-xlEF8品论天涯网

I2VGen-XL 由两个阶段组成:EF8品论天涯网

i) 基础阶段通过使用两个分层编码器来保证连贯的语义并保留输入图像中的内容。EF8品论天涯网

ii) 细化阶段通过合并额外的简短文本来增强视频的细节,并将分辨率提高到1280x720。EF8品论天涯网

image.pngEF8品论天涯网

目前文本到视频合成的主要挑战之一是高质量视频文本对的收集。为了丰富 I2VGen-XL 的多样性和鲁棒性,研究人员收集了一个庞大的数据集,其中收集了大约3500万个单镜头文本-视频对和60亿个文本-图像对来优化模型。通过这种方式,I2VGen-XL可以同时提高语义的准确性、细节的连续性和生成视频的清晰度。EF8品论天涯网

所提出的模型利用潜在扩散模型(LDM),这是一种生成模型类,可以学习扩散过程来生成目标概率分布。在视频合成的情况下,LDM逐渐从高斯噪声中恢复潜在目标,保留视觉流形并重建高保真视频。I2VGen-XL采用LDM(简称VLDM)的3D UNet架构,以实现有效且高效的视频合成。EF8品论天涯网

细化阶段对于增强空间细节、细化面部和身体特征以及减少局部细节中的噪声至关重要。研究人员分析了频域细化模型的工作机制,强调了其在保留低频数据和提高高清视频连续性方面的有效性。EF8品论天涯网

在与 Gen-2和 Pika 等顶级方法的实验比较中,I2VGen-XL 展示了更丰富、更多样化的运动,强调了其在视频生成方面的有效性。研究人员还对人脸、3D卡通、动漫、中国画、小动物等多种图像进行了定性分析,展示了该模型的泛化能力。EF8品论天涯网

项目:https://i2vgen-xl.github.io/EF8品论天涯网

论文网址:https://arxiv.org/abs/2311.04145EF8品论天涯网

本网除标明“PLTYW原创”的文章外,其它文章均为转载或者爬虫(PBot)抓取; 本文只代表作者个人观点,不代表本站观点,仅供大家学习参考。本网站属非谋利性质,旨在传播马克思主义和共产主义历史文献和参考资料。凡刊登的著作文献侵犯了作者、译者或版权持有人权益的,可来信联系本站删除。 本站邮箱[email protected]