人工智能

拳打Gen-2脚踢Pika,谷歌爆肝7个月祭出AI视频大模型,首提时空架构,时长史诗级延长

字号+作者: 来源:新智元公众号 2024-01-25 15:13 评论(创建话题) 收藏成功收藏本文

声明:本文来自微信公众号“新智元”(ID:AI_era),作者:新智元,授权站长之家转载发布。爆肝7个月,谷歌祭出了AI视频大模型Lumiere,直接改变了游戏规则!全新架构'...

声明:本文来自微信公众号“新智元”(ID:AI_era),作者:新智元,授权站长之家转载发布。rJ0品论天涯网

爆肝7个月,谷歌祭出了AI视频大模型Lumiere,直接改变了游戏规则!全新架构让视频时长和一致性全面飞升,时长直接碾压Gen-2和Pika。rJ0品论天涯网

AI视频赛道上,谷歌又再次放出王炸级更新!rJ0品论天涯网

这个名为Google Lumiere的模型,是个大规模视频扩散模型,彻底改变了AI视频的游戏规则。rJ0品论天涯网

跟其他模型不同,Lumiere凭借最先进的时空U-Net架构,在一次一致的通道中生成整个视频。rJ0品论天涯网

具体来说,现有AI生成视频的模型,大多是在生成的简短视频的基础上并对其进行时间采样而完成任务。rJ0品论天涯网

而谷歌推出的新模型Google Lumiere是通过是联合空间和「时间」下采样(downsampling)来实现生成,这样能显著增加生成视频的长度和生成的质量。rJ0品论天涯网

图片rJ0品论天涯网

论文地址:https://arxiv.org/abs/2401.12945rJ0品论天涯网

值得一提的是,这是谷歌团队历时7个月做出的最新成果。rJ0品论天涯网

图片rJ0品论天涯网

对于这惊人的「谷歌速度」,网友们纷纷表示惊叹——rJ0品论天涯网

谷歌从来不睡觉啊?rJ0品论天涯网

图片rJ0品论天涯网

开发者回答:不睡rJ0品论天涯网

居然做出了走路、跳舞这样的人体力学视频,我的天,我以为这需要6到12个月才能做出来,AI真的是在以闪电般的速度发展。(我的工作流中需要这个模型)rJ0品论天涯网

图片rJ0品论天涯网

全新STUNet架构:时间更长更连贯rJ0品论天涯网

为了解决AI视频长度不足,运动连贯性和一致性很低,伪影重重等一系列问题,研究人员提出了一个名为Space-Time U-Net(STUNet)的架构。rJ0品论天涯网

图片rJ0品论天涯网

传统视频模型生成的视频往往会出现奇怪的动作和伪影rJ0品论天涯网

能够学习将视频信号在空间和时间上同时进行下采样和上采样,并在网络的压缩空间时间表征上执行主要计算。rJ0品论天涯网

图片rJ0品论天涯网

相比之前的文本到视频模型采用级联设计的方式,先由基模型生成关键帧,然后使用一系列时序超分辨率模型在非重叠段内进行插值帧的生成。rJ0品论天涯网

STUNet可以学习直接生成全帧率的低分辨率视频。这种设计避免了时序级联结构在生成全局连贯运动时固有的限制。rJ0品论天涯网

图片rJ0品论天涯网

STUNet架构可以直接生成5秒长的80帧视频,时间长度超过大多数媒体中的平均镜头长度,这可以产生比之前模型更连贯一致的运动。rJ0品论天涯网

图片rJ0品论天涯网

图片rJ0品论天涯网

图片rJ0品论天涯网

功能丰富,效果拔群rJ0品论天涯网

视频编辑/修复rJ0品论天涯网

这项功能可以让我们编辑视频,或者在视频中插入对象。rJ0品论天涯网

比如这个穿绿底白花裙的女孩,只要选中衣服区域,输入文字修改要求,就能瞬间把她的裙子改成红白条纹裙、金色抹胸裙。rJ0品论天涯网

图片rJ0品论天涯网

正在跑步的女孩,只要用文字编辑,就可以让她长满鲜花,或者变成木砖风、折纸风、乐高风。rJ0品论天涯网

图片rJ0品论天涯网

也可以专门针对视频中某一部分的内容进行修改和编辑。rJ0品论天涯网

图片rJ0品论天涯网

图生视频rJ0品论天涯网

Lumiere另外一个非常好用的功能,就是将静止图像转换为动态视频。rJ0品论天涯网

输入文字提示,就能让戴珍珠耳环的少女从名画中走出,张嘴笑了起来。rJ0品论天涯网

图片rJ0品论天涯网

梵高画的《星空》,夜空中的星星和云层真的开始流动了起来。rJ0品论天涯网

图片rJ0品论天涯网

风格化生成rJ0品论天涯网

Lumiere能生成各种指定艺术风格的视频。rJ0品论天涯网

只要给出一个指定的风格,再通过文字提示,就能按照类似风格生成非常多的视频。rJ0品论天涯网

图片rJ0品论天涯网

可以看到,对比参考静图的风格来看,生成视频的风格复现得非常精准。rJ0品论天涯网

图片rJ0品论天涯网

动作笔刷rJ0品论天涯网

通过这个名为Cinemagraphs(又名 Motion Brush)的风格,我们可以选中静图中的特定部分,让它动起来。rJ0品论天涯网

选中图中的这团火焰,它就开始熊熊燃烧起来。rJ0品论天涯网

图片rJ0品论天涯网

选中图中的烟,火车就开始冒出汩汩浓烟来。rJ0品论天涯网

图片rJ0品论天涯网

文生视频rJ0品论天涯网

当然,Lumiere也可以直接从文本生成详细的视频。rJ0品论天涯网

无论是一个在火星基地周围漫步的宇航员。rJ0品论天涯网

图片rJ0品论天涯网

还是一只戴着太阳镜开着车的狗。rJ0品论天涯网

图片rJ0品论天涯网

或者飞过一座废弃的庙宇,在遗迹中穿行。rJ0品论天涯网

图片rJ0品论天涯网

还可以针对视频中缺失的部分进行补充。rJ0品论天涯网

图片rJ0品论天涯网

STUNet架构带来的全新突破rJ0品论天涯网

这次,谷歌的研究者采用了跟以往不同的方法,引入了新的T2V扩散框架,该框架可以立即生成视频的完整持续时间。rJ0品论天涯网

为了实现这一目标,他们使用了STUNet架构,这个架构可以学习在空间和时间上对信号进行下采样,并且以压缩的时空表征形式,执行大部分计算。rJ0品论天涯网

图片rJ0品论天涯网

Lumiere生成的示例结果,包括文本到视频生成(第一行)、图像到视频(第二行)、风格引用生成和视频修复(第三行边界框表示修复掩码区域)rJ0品论天涯网

采用这种方法,就能够以16fps(或5秒)生成80帧,这比大多数使用单一基础模型的媒体要好。rJ0品论天涯网

跟之前的工作相比,产生了更多的全局连贯运动。rJ0品论天涯网

令人惊讶的是,这种设计选择被以前的T2V模型忽视了,这些模型遵循惯例,在架构中仅包含空间下采样和上采样操作,并在整个网络中保持固定的时间分辨率。rJ0品论天涯网

图片rJ0品论天涯网

使用Lumiere和ImagenVideo进行周期性运动生成视频的代表性示例。研究者应用 Lumiere图像到视频生成,以ImagenVideo生成的视频的第一帧为条件,可视化相应的X-T切片。由于其级联设计和时间超分辨率模块,Imagenvideo难以生成全局连贯的重复运动,而这些模块无法跨时间窗口,一致地解决混叠模糊问题rJ0品论天涯网

研究人员的框架由基本模型和空间超分辨率(SSR)模型组成。rJ0品论天涯网

图片rJ0品论天涯网

如上图3b所示,研究人员的基础模型以粗略的空间分辨率生成完整的剪辑。rJ0品论天涯网

他们的基础模型的输出使用时间感知的SSR模型进行空间上采样,从而产生高分辨率视频。rJ0品论天涯网

图片rJ0品论天涯网

研究人员的架构如上图所示。rJ0品论天涯网

他们在T2I架构中交织时间块,并在每个预训练的空间调整大小模块之后插入时间下采样和上采样模块(图4a)。时间块包括时间卷积(图4b)和时间注意力(图4c)。rJ0品论天涯网

具体来说,在除了最粗糙的级别之外的所有级别中,他们插入因式分解的时空卷积(图4b),与全3D卷积相比,它允许增加网络中的非线性,同时降低计算成本,并与一维卷积。rJ0品论天涯网

由于时间注意力的计算要求与帧数呈二次方关系,因此他们仅在最粗分辨率下合并时间注意力,其中包含视频的时空压缩表示。rJ0品论天涯网

在低维特征图上进行操作允许他们以有限的计算开销堆叠多个时间注意力块。rJ0品论天涯网

研究人员训练新添加的参数,并保持预训练T2I的权重固定。值得注意的是,常见的膨胀方法确保在初始化时,T2V模型相当于预训练的T2I模型,即生成视频作为独立图像样本的集合。rJ0品论天涯网

然而,在研究人员的例子中,由于时间下采样和上采样模块,不可能满足这个属性。rJ0品论天涯网

他们凭经验发现,初始化这些模块以使它们执行最近邻下采样和上采样操作会产生一个良好的起点(就损失函数而言)。rJ0品论天涯网

应用展示rJ0品论天涯网

以下是文生视频和图像生视频的示例。rJ0品论天涯网

从图像到视频的示例中,最左边的帧是作为条件提供给模型的。rJ0品论天涯网

图片rJ0品论天涯网

图片rJ0品论天涯网

图片rJ0品论天涯网

图片rJ0品论天涯网

以下是风格化生成的示例。rJ0品论天涯网

给定起始风格图像及其相应的一组微调文本到图像权重,就可以在模型空间层的微调权重和预训练权重之间执行线性插值。rJ0品论天涯网

研究者展示了(A)矢量艺术风格和(B)写实风格的结果。rJ0品论天涯网

这证明了,Lumiere能够为每种空间风格创造性地匹配不同的运动(帧从左到右显示)。rJ0品论天涯网

图片rJ0品论天涯网

图片rJ0品论天涯网

图片rJ0品论天涯网

图片rJ0品论天涯网

以下是使用Lumiere进行视频修复的示例。rJ0品论天涯网

对于每个输入视频(每个帧的左上角),研究者都使用了Lumiere对视频的掩码区域进行了动画处理。rJ0品论天涯网

图片rJ0品论天涯网

图片rJ0品论天涯网

以下为动态图像的示例。rJ0品论天涯网

仅给定输入图像和掩码(左),研究者的方法会生成一个视频,其中标记区域是动态的,其余部分保持静态(右)。rJ0品论天涯网

图片rJ0品论天涯网

以下是通过SDEdit进行视频生视频的示例。rJ0品论天涯网

Lumiere基本模型可以生成全帧率视频,无需TSR级联,从而为下游应用程序提供更直观的界面。rJ0品论天涯网

研究者通过使用SDEdit来演示此属性,从而实现一致的视频风格化。rJ0品论天涯网

在第一行显示给定输入视频的几个帧,下面几行显示相应的编辑帧。rJ0品论天涯网

图片rJ0品论天涯网

图片rJ0品论天涯网

与Gen-2和Pika等模型的对比和评估rJ0品论天涯网

定性评估

研究人员在下图中展示了他们的模型和基线之间的定性比较。rJ0品论天涯网

图片rJ0品论天涯网

研究人员观察到Gen-2和Pika表现出较高的每帧视觉质量,然而,它们的输出的特点是运动量非常有限,通常会产生接近静态的视频。rJ0品论天涯网

ImagenVideo产生合理的运动量,但整体视觉质量较低。AnimateDiff和ZeroScope表现出明显的运动,但也容易出现视觉伪影。rJ0品论天涯网

此外,它们生成的视频持续时间较短,分别为2秒和3.6秒。rJ0品论天涯网

相比之下,研究人员的方法生成的5秒视频具有更高的运动幅度,同时保持时间一致性和整体质量。rJ0品论天涯网

定量评估

研究人员在UCF101上定量评估了他们的零样本文本到视频生成方法。rJ0品论天涯网

图片rJ0品论天涯网

上表1展示了他们的方法和之前工作的区别(FVD)和初始分数(IS)。rJ0品论天涯网

研究人员的系统取得了具有竞争力的FVD和IS分数。然而,正如之前的工作中所讨论的,这些指标并不能准确地反映人类的感知,并且可能会受到低级细节以及参考UCF101数据和T2V训练数据之间的分布变化。rJ0品论天涯网

此外,该协议仅使用生成视频中的16帧,因此无法捕获长期运动。rJ0品论天涯网

用户研究rJ0品论天涯网

研究人员采用了之前的工作中使用的两种选择强制选择(2AFC)协议。rJ0品论天涯网

在该协议中,向参与者展示了一对随机选择的视频:一个由研究人员的模型生成,另一个由一种基线方法生成。然后,参与者被要求选择他们认为在视觉质量和动作方面更好的视频。rJ0品论天涯网

此外,他们还被要求选择与目标文本提示更准确匹配的视频。研究人员利用 Amazon Mechanical Turk(AMT)平台收集了约400个用户对每个基线和问题的判断。rJ0品论天涯网

图片rJ0品论天涯网

如上图所示,研究人员的方法比所有基线都更受用户青睐,并且与文本提示联系更加紧密。rJ0品论天涯网

请注意,ZeroScope和AnimateDiff分别仅生成3.6秒和2秒的视频,因此在与它们进行比较时,研究人员会修剪视频以匹配其持续时间。rJ0品论天涯网

研究人员进一步进行了一项用户研究,将他们的图像到视频模型与Pika、Stable Video Diffusion(SVD)和Gen-2进行比较。rJ0品论天涯网

请注意,SVD图像到视频模型不以文本为条件,因此研究人员将调查重点放在视频质量上。如上图所示,与基线相比,研究人员的方法更受用户青睐。rJ0品论天涯网

参考资料:rJ0品论天涯网

https://arxiv.org/abs/2401.12945rJ0品论天涯网

本网除标明“PLTYW原创”的文章外,其它文章均为转载或者爬虫(PBot)抓取; 本文只代表作者个人观点,不代表本站观点,仅供大家学习参考。本网站属非谋利性质,旨在传播马克思主义和共产主义历史文献和参考资料。凡刊登的著作文献侵犯了作者、译者或版权持有人权益的,可来信联系本站删除。 本站邮箱[email protected]