人工智能

真·拿嘴做视频:Meta“AI导演”一句话搞定视频素材

字号+作者: 来源:量子位 2022-10-08 16:13 评论(创建话题) 收藏成功收藏本文

你以为这是哪部纪录片的画面?No,No,No!视频里的每一帧,都是AI生成的。还是你告诉它,来段“画笔在画布上的特写”,它就能直接整出画面的那种。不仅能无中生画笔'...

你以为这是哪部纪录片的画面?No,No,No!视频里的每一帧,都是AI生成的。还是你告诉它,来段“画笔在画布上的特写”,它就能直接整出画面的那种。不仅能无中生画笔,按着马头喝水也不是不可以。同样是一句“马儿喝水”,这只AI就抛出了这样的画面:WSx品论天涯网


WSx品论天涯网


WSx品论天涯网

好家伙,这是以后拍视频真能全靠一张嘴的节奏啊……WSx品论天涯网

不错,那厢一句话让AI画画的TexttoImage正搞得风生水起,这厢MetaAI的研究人员又双叒给生成AI来了个超进化。WSx品论天涯网

这回是真能“用嘴做视频”了:WSx品论天涯网

AI名为Make-A-Video,直接从DALL·E、StableDiffusion搞火的静态生成飞升动态。WSx品论天涯网

给它几个单词或几行文字,就能生成这个世界上其实并不存在的视频画面,掌握的风格还很多元。WSx品论天涯网

不仅纪录片风格能hold住,整点科幻效果也没啥问题。WSx品论天涯网


WSx品论天涯网

两种风格混合一下,机器人在时代广场蹦迪的画面好像也没啥违和感。WSx品论天涯网


WSx品论天涯网

文艺小清新的动画风格,看样子Make-A-Video也把握住了。WSx品论天涯网


WSx品论天涯网

这么一波操作下来,那真是把不少网友都看懵了,连评论都简化到了三个字母:WSx品论天涯网


WSx品论天涯网

而大佬LeCun则意味深长地表示:该来的总是会来的。WSx品论天涯网


WSx品论天涯网

毕竟一句话生成视频这事儿,之前就有不少业内人士觉得“快了快了”。只不过Meta这一手,确实有点神速:WSx品论天涯网

比我想象中快了9个月。WSx品论天涯网


WSx品论天涯网

甚至还有人表示:我已经有点适应不了AI的进化速度了……WSx品论天涯网


WSx品论天涯网

文本图像生成模型超进化版WSx品论天涯网

你可能会觉得Make-A-Video是个视频版的DALL·E。WSx品论天涯网

实际上,差不多就是这么回事儿WSx品论天涯网

前面提到,Make-A-Video是文本图像生成(T2I)模型的超进化,那是因为这个AI工作的第一步,其实还是依靠文本生成图像。WSx品论天涯网

从数据的角度来说,就是DALL·E等静态图像生成模型的训练数据,是成对的文本-图像数据。WSx品论天涯网

而Make-A-Video虽然最终生成的是视频,但并没有专WSx品论天涯网

门用成对的文本-视频数据训练,而是依然靠文本-图像对数据,来让AI学会根据文字复现画面。WSx品论天涯网

视频数据当然也有涉及,但主要是使用单独的视频片段来教给AI真实世界的运动方式。WSx品论天涯网


WSx品论天涯网

具体到模型架构上,Make-A-Video主要由三部分组成:WSx品论天涯网

文本图像生成模型PWSx品论天涯网

时空卷积层和注意力层WSx品论天涯网

用于提高帧率的帧插值网络和两个用来提升画质的超分网络WSx品论天涯网

整个模型的工作过程是酱婶的:WSx品论天涯网

首先,根据输入文本生成图像嵌入。WSx品论天涯网

然后,解码器Dt生成16帧64×64的RGB图像。WSx品论天涯网

插值网络↑F会对初步结果进行插值,以达到理想帧率。WSx品论天涯网

接着,第一重超分网络会将画面的分辨率提高到256×256。第二重超分网络则继续优化,将画质进一步提升至768×768。WSx品论天涯网

基于这样的原理,Make-A-Video不仅能根据文字生成视频,还具备了以下几种能力。WSx品论天涯网

将静态图像转成视频:WSx品论天涯网


WSx品论天涯网

根据前后两张图片生成一段视频:WSx品论天涯网


WSx品论天涯网

根据原视频生成新视频:WSx品论天涯网


WSx品论天涯网

刷新文本视频生成模型SOTAWSx品论天涯网

其实,Meta的Make-A-Video并不是文本生成视频(T2V)的首次尝试。WSx品论天涯网

比如,清华大学和智源在今年早些时候就推出了他们自研的“一句话生成视频”AI:CogVideo,而且这是目前唯一一个开源的T2V模型。WSx品论天涯网

更早之前,GODIVA和微软的“女娲”也都实现过根据文字描述生成视频。WSx品论天涯网

不过这一次,Make-A-Video在生成质量上有明显的提升。WSx品论天涯网

在MSR-VTT数据集上的实验结果显示,在FID(13.17)和CLIPSIM(0.3049)两项指标上,Make-A-Video都大幅刷新了SOTA。WSx品论天涯网


WSx品论天涯网

此外,MetaAI的团队还使用了Imagen的DrawBench,进行人为主观评估。WSx品论天涯网

他们邀请测试者亲身体验Make-A-Video,主观评估视频与文本之间的逻辑对应关系。WSx品论天涯网

结果显示,Make-A-Video在质量和忠实度上都优于其他两种方法。WSx品论天涯网


WSx品论天涯网

OneMoreThingWSx品论天涯网

有意思的是,Meta发布新AI的同时,似乎也拉开了T2V模型竞速的序幕。WSx品论天涯网

StableDiffusion的母公司StabilityAI就坐不住了,创始人兼CEOEmad放话道:WSx品论天涯网

我们将发布一个比Make-A-Video更好的模型,大家都能用的那种!WSx品论天涯网


WSx品论天涯网

而就在前几天,ICLR网站上也出现了一篇相关论文Phenaki。WSx品论天涯网

生成效果是这样的:WSx品论天涯网


WSx品论天涯网

对了,虽然Make-A-Video尚未公开,但MetaAI官方也表示,准备推出一个Demo让大家可以实际上手体验,感兴趣的小伙伴可以蹲一波了。WSx品论天涯网

本网除标明“PLTYW原创”的文章外,其它文章均为转载或者爬虫(PBot)抓取; 本文只代表作者个人观点,不代表本站观点,仅供大家学习参考。本网站属非谋利性质,旨在传播马克思主义和共产主义历史文献和参考资料。凡刊登的著作文献侵犯了作者、译者或版权持有人权益的,可来信联系本站删除。 本站邮箱[email protected]