Meta版Sora深夜横空出世：小扎放出16秒高清大片 92页论文曝光技术细节-品论天涯网

Meta版Sora，就在刚刚惊艳来袭。MovieGen可生成1080p、16秒、每秒16帧的高清长视频，还能生成音效、编辑视频、上传图像生成个性化视频。甚至Meta还放出了92页论文，模型架构、训练细节一并公开，干货满满！NdY品论天涯网

毫无预兆地，Meta版Sora——MovieGen，就在刚刚抢先上线了！NdY品论天涯网

Meta将其称为「迄今最先进的媒体基础模型」。NdY品论天涯网

NdY品论天涯网

全新上线的大杀器MovieGenVideo，是一个30B参数的Transformer模型，可以从单个文本提示，生成高质量的高清图像和视频，视频为1080P、16秒、每秒16帧。NdY品论天涯网

NdY品论天涯网

一同推出的还有MovieGenAudio。这是一个13B参数的Transformer模型。通过视频输入和文本提示，它就可以可控性生成和视频同步的高保真音频，时长最长45秒。NdY品论天涯网

最惊人的是，这次Meta一并连论文都发布了。NdY品论天涯网

NdY品论天涯网

论文中，详细介绍了MovieGen的架构、训练方法和实验结果。NdY品论天涯网

NdY品论天涯网

论文地址：https://ai.meta.com/static-resource/movie-gen-research-paper/
NdY品论天涯网

从论文可以看出，MovieGenVideo沿用了Transformer的设计，尤其借鉴了Llama3。而研究人员引入的「流匹配」（FlowMatching），让视频在精度和细节表现上，都优于扩散模型。NdY品论天涯网

稍显遗憾的是，这次Meta发的也是「期货」，产品预计明年才正式向公众开放。NdY品论天涯网

不出意外的，围观群众给出亮眼点评：「Meta居然抢着OpenAI之前发布了Sora，呵呵」。NdY品论天涯网

NdY品论天涯网

就在昨天，Sora负责人TimBrooks选择离职，Meta这个时间点放出MovieGen，也真是够扎心的。NdY品论天涯网

而HuggingFace工程师也直接贴出Meta开源主页，在线催更模型开源。NdY品论天涯网

NdY品论天涯网

也有人期待，Meta版Sora的这次发布，或许或激出其他家的下一个王炸级产品。NdY品论天涯网

NdY品论天涯网

一键视频生成，赶超SoraNdY品论天涯网

凭借开源MovieGen，Meta正式进军AI视频领域。NdY品论天涯网

可以说，MovieGen在编辑、个性化功能方面，站在了一个新阶段。而且，最令人印象深刻的，便是把一张个人照，转换成个性化视频。NdY品论天涯网

NdY品论天涯网

小扎在社交平台上以身试法，将自己照片作为输入，MovieGen为其配上了健身的视频。NdY品论天涯网

NdY品论天涯网

文本生成视频NdY品论天涯网

现在，只要使用简单的文本输入，就能生成自定义的视频了。NdY品论天涯网

从官网放出的Demo可以看出，Meta所言不虚，MovieGen的确可以说「为沉浸式AI内容」树立了新标准。NdY品论天涯网

更为瞩目的是，MovieGen可以创建不同宽高比的高清长视频。在业内，这属于首次！NdY品论天涯网

这个「雷声大作，伴随着管弦乐曲」的视频，对于山石地貌和电闪雷鸣的刻画惊人的逼真，配乐更是恢弘激昂。NdY品论天涯网

NdY品论天涯网

一个小女孩拿着风筝跑过海滩，仿佛电影中的场景。NdY品论天涯网

NdY品论天涯网

戴着粉色太阳镜躺在甜甜圈游泳圈上的树懒，视频中光影和水波都很自然。NdY品论天涯网

NdY品论天涯网

在冒着热气的温泉中玩着小木船的白毛红脸猴，无论是热气、水面、猴子毛发还是水中怪石，都看不出破绽。NdY品论天涯网

NdY品论天涯网

在海边耍着火圈的男人，视频完全符合prompt的要求，镜头、光影和氛围的刻画，已经达到了大片级画质。NdY品论天涯网

NdY品论天涯网

各种超现实的场景，MovieGen都能完美生成，比如这只毛茸茸的冲浪考拉。NdY品论天涯网

NdY品论天涯网

文本编辑视频NdY品论天涯网

而只要使用文本输入，就可以编辑现有视频。NdY品论天涯网

MovieGen可以支持非常精确的视频编辑，无论是样式、过渡，还是精细编辑。NdY品论天涯网

通过文字输入，就能让小女孩向空中放飞的灯笼，变成一个气泡。NdY品论天涯网

NdY品论天涯网

在沙地上跑步的男子，手中可以加上蓝色绒球，周围环境可以换成仙人掌沙漠，甚至可以让男子换上一身恐龙套装。NdY品论天涯网

NdY品论天涯网

在观众席上观影的一对男女，可以让他们戴上3D眼镜、背景换成游乐园，甚至加上下雨的特效。NdY品论天涯网

NdY品论天涯网

南极冰原上的企鹅可以穿上维多利亚式的衣服，背景可以加上遮阳伞和沙滩床，甚至整幅画面都能变成铅笔素描画。NdY品论天涯网

NdY品论天涯网

个性化视频NdY品论天涯网

并且，MovieGen还有一个Sora没有的亮点——个性化视频！NdY品论天涯网

只要上传我们想要的图像，它就可以由此生成个性化视频，保留人物的身份和动作。NdY品论天涯网

输入这个女孩的照片，给出prompt，就能让她在南瓜地上戴着围巾喝咖啡。NdY品论天涯网

NdY品论天涯网

让这名男子化身科学家，穿上实验服开始做实验。NdY品论天涯网

NdY品论天涯网

一张照片，就能生成自己和爱犬在露台上的自拍视频。NdY品论天涯网

NdY品论天涯网

甚至让自己在西部世界小镇中化身骑马的女牛仔，身后就是落基山脉。一秒走进大片不是梦！NdY品论天涯网

NdY品论天涯网

音效和配乐NdY品论天涯网

MovieGen还可以将视频、文本作为输入，并为视频生成音频。NdY品论天涯网

它可让你创建和扩展视频音效、背景音乐或整个配乐。NdY品论天涯网

比如，下面企鹅戏水的画面中，配上了AI生成的优美的管弦乐曲。NdY品论天涯网

NdY品论天涯网

文本输入：AbeautifulorchestralpiecethatevokesasenseofwonderNdY品论天涯网

AI生成的烟花音效，也是如此地逼真。NdY品论天涯网

NdY品论天涯网

文本输入：Whistlingsounds,followedbyasharpexplosionandloudcrackling.NdY品论天涯网

倾泻而下的瀑布和和雨水，站在高处遥望远方顿感壮观。NdY品论天涯网

NdY品论天涯网

文本输入：Rainpoursagainstthecliffandtheperson,withmusicplayinginthebackground.NdY品论天涯网

一条蛇在草地里缓慢前进，给人一种危机四伏的赶脚。NdY品论天涯网

NdY品论天涯网

文本输入：Rustlingleavesandsnappingtwigs,withanorchestralmusictrack.NdY品论天涯网

AI生成的背景音，很有山地摩托摩托竞赛那味儿了。NdY品论天涯网

NdY品论天涯网

文本输入：ATVengineroarsandaccelerates,withguitarmusic.NdY品论天涯网

还有溜滑板，配着动作，给出不同节奏的音效。NdY品论天涯网

NdY品论天涯网

文本输入：Wheelsspinning,andaslammingsoundastheskateboardlandsonconcrete.NdY品论天涯网

92页技术报告，同用Llama3架构NdY品论天涯网

MovieGen发布同时，Meta还祭出了92页的技术报告。值得一提的是，这次团队也被命名为「MovieGenteam」。NdY品论天涯网

NdY品论天涯网

Pytorch之父SoumithChintala表示，其中很多细节将会推动AI视频领域的发展。NdY品论天涯网

接下来，一起看看MovieGen得以实现的技术要点吧。NdY品论天涯网

NdY品论天涯网

研究人员表示，MovieGen主要是基于两种基础模型打造的，一个是MovieGenVideo，另一个是MovieGenAudio。NdY品论天涯网

MovieGenVideoNdY品论天涯网

MovieGenVideo参数有300亿，基础架构细节如下图所示。NdY品论天涯网

NdY品论天涯网

它能够联合文本到图像和文本到视频的生成。NdY品论天涯网

NdY品论天涯网

MovieGenVideo可以遵循文本提示，生成长达16秒、16帧每秒高清视频。NdY品论天涯网

它也是通过预训练微调完成，在骨干网络架构上，它继续沿用了Transformer的设计，尤其是借鉴的Llama3的设计。NdY品论天涯网

NdY品论天涯网

而且，该模型有强大的适应性，可生成不同纵横比、分辨率和时长的高质量图像和视频。NdY品论天涯网

预训练阶段，在大约1亿个视频和10亿张图像上进行了联合预训练。NdY品论天涯网

它是通过「看」视频，来学习视觉世界。NdY品论天涯网

实验结果发现，MovieGenVideo模型能够理解物理世界——NdY品论天涯网

可以推理物体运动、主-客体交互、几何关系、相机运动、物理规律，以及各种概念的合理运动。NdY品论天涯网

在微调阶段，研究人员精选了一部分视频，对模型在美学、运动质量方面完成了微调。NdY品论天涯网

NdY品论天涯网

为了提高训练、推理效率，研究人员在时空压缩的潜在空间（LatentSpace）中进行生成。NdY品论天涯网

为此，他们训练了一个单一的时间自编码器（TAE），用于将RGB图像和视频映射到潜在空间。NdY品论天涯网

然后，再使用预训练文本编码器，来编码用户提供的文本提示，并获得文本提示嵌入，这些嵌入用作模型的条件。NdY品论天涯网

流匹配，击败扩散损失NdY品论天涯网

值得一提的是，研究人员还引入「流匹配」（FlowMatching）来训练生成模型，这使得视频生成效果在精度、细节表现上，都优于扩散模型。NdY品论天涯网

「流匹配」是一种新兴的生成模型训练方法，其核心思想是——直接学习样本从初始噪声状态向目标数据分布转化的过程。NdY品论天涯网

而且，模型只需通过估计如何在每个时间步中演化样本，即可生成高质量的结果。NdY品论天涯网

与扩散模型相比，「流匹配」训练效率更高、计算成本更低、并且在时间维度保持连续性和一致性。NdY品论天涯网

NdY品论天涯网

有网友对此总结道，在质量和文本对齐上，人类评估都强烈倾向于流匹配，而不是扩散。NdY品论天涯网

NdY品论天涯网

此外，MovieGenVideo在技术上也引入了很多创新：NdY品论天涯网

他们引入了创新的位置编码方法——「因子化可学习编码」，能够独立对高度、宽度、时间三个维度进行编码，然后将其相加。NdY品论天涯网

基于这种灵活设计，让模型不仅能够适应不同宽高比，还能处理任意长度的视频。NdY品论天涯网

另外，为了解决模型推理效率问题，研究人员采用了一种「线性-二次时间步长」的策略。NdY品论天涯网

如下图所示，仅需50步，就能实现接近1000步采样效果，大幅提升了推理速度。NdY品论天涯网

NdY品论天涯网

与此同时，MovieGenVideo还采用了一种巧妙的「时间平铺」方法，进一步提升生成效率。NdY品论天涯网

具体来说，这种方法将输入的视频，在时间维度上切分成多个小片段，然后对每个片对独立进行编码和解码，最后再将所有处理好的片段，重新拼接成完成视频。NdY品论天涯网

NdY品论天涯网

这种分而治之策略，不仅显著降低内存需求，还提高了整体推理效率。NdY品论天涯网

为了确保最终生成的视频质量，团队在解码阶段采用了精心设计的重叠和混合技术。NdY品论天涯网

最后微调得到的MovieGenVideo模型，与当前最先进的模型相比，大幅超越LuamaLabs的DreamMachine，还有Gen-3。NdY品论天涯网

它仅小幅超越了Sora、Kling1.5。NdY品论天涯网

NdY品论天涯网

如下是，生成图像质量的对比。总的来说，MovieGenVideo在画面一致性、质量等方面，均取得了最优表现。NdY品论天涯网

NdY品论天涯网

提示中袋鼠走路细节，在Sora中到最后并没有展现。NdY品论天涯网

NdY品论天涯网

MovieGenAudioNdY品论天涯网

音频模型参数共有130亿，能够生成48kHz的高质量电影音效和音乐。NdY品论天涯网

而且，这些AI音频与输入视频，实现同步。NdY品论天涯网

NdY品论天涯网

值得一提的是，MovieGenAudio可以原生处理不同长度音频生成。NdY品论天涯网

这一过程是通过TAE完成解码与编码。NdY品论天涯网

NdY品论天涯网

而且，通过音频延伸技术，能够为长达几分钟视频，制作出连贯长音频。NdY品论天涯网

研究人员在大约100万小时音频上，对模型进行了预训练。NdY品论天涯网

得到的预训练模型，不仅学会了物理关联，还学会了视觉世界和音频世界之间的心理关联。NdY品论天涯网

NdY品论天涯网

另外，模型还可以生成，与视觉场景匹配的非画面「内环境」声音，即便是声源没有出现在画面中。NdY品论天涯网

最后，模型还可以生成支持情绪，并与视觉场景动作相匹配的非画面内音乐。NdY品论天涯网

而且，它还能与专业地混合音效和背景音乐。NdY品论天涯网

通过评估，与当前先进的音频模型ElevenLabs等相比，MovieGenAudio结果如下所示。NdY品论天涯网

NdY品论天涯网