人工智能

Sora劲敌 Meta最强沉浸式AI媒体模型来了

字号+作者: 来源:硬AI 2024-10-05 09:08 评论(创建话题) 收藏成功收藏本文

OpenAI的Sora迎来劲敌,Meta推出号称最先进的媒体基础模型MovieGen。Meta称,MovieGen是公司“针对媒体的突破性生成式AI研究”,它囊括了图像、视频和音频等'...

OpenAI的Sora迎来劲敌,Meta推出号称最先进的媒体基础模型MovieGen。Meta称,MovieGen是公司“针对媒体的突破性生成式AI研究”,它囊括了图像、视频和音频等模态,用户只需输入文本,就可以制作自定义的视频和声音、编辑现有视频,以及将个人图像转换为独特的视频。MovieGen执行这些任务的表现在人类评估中由于业内类似模型。omc品论天涯网

Meta介绍,MovieGen是“最先进、沉浸式效果最佳的故事讲述模型套件”,综合了公司第一波生成式AI媒体研究的Make-A-Scene系列模型,即可创建图像、音频、视频和3D动画的模型,以及随着扩散模型出现而针对LlamaImage基础模型进行的第二波研究模型,即可实现更高质量图像和视频生成以及图像编辑的模型。omc品论天涯网

文生视频最长16秒130亿参数音频生成模型人工评测视频生成对Sora净胜率8.2omc品论天涯网

Meta概括,MovieGen具有四种功能:视频生成、个性化视频生成、精确视频编辑、音频生成。omc品论天涯网

对于视频生成,Meta介绍,用户只要提供一个文本的提示词,MovieGen就可以利用针对文本转图像和文本转视频进行了优化的联合模型,创建高清的高质量图像和视频。MovieGen的视频模型有300亿参数,这个转换模型能以每秒16帧的速度生成最长16秒的视频。omc品论天涯网

Meta称,发现这些模型可以推理物体的运动、拍摄主体与物体之间的相互作用,以及相机的运动,并且可以学习各种概念了解有哪些合理的运动,因此,它们成为同类中最先进的模型。在介绍该功能时,Meta展示了多个10秒长度的视频短片,包括一只像萌翻网络的弹跳猪“MooDeng”那样的小河马游来游去。omc品论天涯网



omc品论天涯网

单从生成视频的最大长度看,MovieGen还不敌今年2月OpenAI发布的Sora。Sora令业界震撼的一点是,可以创建长达60秒的文生视频,。不过,相比Meta去年11月官宣的视频模型EmuVideo,MovieGen确实进步不小。EmuVideo只能以每秒16帧的速度生成最长4秒的视频。omc品论天涯网

除了直接文生视频,MovieGen还有出色的个性化视频制作能力。Meta介绍,其扩展了前述基础模型,支持生成个性化视频。用户可以提供某个人的图像,配合文本的提示词,让MoveGen生成的视频包含参考图像中的人物,以及符合文本提示的视觉细节。Meta称,在创建保留人类身份和动作的个性化视频方面,其模型取得了最先进的成果。omc品论天涯网

Meta展示的一个视频显示,用户可以提供一个女孩的照片,输入文字“一名身穿粉色马甲的女DJ播放唱片,她身旁有一只猎豹”,然后就生成了以照片中女孩形象的DJ打碟,以及一只猎豹陪伴。omc品论天涯网



omc品论天涯网

在精确视频编辑方面,Meta称,MovieGen采用了同一基础模型的编辑变体模型,在用户输入视频和文本提示词后,精确执行任务,生成所需的输出。它将视频生成与高级图像编辑相结合,执行局部编辑,例如添加、删除或替换元素,以及诸如背景或样式修改的全局更改。与需要专业技能或缺乏生成精确度的传统工具不同,MovieGen保留了原始内容,仅针对相关像素编辑。omc品论天涯网

Meta提供的示例之一是,用户输入,让企鹅穿上有英国女王维多利亚在位时期服饰风格的服装,MovieGen生成的企鹅穿上了带蕾丝的红色女裙。omc品论天涯网



omc品论天涯网

对于音频生成,Meta称,训练了一个130亿参数的音频生成模型,该模型可以接受视频和可选的文本提示词,生成长达45秒的高质量高保真音频,包括环境音、拟声音效(Foley)和乐器背景音乐,所有这些都与视频内容同步。此外,Meta引入了一种音频扩展技术,可以为任意长度的视频生成连贯的音频,在音频质量、视频到音频对齐和文本到音频对齐方面总体上实现了最先进的性能。omc品论天涯网

Meta提供的一个例子是,生成在吉他音乐的伴奏下,全地形车(ATV)引擎轰鸣加速的声音,还有一个例子是,管弦乐声中有树叶沙沙作响和树枝折断的声音。omc品论天涯网



omc品论天涯网

Meta还展示了针对以上四种能力进行的A/B对比测试人工评估结果,下图显示的净正值胜率代表,相比Sora等竞品模型,人类评估者更青睐MovieGen模型生成的结果。在直接生成视频这个功能方面,MovieGen相比Sora的净胜率达到8.2。omc品论天涯网


omc品论天涯网

基于授权和公开可用数据训练未明确何时发布 扎克伯格称明年上线Instagramomc品论天涯网

MovieGen是基于哪些信息进行训练的?Meta的声明没有说明具体细节,只是说:“我们基于授权和公开可用的数据集对这些模型进行了训练。”omc品论天涯网

有评论指出,对生成式AI工具而言,训练数据的来源以及从网上抓取哪些数据合理仍然是有争议的问题,而且公众很少知道使用哪些文本、视频或音频片段创建了任何大模型。omc品论天涯网

还有评论称,Meta说训练用的数据集是“专有/商业敏感”的,未提供细节,那么只能猜测,数据包括很多Instagram和Facebook平台的视频,加上一些Meta合作伙伴的内容,以及其他很多未得到充分保护的内容、也就是所谓的“公开可用”内容。omc品论天涯网

对于发布时间,Meta本周五并未明确MovieGen何时面向大众推出,只是含糊地说“可能未来发布”。今年2月OpenAI官宣Sora后迄今还未真正向公众开放使用,也并未透露任何计划将要发布的日期。omc品论天涯网

不过,MetaCEO扎克伯格称,MovieGen明年会上线Meta旗下的社交媒体Instagram。他在个人Instagram账号发布了一段MovieGen生成的视频,显示他在用腿部推举机,随着他开始锻炼,背景发生了变化。先是显示,他在一家霓虹灯照耀的未来风格健身房锻炼,然后变为,他穿着角斗士盔甲锻炼,接着变为他推动一台燃烧的纯金机器,最后变为,他用腿部推举一盒鸡块,周围是一片薯条。omc品论天涯网

扎克伯格配上文字称,Meta新的MovieGenAI模型可以制作和编辑视频,每天都是炼腿的日子。该模型将于明年登陆Instagram。omc品论天涯网


omc品论天涯网

在社交媒体X,Meta官宣并演示MovieGen的帖子下面,一些点赞高的评论显示,网友已经在催促Meta正式发布该模型,有网友问,不知道大家有没有机会来试试它。omc品论天涯网


omc品论天涯网

本网除标明“PLTYW原创”的文章外,其它文章均为转载或者爬虫(PBot)抓取; 本文只代表作者个人观点,不代表本站观点,仅供大家学习参考。本网站属非谋利性质,旨在传播马克思主义和共产主义历史文献和参考资料。凡刊登的著作文献侵犯了作者、译者或版权持有人权益的,可来信联系本站删除。 本站邮箱[email protected]