人工智能

提前对齐,视频问答新SOTA!北大全新Video-LLaVA视觉语言大模型,秒懂视频笑点

字号+作者: 来源:新智元公众号 2023-11-23 13:47 评论(创建话题) 收藏成功收藏本文

声明:本文来自于微信公众号 新智元(ID:AI_era),作者:新智元,授权站长之家转载发布。【新智元导读】最近,来自北京大学等机构研究者提出了一种全新视觉语言大'...

声明:本文来自于微信公众号 新智元(ID:AI_era),作者:新智元,授权站长之家转载发布。Nvt品论天涯网

【新智元导读】最近,来自北京大学等机构研究者提出了一种全新视觉语言大模型——Video-LLaVA,使得LLM能够同时接收图片和视频为输入。Video-LlaVA在下游任务中取得了卓越的性能,并在图片、视频的13个基准上达到先进的性能。这个结果表明,统一LLM的输入能让LLM的视觉理解能力提升。Nvt品论天涯网

最近,来自北大的研究人员提出了一种全新的视觉语言大模型——Video-LLaVA,为alignment before projection提供了新颖的解决方案。Nvt品论天涯网

与以往的视觉语言大模型不同,Video-LLaVA关注的是提前将图片和视频特征绑定到统一个特征空间,使LLM能够从统一的视觉表示从学习模态的交互。Nvt品论天涯网

此外,为了提高计算效率,Video-LLaVA还联合了图片和视频进行训练和指令微调。Nvt品论天涯网

图片Nvt品论天涯网

论文地址:https://arxiv.org/pdf/2310.01852.pdfNvt品论天涯网

GitHub地址:https://github.com/PKU-YuanGroup/Video-LLaVANvt品论天涯网

Huggingface地址:https://huggingface.co/spaces/LanguageBind/Video-LLaVANvt品论天涯网

凭借强大的语言理解能力,诸如ChatGPT这类的大语言模型迅速在AI社区风靡。而如何让大语言模型同时理解图片和视频,也成为了大模型背景下的研究多模态融合的热点问题。Nvt品论天涯网

最近的工作将图片或视频通过几个全连接层映射成类似文本的token,让LLM涌现理解视觉信号的能力。Nvt品论天涯网

然而,图片和视频是分开用各自的编码器,这对LLM学习统一的视觉表征带来了挑战。并且通过几个映射层教会LLM同时处理图片和视频的性能往往不如视频专家模型如Video-ChatGPT。Nvt品论天涯网

对此,来自北大团队认为这种现象源于misalignment before projection。因为图片特征和视频特征在送入LLM之前就已经收敛到各自的特征域空间,这就给LLM学习它们之间的交互带来了挑战。Nvt品论天涯网

Nvt品论天涯网

类似的现象如misalignment before fusion,也可以在早期的多模态融合工作被观察到,如ALBEF。Nvt品论天涯网

图片Nvt品论天涯网

不同视觉语言大模型范式的比较Nvt品论天涯网

方法介绍Nvt品论天涯网

Video-LLaVA的方法简单有效,不需要额外自己预先训练图片和视频模态的编码器,而是巧妙地通过LanguageBind编码器来预先对齐图片和视频特征,形成统一的视觉表征。Nvt品论天涯网

具体来说,Video-LLaVA采用的图片和视频编码器通过共享一个语言特征空间,图像和视频表示最终融合成一个统一的视觉特征空间,称之为图像和视频的emergent alignment。Nvt品论天涯网

因此,Video-LlaVA通过LanguageBind预先对视觉输入进行对齐,以减小不同视觉信号表示之间的差距。统一的视觉表征经过共享的投影层后,输入到大语言模型中。Nvt品论天涯网

并且Video-LlaVA在训练过程中始终没有用到视频图片成对的数据,而是在训练后发现的LLM会惊人的涌现出同时理解图片和视频。Nvt品论天涯网

如下图所示,Video-LlaVA成功的识别出图片的自由女神像是近景且细腻的,而视频描述的是多角度的自由女神像,他们是来源于同一个地方。Nvt品论天涯网

图片Nvt品论天涯网

Video-LLaVA采取两阶段的训练策略:Nvt品论天涯网

在视觉理解阶段,使用了一个558K个LAION-CC-SBU图像-文本对。视频-文本对是从Valley 提供的子集中获得的,总共有703k对,这些视频源自WebVid。Nvt品论天涯网

在指导微调阶段,团队从两个来源收集了指导性数据集,包括来自LLaVA的665k个图像-文本数据集,以及从Video-ChatGPT获得的包含100k个视频-文本数据集。Nvt品论天涯网

图片Nvt品论天涯网

- 视觉理解阶段Nvt品论天涯网

在这个阶段,模型需要通过一个广泛的视觉-文本对数据集来获取解读视觉信号的能力。每个视觉信号对应一个回合的对话数据。Nvt品论天涯网

这个阶段的训练目标是原始的自回归损失,模型通过学习基本的视觉理解能力。在此过程中,冻结模型的其他参数。Nvt品论天涯网

- 指令微调阶段Nvt品论天涯网

在这个阶段,模型需要根据不同的指令提供相应的回复。这些指令通常涉及更复杂的视觉理解任务,而不仅仅是描述视觉信号。需要注意的是,对话数据包含多个回合。Nvt品论天涯网

如果涉及多轮对话,输入数据会将所有之前回合的对话与当前指令连接起来,作为本回合的输入。训练目标与前一阶段相同。Nvt品论天涯网

经过这个阶段,模型学会了根据不同的指令和请求生成相应的回复。在这个阶段,大语言模型也参与训练。Nvt品论天涯网

图片Nvt品论天涯网

实验Nvt品论天涯网

- 视频理解能力Nvt品论天涯网

如表3所示,Video-LLaVA在4个视频问答数据集上全面超过了Video-ChatGPT,并且涨幅相当可观。Nvt品论天涯网

图片Nvt品论天涯网

- 图片理解能力Nvt品论天涯网

该研究还与InstructBLIP,Otter,mPLUG-owl 等图片语言大模型在图片语言理解任务上进行了比较,结果如表2所示:Nvt品论天涯网

图片Nvt品论天涯网

- 预先对齐视觉输入Nvt品论天涯网

将图片编码器替换相同规模的MAE encoder。定义用MAE encoder是分隔的视觉表示,Languagebind是统一视觉表示(因为预先对齐了视觉表征),并且将MAE encoder和LanguageBind encoder在13个基准上进行对比,这其中包含9个图片理解基准和4个视频理解基准。Nvt品论天涯网

对于图片理解,统一视觉表示展现了强大的性能,它在5个图片问答数据集和4个基准工具箱上全面超过了分隔的视觉表示。Nvt品论天涯网

另外,我们注意到统一视觉表示在POPE,MMBench,LLaVA-Bench,MM-Vet这四个基准工具箱上的性能以巨大的优势超过。Nvt品论天涯网

这突出了预先对齐了视觉表征不仅在图片问答上提升了性能,还在图片理解的其他方面收益,如减小幻觉,提升OCR能力等。Nvt品论天涯网

图片Nvt品论天涯网

由于替换图片编码器为MAE encoder,视频特征和图片特征在LLM初始学习视觉表示时不再统一。Nvt品论天涯网

在图6,相比于分隔视觉表示,联合视觉表示在4个视频问答数据集上全面提高了性能。Nvt品论天涯网

这些结果展现了预先对齐视觉表征表示能够帮助LLM进一步学习理解视频。Nvt品论天涯网

图片Nvt品论天涯网

同时论文还验证了无论是对于图片还是视频,在联合训练中他们能相互受益。Nvt品论天涯网

对于图片理解,Video-LLaVA在无法回答的和数字上的表现超过了LLaVA-1.5,这意味着联合训练视频使得在图片上的幻觉问题有所缓解,和对图片数字信号的理解能力增强。Nvt品论天涯网

相同的趋势在LLaVA-Bench上被观察到,Video数据显著提升了LLM在图片Complex reasoning,Conversation上的表现。Nvt品论天涯网

图片Nvt品论天涯网

对于视频理解,团队在4个Video问答数据集上评估。Nvt品论天涯网

与没有图片参与训练的Video-LLaVA相比,有图片联合训练的模型在4个数据集上全面超过。Nvt品论天涯网

这些结果证明了联合图片和视频一起训练能够促进LLM理解视觉表示。Nvt品论天涯网

图片Nvt品论天涯网

参考资料:Nvt品论天涯网

https://github.com/PKU-YuanGroup/ Video-LLaVANvt品论天涯网

本网除标明“PLTYW原创”的文章外,其它文章均为转载或者爬虫(PBot)抓取; 本文只代表作者个人观点,不代表本站观点,仅供大家学习参考。本网站属非谋利性质,旨在传播马克思主义和共产主义历史文献和参考资料。凡刊登的著作文献侵犯了作者、译者或版权持有人权益的,可来信联系本站删除。 本站邮箱[email protected]