人工智能

北大视频大模型新SOTA,搞笑抖音视频AI秒懂笑点|开源

字号+作者: 来源:​量子位公众号 2023-11-21 08:57 评论(创建话题) 收藏成功收藏本文

声明:本文来自于微信公众号 量子位(ID:QbitAI),作者:梦晨,授权站长之家转载发布。AI能理解搞笑视频笑点在哪里了。AI回答:这个视频之所以搞笑,在于一个小宝'...

声明:本文来自于微信公众号 量子位(ID:QbitAI),作者:梦晨,授权站长之家转载发布。xUm品论天涯网

AI能理解搞笑视频笑点在哪里了。xUm品论天涯网

图片xUm品论天涯网

AI回答:这个视频之所以搞笑,在于一个小宝宝正坐在床上努力读书,但他显然还不会真正读书。他只是不停地指着书页上的各处,而摄影者则在背后笑他。小宝宝的这种尝试很有趣,因为他在尝试阅读一本对他而言过大的书,也看不懂里面的文字。xUm品论天涯网

北大等团队开源视觉语言大模型Video-LLaVA,将图像和视频表示对齐到统一的视觉特征空间,在13个图片和视频基准上达到先进的性能。xUm品论天涯网

图片xUm品论天涯网

值得注意的是,Video-LLaVA在训练过程中没有使用成对的视频和图片数据,但在训练后,LLM令人惊讶地展现出同时理解图片和视频的能力。xUm品论天涯网

如下图所示,Video-LLaVA成功地识别出自由女神像的图片是近景且细腻的,而视频描述了自由女神像的多个角度,表明它们来自同一个地方。xUm品论天涯网

图片xUm品论天涯网

在投影之前对齐图像和视频表示

图片xUm品论天涯网

这项工作具体贡献如下:xUm品论天涯网

Video-LLaVA解决了在视觉-语言理解中同时处理图像和视频的挑战。它将视觉表示统一到语言特征空间中,使得大型语言模型能够同时对图像和视频进行视觉推理能力。xUm品论天涯网

Video-LLaVA通过最初将图像和视频的表示对齐到一个统一的视觉特征空间中,将视觉表示统一到语言特征空间中。这是通过使用LanguageBind编码器来实现的,该编码器将不同的模态映射到文本特征空间中,提供了一个统一的视觉表示。然后,统一的视觉表示经过共享的投影层和词嵌入层进行编码,以将统一的视觉表示映射给大型语言模型使用。xUm品论天涯网

Video-LLaVA在视频上表现出色,在MSVD、MSRVTT、TGIF和ActivityNet视频问答数据集上分别超过了Video-ChatGPT的5.8%、9.9%、18.6%和10.1%。xUm品论天涯网

对于模型能力,研究团队做了充分实验。xUm品论天涯网

视频理解能力实验。xUm品论天涯网

如表3所示,Video-LLaVA在4个视频问答数据集上全面超过了Video-ChatGPT,并且涨幅相当可观。xUm品论天涯网

图片xUm品论天涯网

图片理解能力实验。xUm品论天涯网

该研究还与InstructBLIP,Otter,mPLUG-owl 等图片语言大模型在图片语言理解任务上进行了比较,结果如表2所示:xUm品论天涯网

图片xUm品论天涯网

为了评估预先对齐视觉输入的效果,研究团队进行了大量的对比实验。xUm品论天涯网

他们使用了相同规模的MAE编码器替换了图片编码器,其中MAE编码器生成分离的视觉表示,而LanguageBind编码器生成统一的视觉表示(因为预先对齐了视觉表征)。xUm品论天涯网

然后,他们在13个基准测试中比较了MAE编码器和LanguageBind编码器的性能,包括9个图片理解基准和4个视频理解基准。xUm品论天涯网

图片xUm品论天涯网

通过替换图片编码器为MAE编码器,LLM在初始学习视觉表示时将视频特征和图片特征分开处理,不再将它们统一起来。xUm品论天涯网

有关图6的实验结果显示,与分离的视觉表示相比,联合的视觉表示在4个视频问答数据集上显著提升了性能。xUm品论天涯网

这一发现表明,预先对齐的视觉表征有助于LLM进一步学习和理解视频内容。它提供了更好的能力,使得模型能够更有效地处理视频问答任务并展现出更好的性能表现。xUm品论天涯网

图片xUm品论天涯网

同时论文还验证了无论是对于图片还是视频,在联合训练中他们能相互受益。xUm品论天涯网

通过联合训练视频数据,对于图片理解任务,可以缓解幻觉问题。类似的趋势也在LLaVA-Bench基准测试上观察到。xUm品论天涯网

图片xUm品论天涯网

在视频理解方面,联合训练的也得到了明显的提升。xUm品论天涯网

图片xUm品论天涯网

参考资料:xUm品论天涯网

[1]https://arxiv.org/abs/2311.10122xUm品论天涯网

[2]https://github.com/PKU-YuanGroup/Video-LLaVAxUm品论天涯网

本网除标明“PLTYW原创”的文章外,其它文章均为转载或者爬虫(PBot)抓取; 本文只代表作者个人观点,不代表本站观点,仅供大家学习参考。本网站属非谋利性质,旨在传播马克思主义和共产主义历史文献和参考资料。凡刊登的著作文献侵犯了作者、译者或版权持有人权益的,可来信联系本站删除。 本站邮箱[email protected]