剑桥、腾讯AI Lab等提出大语言模型PandaGPT：一个模型统一六种模态-品论天涯网

来自剑桥、NAIST和腾讯AILab的研究者近期发布了一项名为PandaGPT的研究成果，这是一种将大型语言模型与不同模态对齐、绑定以实现跨模态指令跟随能力的技术。PandaGPT可以完成诸如生成详细的图像描述、根据视频编写故事以及回答关于音频的问题等复杂任务。它可以同时接收多模态输入，并自然地组合它们的语义。AMl品论天涯网

AMl品论天涯网

项目主页:https://panda-gpt.github.io/AMl品论天涯网

代码:https://github.com/yxuansu/PandaGPTAMl品论天涯网

论文:http://arxiv.org/abs/2305.16355AMl品论天涯网

线上Demo展示:https://huggingface.co/spaces/GMFTBY/PandaGPTAMl品论天涯网

AMl品论天涯网

为了实现图像&视频、文本、音频、热力图、深度图、IMU读数六种模态下的指令跟随能力，PandaGPT将ImageBind的多模态编码器与Vicuna大型语言模型相结合（如上图所示）。AMl品论天涯网

为了使ImageBind的多模态编码器和Vicuna的大型语言模型的特征空间对齐，PandaGPT使用了组合LLaVa和Mini-GPT4发布的共160k基于图像的语言指令跟随数据作为训练数据。每个训练实例包括一张图像和相应一组多轮对话。AMl品论天涯网

为了避免破坏ImageBind本身的多模态对齐性质和减少训练成本，PandaGPT只更新了以下模块：AMl品论天涯网

在ImageBind的编码结果上新增一个线性投影矩阵，将ImageBind生成的表示转换后插入到Vicuna的输入序列中；AMl品论天涯网

在Vicuna的注意力模块上添加了额外的LoRA权重。两者参数总数约占Vicuna参数的0.4%。训练函数为传统的语言建模目标。值得注意的是，训练过程中仅对模型输出对应部分进行权重更新，不对用户输入部分进行计算。整个训练过程在8×A100(40G)GPUs上完成训练需要约7小时。AMl品论天涯网

值得强调的是，目前的PandaGPT版本只使用了对齐的图像-文本数据进行训练，但是继承了ImageBind编码器的六种模态理解能力（图像/视频、文本、音频、深度度、热量图和IMU）和它们之间的对齐属性，从而具备在所有模态之间跨模态能力。AMl品论天涯网

在实验中，作者展示了PandaGPT对不同模态的理解能力，包括基于图像/视频的问答，基于图像/视频的创意写作，基于视觉和听觉信息的推理等等，下面是一些例子：AMl品论天涯网

图像：AMl品论天涯网

AMl品论天涯网

音频：AMl品论天涯网

AMl品论天涯网

视频：AMl品论天涯网

AMl品论天涯网

与其他多模态语言模型相比，PandaGPT最突出的特点是它能够理解并将不同模态的信息自然地组合在一起。AMl品论天涯网

视频+音频：AMl品论天涯网

AMl品论天涯网

图像+音频：AMl品论天涯网

AMl品论天涯网

总结AMl品论天涯网

作者们也总结了目前PandaGPT的诸多问题以及未来的发展方向。尽管PandaGPT在处理多种模态及其组合方面具有惊人的能力，但仍有多种方法可以极大程度的提升PandaGPT的性能。AMl品论天涯网

PandaGPT可以通过使用其他模态对齐数据来进一步提升图像以外模态的理解能力，例如利用ASR和TTS数据来进行音频-文本模态的模态理解和指令跟随能力。AMl品论天涯网

文本以外的其他模态仅仅使用了一个embedding向量进行表示，导致语言模型无法理解文本之外模型的细粒度信息。更多关于细粒度特征提取的研究，如跨模态注意力机制，可能有助于提高性能。AMl品论天涯网

PandaGPT目前仅允许将文本之外的模态信息用作输入。未来该模型有潜力将整个AIGC统一到同一个模型之中，即一个模型同时完成图像&视频生成、语音合成、文本生成等任务。AMl品论天涯网

需要新的基准测试来评估多模态输入的组合能力。AMl品论天涯网

PandaGPT还可能表现出现有语言模型的一些常见缺陷，包括幻觉、毒性和刻板印象。AMl品论天涯网

最后，作者们强调，PandaGPT仅仅是一个研究原型，暂时还不足以直接应用于生产环境。AMl品论天涯网