人工智能

哈工深发布多模态大模型九天 性能提升5%

字号+作者: 来源:站长之家 2023-12-04 13:55 评论(创建话题) 收藏成功收藏本文

要点:九天(JiuTian-LION) 是哈尔滨工业大学(深圳)发布的全新多模态大语言模型,通过双层视觉知识增强,在13个视觉语言任务上取得了state-of-the-art性能,特别'...

要点:q3e品论天涯网

九天(JiuTian-LION) 是哈尔滨工业大学(深圳)发布的全新多模态大语言模型,通过双层视觉知识增强,在13个视觉语言任务上取得了state-of-the-art性能,特别在Visual Spatial Reasoning上提升了5%。q3e品论天涯网

视觉信息提取不足问题得到解决,九天模型通过渐进式融合细粒度空间感知视觉知识和软提示下的高层语义视觉证据,有效提升了视觉理解能力,减轻了MLLMs的幻觉现象。q3e品论天涯网

新方法框架包括分段指令微调策略和混合适配器,解决了图像级理解任务和区域级定位任务之间的冲突,同时引入了软提示方法以提高高层语义注入的效果。q3e品论天涯网

站长之家(ChinaZ.com)12月4日 消息:哈尔滨工业大学(深圳)近期发布了名为九天(JiuTian-LION)的多模态大语言模型,通过融合细粒度空间感知和高层语义视觉知识,取得了在13个视觉语言任务上的state-of-the-art性能,尤其在Visual Spatial Reasoning任务上实现了5%的性能提升。q3e品论天涯网

image.pngq3e品论天涯网

论文链接:https://arxiv.org/abs/2311.11860q3e品论天涯网

GitHub:https://github.com/rshaojimmy/JiuTianq3e品论天涯网

项目主页:https://rshaojimmy.github.io/Projects/JiuTian-LIONq3e品论天涯网

传统的多模态大语言模型在视觉信息提取上存在不足,导致了视觉定位偏差和幻觉等问题。九天模型通过双层视觉知识增强策略,解决了这一问题。q3e品论天涯网

其方法框架包括分段指令微调策略和混合适配器,首次分析了图像级理解任务和区域级定位任务之间的内部冲突,实现了两种任务的互相提升。通过注入细粒度空间感知和高层语义视觉知识,九天在包括图像描述、视觉问题、和视觉定位等17个视觉语言任务上实现了显著的性能提升,其中13个评测任务达到了国际领先水平。q3e品论天涯网

image.pngq3e品论天涯网

与现有的多模态大语言模型相比,九天通过渐进式融合细粒度空间感知视觉知识和软提示下的高层语义视觉证据,有效地提升了视觉理解能力,生成更准确的文本回应,减少了模型的幻觉现象。总体而言,九天为多模态大语言模型领域带来了新的思路和性能突破,为视觉语言任务的研究提供了有力的支持。q3e品论天涯网

本网除标明“PLTYW原创”的文章外,其它文章均为转载或者爬虫(PBot)抓取; 本文只代表作者个人观点,不代表本站观点,仅供大家学习参考。本网站属非谋利性质,旨在传播马克思主义和共产主义历史文献和参考资料。凡刊登的著作文献侵犯了作者、译者或版权持有人权益的,可来信联系本站删除。 本站邮箱[email protected]