人工智能

中国团队开源大规模高质量图文数据集ShareGPT4V

字号+作者: 来源:站长之家 2023-11-29 14:46 评论(创建话题) 收藏成功收藏本文

要点:中国团队开源大规模高质量图文数据集ShareGPT4V,基于GPT4-Vision构建,训练了一个7B模型,在多模态性能上超越同级模型。ShareGPT4V数据集包含120万条'...

要点:BgM品论天涯网

中国团队开源大规模高质量图文数据集ShareGPT4V,基于GPT4-Vision构建,训练了一个7B模型,在多模态性能上超越同级模型。BgM品论天涯网

ShareGPT4V数据集包含120万条图像-文本描述数据,涵盖世界知识、对象属性、空间关系、艺术评价等多方面,超越现有数据集在多样性和信息涵盖度方面。BgM品论天涯网

使用ShareGPT4V数据集进行实验,研究者展示了其在多种架构和参数规模的多模态模型中的有效性,最终得到了在多模态基准测试上表现优异的ShareGPT4V-7B模型。BgM品论天涯网

站长之家(ChinaZ.com)11月29日 消息:中国团队最近开源了一个引人瞩目的图文数据集,命名为ShareGPT4V,它基于GPT4-Vision构建,训练了一个7B模型。这一举措在多模态领域取得了显著的进展,超越了同级别的模型。BgM品论天涯网

该数据集包含了120万条图像-文本描述数据,涵盖了世界知识、对象属性、空间关系、艺术评价等多个方面,在多样性和信息涵盖度上明显优于现有数据集。BgM品论天涯网

image.pngBgM品论天涯网

论文地址:https://arxiv.org/abs/2311.12793BgM品论天涯网

Demo演示:https://huggingface.co/spaces/Lin-Chen/ShareGPT4V-7BBgM品论天涯网

项目地址:https://github.com/InternLM/InternLM-XComposer/tree/main/projects/ShareGPT4VBgM品论天涯网

多模态模型的性能在很大程度上受制于模态对齐的效果,而现有工作中缺乏大规模高质量的图像-文本数据。为了解决这一问题,中科大和上海AI Lab的研究者们推出了ShareGPT4V,这是一个开创性的大型图文数据集。BgM品论天涯网

通过对GPT4-Vision模型产生的10万条图像-文本描述数据进行深入研究,他们成功构建了这一高质量的数据集,涉及的内容丰富多样,包括世界知识、艺术评价等。BgM品论天涯网

这一数据集的推出为多模态研究和应用奠定了新的基石。在实验中,研究者们展示了ShareGPT4V数据集在多种架构和参数规模的多模态模型中的有效性。通过等量替换实验,他们成功提升了多种模型的性能。BgM品论天涯网

最终,通过在预训练和有监督微调阶段同时使用ShareGPT4V数据集,他们得到了ShareGPT4V-7B模型,在多模态基准测试中取得了优异的成绩。BgM品论天涯网

这一研究为未来的多模态研究和应用提供了有力支持,也促使多模态开源社区关注高质量图像描述的开发,预示着更强大、智能的多模态模型的出现。这一成果对于推动人工智能领域的发展具有积极的意义。BgM品论天涯网

本网除标明“PLTYW原创”的文章外,其它文章均为转载或者爬虫(PBot)抓取; 本文只代表作者个人观点,不代表本站观点,仅供大家学习参考。本网站属非谋利性质,旨在传播马克思主义和共产主义历史文献和参考资料。凡刊登的著作文献侵犯了作者、译者或版权持有人权益的,可来信联系本站删除。 本站邮箱[email protected]

相关文章