人工智能

首个开源世界模型LWM :百万级上下文,长视频理解超GPT-4

字号+作者: 来源:站长之家 2024-04-04 15:36 评论(创建话题) 收藏成功收藏本文

划重点:⭐️ UC 伯克利研究人员开源首个世界模型,具有百万级上下文处理能力。⭐️ 该模型在多模态任务中表现出色,长视频理解效果优于 GPT-4V 和 Gemini Pro'...

划重点:mJQ品论天涯网

⭐️ UC 伯克利研究人员开源首个世界模型,具有百万级上下文处理能力。mJQ品论天涯网

⭐️ 该模型在多模态任务中表现出色,长视频理解效果优于 GPT-4V 和 Gemini Pro。mJQ品论天涯网

⭐️ LWM 系列模型在 GitHub 上受到广泛关注,开发者积极参与并获得高星数。mJQ品论天涯网

站长之家(ChinaZ.com)4月4日 消息:来自加州大学伯克利分校的研究人员最近发布并开源了首个世界模型,被称为 LWM(LargeWorldModel)系列模型。这一模型采用了大量视频和书籍数据集,通过 RingAttention 技术实现了长序列的可扩展训练,使得模型的上下文长度达到了1M token。mJQ品论天涯网

在实验中,LWM 系列模型展现出了优异的多模态性能,在文本图像生成、文本视频生成以及基于图像的对话等任务中表现出色。mJQ品论天涯网

image.pngmJQ品论天涯网

研究人员指出,LWM 系列模型的多模态能力优于目前商业模型 GPT-4V 和 Gemini Pro,在处理超长视频理解方面尤为出色。更令人振奋的是,LWM 是一款开源模型,基于 Llama27B,受到了开发者们的热烈欢迎,仅在不到两周的时间里,就在 GitHub 上获得了超过6.2k 的 star。mJQ品论天涯网

该模型的训练过程分为两个阶段,首先是上下文扩展阶段,主要利用 Books3数据集将上下文长度从32K 扩展到1M。第二阶段是视觉语言培训,通过联合训练长视频和语言序列,提高模型在多模态任务中的表现。研究人员还对不同长度的文本和视频数据进行了逐步训练,并在模型设计和训练过程中做出了相应调整和优化。mJQ品论天涯网

这一开源的世界模型展示了强大的多模态处理能力,为相关领域的研究和开发提供了重要参考。其优秀的性能表现和开源特性吸引了众多开发者的关注和参与,为人工智能领域的进步和创新带来了新的契机。mJQ品论天涯网

论文地址:https://arxiv.org/pdf/2402.08268.pdfmJQ品论天涯网

项目入口:https://github.com/LargeWorldModel/LWMmJQ品论天涯网

本网除标明“PLTYW原创”的文章外,其它文章均为转载或者爬虫(PBot)抓取; 本文只代表作者个人观点,不代表本站观点,仅供大家学习参考。本网站属非谋利性质,旨在传播马克思主义和共产主义历史文献和参考资料。凡刊登的著作文献侵犯了作者、译者或版权持有人权益的,可来信联系本站删除。 本站邮箱[email protected]