人工智能

南洋理工推80亿参数多模态大模型OtterHD

字号+作者: 来源:站长之家 2023-11-27 16:58 评论(创建话题) 收藏成功收藏本文

要点:1、OtterHD 是一个80亿参数的多模态大模型,可以处理高分辨率图像并具有通用性。2、OtterHD 通过基于 Fuyu-8B 进行指令微调,并使用 FlashAttention '...

要点:XvW品论天涯网

1、OtterHD 是一个80亿参数的多模态大模型,可以处理高分辨率图像并具有通用性。XvW品论天涯网

2、OtterHD 通过基于 Fuyu-8B 进行指令微调,并使用 FlashAttention 资源库中的算子融合技术来提高性能。XvW品论天涯网

3、OtterHD 在新的基准测试 MagnifierBench 上展现出出色的表现,特别是在处理复杂场景中的细节方面。XvW品论天涯网

站长之家(ChinaZ.com)11月27日 消息:最近,南洋理工华人团队提出的80亿参数多模态大模型 OtterHD 引起了人们的关注。与其他模型相比,OtterHD 具有处理高分辨率图像的能力,并且具有通用性,能够应对各种推理需求。团队通过在 Fuyu-8B 上进行指令微调,并使用 FlashAttention 资源库中的算子融合技术,进一步提高了模型的性能。XvW品论天涯网

通过这些改进,OtterHD 在直接处理高分辨率输入时表现出色,尤其在新的基准测试 MagnifierBench 上的表现令人印象深刻。MagnifierBench 旨在评估语言模型在复杂场景中辨别细节的能力,OtterHD 在这个测试中取得了优秀的成绩。这些结果表明,OtterHD 是一个非常有潜力的模型,可以用于处理各种高分辨率图像,并在细节辨别方面表现出色。XvW品论天涯网

image.pngXvW品论天涯网

论文地址:https://arxiv.org/pdf/2311.04219.pdfXvW品论天涯网

这项研究的一个关键点是 OtterHD 的处理能力。由于其80亿参数的规模,OtterHD 能够处理高分辨率图像,并且具有通用性,可以适应不同的推理需求。与传统模型不同,OtterHD 具有处理灵活输入尺寸的能力,这使得它能够应对各种不同分辨率的图像,并且在处理高分辨率输入时表现出色。团队还通过基于 Fuyu-8B 进行指令微调和算子融合技术的运用,进一步提高了模型的性能。这些改进使得 OtterHD 在处理高分辨率图像和复杂场景中的细节方面表现出色。XvW品论天涯网

另一个关键点是团队提出的基准测试 MagnifierBench。这个基准测试旨在评估语言模型在复杂场景中辨别细节的能力。通过使用 PVSG 数据集制作了一个涵盖283组问题的测试基准,团队可以更好地评估模型的性能。结果显示,OtterHD 在 MagnifierBench 上表现出色,特别是在处理高分辨率图像和复杂场景中的细节方面。这表明 OtterHD 具有较强的辨别细节的能力,对于处理复杂场景中的图像具有优势。XvW品论天涯网

总的来说,OtterHD 是一个具有80亿参数的多模态大模型,具有处理高分辨率图像和通用性的能力。通过基于 Fuyu-8B 进行指令微调和算子融合技术的应用,OtterHD 在处理高分辨率图像和复杂场景中的细节方面表现出色。通过新的基准测试 MagnifierBench 的评估,团队展示了 OtterHD 在细节辨别方面的优势。这些结果表明,OtterHD 是一个非常有潜力的模型,在处理各种高分辨率图像和复杂场景中具有广泛应用的前景。XvW品论天涯网

本网除标明“PLTYW原创”的文章外,其它文章均为转载或者爬虫(PBot)抓取; 本文只代表作者个人观点,不代表本站观点,仅供大家学习参考。本网站属非谋利性质,旨在传播马克思主义和共产主义历史文献和参考资料。凡刊登的著作文献侵犯了作者、译者或版权持有人权益的,可来信联系本站删除。 本站邮箱[email protected]