人工智能

GPT-4V都考不过?基于大学水平考试的多模态AI测试基准MMMUs发布

字号+作者: 来源:站长之家 2023-12-01 14:11 评论(创建话题) 收藏成功收藏本文

要点:最新基准数据集MMMUs针对大学水平多学科问题提供了全面的多模态AI测试,挑战了当前最强大的GPT-4V等模型,展现了其在深度和广度方面的性能。MMMU包含'...

要点:wCI品论天涯网

最新基准数据集MMMUs针对大学水平多学科问题提供了全面的多模态AI测试,挑战了当前最强大的GPT-4V等模型,展现了其在深度和广度方面的性能。wCI品论天涯网

MMMU包含六个学科的30个科目,涉及艺术与设计、商科、科学、健康与医学、人文与社会科学、技术与工程等领域,共有1.15万个多模态问题,考察了感知、知识和推理等基本技能,为评估专家级AGI提供了全面而复杂的任务。wCI品论天涯网

MMMU在问题设计上注重深度,包含专业领域知识和高级推理,通过涵盖多种图像格式和混合文本图像输入,要求AI模型在理解、记忆、推理等方面具备高级能力,挑战了当前多模态基准的局限性。wCI品论天涯网

站长之家(ChinaZ.com)12月1日 消息:近日,一项基于大学水平考试的多模态AI测试基准MMMUs发布,旨在评估机器在广泛多样的任务上的专家级多模态理解和推理能力。这一基准对当前最先进的GPT-4V等模型提出挑战,通过涵盖艺术与设计、商科、科学、健康与医学、人文与社会科学、技术与工程等六个学科的30个科目,共有1.15万个问题,考察了感知、知识和推理等基本技能。wCI品论天涯网

image.pngwCI品论天涯网

论文地址:https://arxiv.org/abs/2311.16502wCI品论天涯网

项目网站:https://mmmu-benchmark.github.io/wCI品论天涯网

数据集:https://huggingface.co/datasets/MMMU/MMMUwCI品论天涯网

代码:https://github.com/MMMU-Benchmark/MMMUwCI品论天涯网

MMMUs的问题涵盖了大学考试、测验和教科书,由50位来自不同学科的大学生收集,涉及了多种图像格式,从照片和绘画到图表和表格。这使得该基准不仅考察了常识和日常知识,还注重专业领域知识和高级推理。此外,MMMUs具有文本和图像混合的输入,要求AI模型在处理这种混合信息时展现深度学科知识和执行复杂推理的能力。wCI品论天涯网

在实验评估中,MMMUs展现出极大的难度,即使是当前最先进的GPT-4V也仅在55.7%的问题上取得准确答案,表明AI技术在这一领域仍有巨大的改进空间。通过这一基准的构建和评估,研究团队为进一步推动人工智能系统的发展和深入研究提供了有力的工具和参考。wCI品论天涯网

总体而言,MMMUs作为一项全面、具有挑战性的多模态AI测试基准,为评估专家级AGI的发展提供了新的视角和标准。这将有助于推动人工智能领域的发展,引领未来人工智能系统在多学科、多模态任务上取得更为卓越的成就。wCI品论天涯网

AI

本网除标明“PLTYW原创”的文章外,其它文章均为转载或者爬虫(PBot)抓取; 本文只代表作者个人观点,不代表本站观点,仅供大家学习参考。本网站属非谋利性质,旨在传播马克思主义和共产主义历史文献和参考资料。凡刊登的著作文献侵犯了作者、译者或版权持有人权益的,可来信联系本站删除。 本站邮箱[email protected]