人工智能

研究表明:GPT-4在图形推理任务上表现不佳,准确率仅33%

字号+作者: 来源:站长之家 2023-11-21 16:49 评论(创建话题) 收藏成功收藏本文

要点:美国圣塔菲研究所的研究显示,GPT-4在图形推理任务上的准确率仅为33%,而多模态版本GPT-4v的表现更差,只有25%。通过使用ConceptARC数据集,作者对451名'...

要点:CD4品论天涯网

美国圣塔菲研究所的研究显示,GPT-4在图形推理任务上的准确率仅为33%,而多模态版本GPT-4v的表现更差,只有25%。CD4品论天涯网

通过使用ConceptARC数据集,作者对451名人类受试者进行了图形推理任务测试,结果显示人类的平均正确率为91%,远高于GPT-4。CD4品论天涯网

研究者招募受试者的方式和GPT-4的输入方式引发了质疑,包括入门测试不足以筛选高质量受试者,样本的随机性受到争议,以及图像转换为数字矩阵可能改变概念等。CD4品论天涯网

站长之家(ChinaZ.com)11月21日 消息:最近的研究表明,GPT-4在图形推理任务上表现不佳,仅有33%的准确率,引发了对大型语言模型图形处理能力的关注。CD4品论天涯网

通过使用ConceptARC数据集,研究者对451名人类受试者进行了图形推理任务测试,结果显示人类在这方面表现卓越,平均准确率达到91%。CD4品论天涯网

image.pngCD4品论天涯网

论文地址:https://arxiv.org/pdf/2305.07141.pdfCD4品论天涯网

多模态版本GPT-4v的表现更差,只有25%的准确率。这凸显了在涉及图形处理的任务中,大型语言模型的多模态能力也受到限制。CD4品论天涯网

研究者使用ConceptARC数据集进行测试,其中包括16个子类的图形推理题,涵盖了位置关系、形状、操作、比较等多个方面的内容。CD4品论天涯网

然而,这项研究的方法引发了一些质疑,包括受试者招募的方式和GPT-4的输入方式。研究者在亚马逊众包平台上招募受试者,入门测试被认为不足以筛选高质量的受试者,样本的随机性受到争议。CD4品论天涯网

此外,GPT-4的输入方式也引发了一些争议,特别是将图像转换为数字矩阵可能改变概念,这使得一些人对实验结果的可信度产生疑问。综合而言,这项研究突显了目前大型语言模型在某些特定任务上的局限性,并提出了对研究方法的进一步审视的需求。CD4品论天涯网

GPT

本网除标明“PLTYW原创”的文章外,其它文章均为转载或者爬虫(PBot)抓取; 本文只代表作者个人观点,不代表本站观点,仅供大家学习参考。本网站属非谋利性质,旨在传播马克思主义和共产主义历史文献和参考资料。凡刊登的著作文献侵犯了作者、译者或版权持有人权益的,可来信联系本站删除。 本站邮箱[email protected]