人工智能

HuggingFace搭建新系统测试模型能力 通义千问排名第一 部分模型被发现作弊

字号+作者: 来源:蓝点网 2024-06-28 15:29 评论(创建话题) 收藏成功收藏本文

知名模型托管平台HuggingFace日前使用300张NVIDIAH100AI加速卡构建了一个新系统用来测试开源和开放的人工智能模型,此次测试使用MMLU-Pro等AI模型测试集'...

知名模型托管平台HuggingFace日前使用300张NVIDIAH100AI加速卡构建了一个新系统用来测试开源和开放的人工智能模型,此次测试使用MMLU-Pro等AI模型测试集,较此前的测试集难度有所提升。jxM品论天涯网

该平台称以前的数据测试集对于现在新推出的模型来说实在是太简单了,就像是拿初中试卷给高中生考试一样,因此无法真正有效的评估模型能力。jxM品论天涯网

而且出于营销和宣传考虑,部分模型实际上存在作弊行为,即使用经过优化的提示词或评估设置来为模型提供最佳机会,这样可以取得更高的分数。jxM品论天涯网

这种情况就像是部分Android厂商在进行跑分测试时会冻结其他应用释放内存和降低CPU使用率,甚至还会通过外部硬件进行降温来获得更过的基准测试分数。jxM品论天涯网

jxM品论天涯网

基于这种原因HuggingFace此前构建了OpenLLMLeaderboard,通过设置完全相同的问题、相同的排序等来评估模型,收集在真实世界中用户也可以重现和可比较的结果。jxM品论天涯网

现在为了尽可能获得真实有效的评估结果,HuggingFace推出了OpenLLMLeaderboardv2版,使用300张英伟达的H100加速卡和数据集对模型进行了重新评估。jxM品论天涯网

在最新发布的测试中,阿里云推出的通义千问系列模型超过MetaLlama系列模型成为综合能力最强的模型,获得第一的具体模型是通义千问Qwen-72B版。jxM品论天涯网

此次测试有几个特点:jxM品论天涯网

  • 测试显示模型参数规模并不是越大越好,也就是有些超大规模参数的模型能力也不是特别好jxM品论天涯网

  • 新的评测有效解决了此前评测难度太低的问题,可以更好的反映目前模型的真实能力jxM品论天涯网

  • 有迹象表明AI公司开始关注于主要测试,而忽略了其他方面的表现,也就是只关注跑分jxM品论天涯网

  • 这应该是目前AI行业里首次有明确提到测试作弊的说法,也就是一些开发商现在可能会侧重于对基准测试进行优化以取得更好的分数,这种情况显然是不好的,但由于AI公司现在实在是太多,这些公司为了表现自己用于宣传或融资等目的,只能尽可能优化分数来吸引人注意。jxM品论天涯网

    除了常规的作弊方法外(就是上面提到的使用优化后的提示词和测试设置),这种针对基准测试进行优化的做法难以发现,未来行业可能要花费更多时间构建更独特的测试集来评估模型。jxM品论天涯网

    本网除标明“PLTYW原创”的文章外,其它文章均为转载或者爬虫(PBot)抓取; 本文只代表作者个人观点,不代表本站观点,仅供大家学习参考。本网站属非谋利性质,旨在传播马克思主义和共产主义历史文献和参考资料。凡刊登的著作文献侵犯了作者、译者或版权持有人权益的,可来信联系本站删除。 本站邮箱[email protected]