人工智能

Meta的Maverick AI模型在基准测试中的排名已明显低于竞争对手

字号+作者:cnBeta.COM 来源:cnBeta 2025-04-12 11:04 评论(创建话题) 收藏成功收藏本文

本周早些时候,Meta因使用其Llama4Maverick模型的未发布实验版本在众包基准测试LMArena上取得高分而陷入困境。此事促使LMArena的维护人员道歉,并修改了他'...

本周早些时候,Meta因使用其Llama4Maverick模型的未发布实验版本在众包基准测试LMArena上取得高分而陷入困境。此事促使LMArena的维护人员道歉,并修改了他们的政策,并使用未经修改的原版Maverick进行评分。事实证明,它的竞争力并不强。64y品论天涯网

64y品论天涯网

截至周五,未经修改的Maverick模型“Llama-4-Maverick-17B-128E-Instruct”的排名低于OpenAI的GPT-4o、Anthropic的Claude3.5Sonnet和Google的Gemini1.5Pro等模型。这些模型中有许多甚至都是几个月前推出的。64y品论天涯网

为什么表现不佳?Meta上周六发布的图表中解释道,其实验性的Maverick模型Llama-4-Maverick-03-26-Experimental已“针对对话性进行了优化”。这些优化显然在LMArena中表现出色,因为该平台要求人类评分员比较各个模型的输出,并选择他们更倾向于哪个模型。64y品论天涯网

64y品论天涯网

由于各种原因,LMArena从来都不是衡量AI模型性能的最可靠指标。然而,根据基准定制模型——除了具有误导性之外——也使得开发人员难以准确预测模型在不同环境下的表现。64y品论天涯网

Meta发言人在一份声明中表示,Meta尝试了“所有类型的自定义变体”。64y品论天涯网

“‘Llama-4-Maverick-03-26-Experimental’是我们测试过的聊天优化版本,在LMArena上也表现良好,”该发言人表示。“我们现在已经发布了开源版本,并将观察开发者如何根据自身用例定制Llama4。我们非常期待看到他们最终的成果,并期待他们持续的反馈。”64y品论天涯网

本网除标明“PLTYW原创”的文章外,其它文章均为转载或者爬虫(PBot)抓取; 本文只代表作者个人观点,不代表本站观点,仅供大家学习参考。本网站属非谋利性质,旨在传播马克思主义和共产主义历史文献和参考资料。凡刊登的著作文献侵犯了作者、译者或版权持有人权益的,可来信联系本站删除。 本站邮箱service@pltyw.com

33
扫二维码添加收藏返回顶部