在AI基准测试中,测试集是用于评估模型训练后性能的数据集合。在测试集上进行训练可能会误导性地夸大模型的基准测试分数,使模型看起来比实际更强大。
上周末,一则未经证实的谣言开始在X和Reddit上流传,称Meta人为提高了其新模型的基准测试结果。这条谣言似乎源自中国社交媒体网站上的一篇帖子,该帖子的作者是一名用户,他声称已从Meta辞职,以抗议该公司的基准测试做法。
有关Maverick和Scout在某些任务上表现不佳的报道加剧了谣言,Meta决定使用未发布的实验性Maverick版本在基准LMArena上取得更好的分数也是如此。X上的研究人员 观察到可公开下载的Maverick的行为与LMArena上托管的模型之间存在明显差异。
Al-Dahle承认,一些用户发现,在托管模型的不同云提供商之间,Maverick和Scout的质量“参差不齐”。
“由于我们在模型准备就绪后就将其删除,因此我们预计所有公开实施需要几天时间才能完成,”Al-Dahle表示。“我们将继续努力修复错误并吸引合作伙伴。”
相关文章:
Llama4发布36小时差评如潮匿名员工爆料拒绝署名技术报告
Llama4是开源模型的全面倒退?

相关文章

头条焦点
精彩导读
关注我们
【查看完整讨论话题】 | 【用户登录】 | 【用户注册】