Meta高管否认公司人为提高了Llama 4的基准测试分数-品论天涯网

Meta的一位高管周一否认了有关该公司训练其新AI模型以在特定基准上表现良好同时隐藏模型弱点的谣言。Meta的生成AI副总裁AhmadAl-Dahle在X上的一篇文章中表示，Meta在“测试集”上训练其Llama4Maverick和Llama4Scout模型“根本不是事实”。EgF品论天涯网

在AI基准测试中，测试集是用于评估模型训练后性能的数据集合。在测试集上进行训练可能会误导性地夸大模型的基准测试分数，使模型看起来比实际更强大。EgF品论天涯网

上周末，一则未经证实的谣言开始在X和Reddit上流传，称Meta人为提高了其新模型的基准测试结果。这条谣言似乎源自中国社交媒体网站上的一篇帖子，该帖子的作者是一名用户，他声称已从Meta辞职，以抗议该公司的基准测试做法。EgF品论天涯网

EgF品论天涯网

有关Maverick和Scout在某些任务上表现不佳的报道加剧了谣言，Meta决定使用未发布的实验性Maverick版本在基准LMArena上取得更好的分数也是如此。X上的研究人员观察到可公开下载的Maverick的行为与LMArena上托管的模型之间存在明显差异。 EgF品论天涯网

Al-Dahle承认，一些用户发现，在托管模型的不同云提供商之间，Maverick和Scout的质量“参差不齐”。EgF品论天涯网

“由于我们在模型准备就绪后就将其删除，因此我们预计所有公开实施需要几天时间才能完成，”Al-Dahle表示。“我们将继续努力修复错误并吸引合作伙伴。”EgF品论天涯网

相关文章:EgF品论天涯网

Llama4发布36小时差评如潮匿名员工爆料拒绝署名技术报告EgF品论天涯网

Llama4是开源模型的全面倒退？EgF品论天涯网