人工智能

Llama 4 是开源模型的全面倒退?

字号+作者:AI范儿 来源:AI范儿 2025-04-07 14:26 评论(创建话题) 收藏成功收藏本文

昨天,Meta正式推出新一代开源大模型Llama4,带来了两个混合专家(MoE)架构的版本:Scout(109B总参数,17B活跃参数)和Maverick(400B总参数,17B活跃参数)。这一代模型不'...

昨天,Meta正式推出新一代开源大模型Llama4,带来了两个混合专家(MoE)架构的版本:Scout(109B总参数,17B活跃参数)和Maverick(400B总参数,17B活跃参数)。这一代模型不仅原生支持图文输入,还将上下文窗口拓展至惊人的1000万token,在规格参数上堪称“顶配开源”。然而,随着初步评测和对比结果浮出水面,人们发现——它的实际表现,可能没有我们想象中那么强。nhc品论天涯网


nhc品论天涯网

“Llama4是开源模型的全面倒退。”——在Meta发布新一代大模型不到24小时内,这样的质疑声音已经出现在多个技术社区。Llama4真的不如前代?还是它只是“看起来拉胯、实则有料”?nhc品论天涯网

本文将基于ArtificialAnalysis的独立评估数据和社交媒体舆情,深入剖析Llama4的技术亮点、实际表现与竞品差距,并探讨这款“争议中亮相”的新模型究竟是开源未来,还是开源瓶颈的缩影。nhc品论天涯网

ArtificialAnalysis是一家专注于AI技术创新的公司,致力于提供高效的数据分析和智能解决方案,旨在加速人类解决问题。其前瞻性技术备受关注。吴恩达评论:“这是一个很棒的网站,测试LLMAPI速度,帮开发者选模型,补充了其他质量评估,对智能代理至关重要!”nhc品论天涯网

性能对比:差距不是一点,是一整条街nhc品论天涯网

ArtificialAnalysis通过其IntelligenceIndex(涵盖MMLU-Pro、GPQADiamond、HumanEval等非推理模型评估)对Llama4进行了独立测试,具体结果如下:nhc品论天涯网

1.总体性能(IntelligenceIndex)nhc品论天涯网


nhc品论天涯网

从最新的ArtificialAnalysisIntelligenceIndex综合榜单来看,Llama4的表现让人大跌眼镜。nhc品论天涯网

在这份集通用推理、科学推理、编码、数学等七项任务为一体的硬核评测中,Google的Gemini2.5Pro、xAI的Grok3、以及DeepSeekR1牢牢占据前三,综合得分分别为68、66和66,实力堪称天花板级别,属于开局即封神的选手。nhc品论天涯网

而反观刚刚发布的Llama4系列:nhc品论天涯网

-Maverick得分49,不仅被前述三强甩出十几分的距离,连OpenAI的GPT-4o和阿里的QwQ-32B都没打过,未能进入第一梯队,只能勉强跻身中游。nhc品论天涯网

-Scout得分仅为36,直接与GPT-4omini打成平手,甚至被Google的Gemma327B按在地上摩擦,表现惨不忍睹。nhc品论天涯网

这意味着,无论是旗舰定位的Maverick还是轻量版的Scout,都未能在关键指标上与主流竞品拉开差距。特别是Scout,不仅没展现出“小而强”的性价比,还在多项任务中落后于前代产品与同量级模型。nhc品论天涯网

一句话总结:“看起来很强,打起来很虚”,是当前市场对Llama4初版表现最真实的反馈。nhc品论天涯网


nhc品论天涯网

在非推理任务的对比中,Llama4的表现可谓喜忧参半。Maverick在开源模型中算得上发挥稳定,成功超越部分闭源竞品,展示出一定的专业处理能力。然而与顶级模型如DeepSeekV3和GPT-4o相比,依然存在明显差距,说明其综合实力尚未达到第一梯队的水平。nhc品论天涯网

Scout则更为克制,没有惊喜也没有翻车,整体表现与GPT-4omini相当,虽不具备突破性优势,但在资源受限场景下仍具备一定实用价值。nhc品论天涯网

总体来看,Llama4系列虽在非推理能力上具备一定基础,但距离“强通用、强专业”的开源标杆,还有一段路要走。它们更像是一次架构和方向的试水,而不是一举超车的终局之作。nhc品论天涯网

2.具体任务表现nhc品论天涯网

ArtificialAnalysis的评估数据(详见附图)涵盖了通用推理、科学推理、编码和数学等多个领域,我将相关任务合并分析,聚焦Llama4(Scout和Maverick)的表现趋势,并与主要竞品DeepSeekV3、Claude3.7Sonnet、和GPT-4omini对比,揭示其优势与不足。以下简要补充各指标的含义和重要性,帮助理解评估维度。nhc品论天涯网

1)通用推理:稳中有位,但缺乏突破nhc品论天涯网

通用推理评估模型在广泛知识和综合推理能力上的表现,MMLU-Pro覆盖57个学科的知识广度,Humanity’sLastExam则测试复杂推理能力。这类指标对衡量模型在教育、问答等通用场景的适用性至关重要。nhc品论天涯网

Maverick在通用推理任务中表现稳健,在MMLU-Pro中排名靠前,与GPT-4o、Claude3.7Sonnet等模型同等,但略逊于DeepSeekV3V3(Mar25)。Scout的表现则比较落后,低于MistralSmall3和GPT-4omini。nhc品论天涯网


nhc品论天涯网

在Humanity’sLastExam中,Maverick同样位列前茅,接近DeepSeekV3(Mar25),优于GPT-4o和Claude3.7Sonnet,Scout则排名中游,略高于MistralSmall和GPT-4omini。nhc品论天涯网


nhc品论天涯网

结论:在通用推理相关任务中,Maverick的表现整体可圈可点,尤其在知识广度和复杂推理方面接近一线闭源模型,虽然略逊于DeepSeekV3,但基本站稳中上游位置。Scout则明显吃力,整体排名不高,甚至落后于部分轻量模型,反映出其在处理广义知识类任务时的适应能力仍待加强。nhc品论天涯网

2)科学推理:开源难题,Llama4未解nhc品论天涯网

科学推理通过GPQADiamond测试模型在生物、物理、化学等领域的专业推理能力,强调多步推理和深度理解,对评估模型在学术研究、技术文档处理等专业场景的表现尤为重要。nhc品论天涯网


nhc品论天涯网

Maverick在科学推理任务中的表现显著低于DeepSeekV3和Claude3.7Sonnet的水平,排名靠后,未能展现出与顶级模型竞争的能力。Scout的表现则稍显逊色,不仅远低于GPT-4omini,甚至低于Meta自己的Llama3.370B,显示其在专业领域推理上的明显不足。nhc品论天涯网

结论:面对生物、物理、化学等专业领域的深度推理任务,Llama4表现疲软,尤其是Maverick,虽为高配模型,却未能在多步逻辑和专业理解上展现出预期能力,明显落后于Claude和DeepSeek。Scout的表现则更加堪忧,不仅输给GPT-4omini,甚至被Llama3.370B反超,显示其在学术和技术类场景中的适用性非常有限。nhc品论天涯网

3)编码能力:基础乏力,高难勉强及格nhc品论天涯网

Maverick在编码任务中的表现未达预期。在基础编码能力(HumanEval)上,Maverick远低于GPT-4o、Claude3.7Sonnet以及DeepSeekV3,仅达到GPT-4omini的水平,显示其在基础代码生成上的竞争力不足。nhc品论天涯网


nhc品论天涯网

在更具挑战性的竞赛级编码(LiveCodeBench)和科学编码(SciCode)任务中,Maverick的表现进一步回落,与DeepSeekV3和Claude3.7Sonnet的差距不太明显。nhc品论天涯网


nhc品论天涯网

Scout在基础编码和科学编程任务中表现垫底,排名靠后,远低于大多数竞品。然而,在高难度编码任务(LiveCodeBench)中,Scout的表现意外接近中位值,与Claude3.5Haiku水平相当,展现了一定的潜力。nhc品论天涯网

结论:Maverick在代码生成任务中并未脱颖而出,基础编程任务的完成度不高,与领先模型存在明显差距。面对竞赛级和科学编程挑战时,其表现更为拉胯,难以支撑复杂开发需求。Scout则在大部分编码任务中垫底,虽在高难度挑战中偶有亮点,但整体竞争力仍偏弱,不具备“开发者友好”的实用价值。nhc品论天涯网

4)数学:基础尚可,高阶失守nhc品论天涯网

数学任务评估模型的定量推理能力,MATH-500测试常规数学问题解决能力,AIME2024则聚焦高难度竞赛级数学推理。这类指标对教育、科学研究和金融建模等需要强大数学能力的场景尤为关键。nhc品论天涯网

Maverick在定量推理任务(MATH-500)中表现较为稳健,排名靠前,超越Claude3.7Sonnet,但与DeepSeekV3仍存在一定差距,显示其在常规数学问题解决上的竞争力。Scout的表现同样可圈可点,优于GPT-4omini,并接近Claude3.7Sonnet的水平,展现了不错的基础数学能力。nhc品论天涯网


nhc品论天涯网

然而,在高难度的竞赛级数学推理任务(AIME2024)中,Maverick表现不佳,远落后于DeepSeekV3,仅略高于GPT-4o。nhc品论天涯网


nhc品论天涯网

结论:在数学推理方面,Llama4两个版本表现出较为明显的分化。Maverick在基础数学任务中稳健发挥,部分场景甚至可与主流闭源模型媲美,Scout也展现出一定的定量推理能力,优于部分轻量模型。然而,进入竞赛级高难度数学任务后,两者均显得力不从心,与DeepSeekV3等强模型的差距明显拉大,暴露出复杂推理能力上的短板。nhc品论天涯网

总结:差距不是一点,是一整条街nhc品论天涯网

综合来看,Llama4(Maverick和Scout)在非语言生成的关键能力维度上,与DeepSeekV3之间存在系统性差距。Maverick虽有部分亮点,但始终处于“差一点”的状态,在科学推理、编码和高阶数学上几乎全面落后。Scout的表现则更为惨烈,不仅被DeepSeekV3和Claude系列全面碾压,甚至在多个维度不敌小模型选手,令人质疑其在专业场景中的实际价值。nhc品论天涯网

Llama4所展示的更多是架构层面的潜力,而非实打实的能力跃迁。除非在未来版本中针对专业推理、复杂任务场景进行重点优化,否则很难在真正需要“硬实力”的场合,成为开源替代品的第一选择。nhc品论天涯网

模型效率nhc品论天涯网


nhc品论天涯网

与DeepSeekV3相比,Llama4Maverick的活跃参数大约只有其一半(17B对37B),总参数也仅为其60%左右(402B对671B),这表明Maverick以更高的效率实现了其性能表现。此外,Maverick还支持图像输入,而DeepSeekV3则不具备这一功能。nhc品论天涯网

价格nhc品论天涯网


nhc品论天涯网

ArtificialAnalysis追踪6家服务提供商,并对比评估了Maverick的中位价格为每百万输入/输出token0.24美元/0.77美元,而Scout的定价为每百万输入/输出token0.15美元/0.4美元,其价格不仅低于DeepSeekv3,相比OpenAI领先的GPT-4o接口更是便宜超过10倍。nhc品论天涯网

最后nhc品论天涯网

那么,Llama4到底是不是“开源模型的全面倒退”?从目前的测试结果来看,这种说法虽显极端,却并非毫无根据。nhc品论天涯网

在多个关键任务中,Maverick勉强追平主流闭源模型的尾巴,而Scout则在小模型领域表现平平,甚至被自家的Llama3.370B反超。相比之下,DeepSeekV3的统治力更像是给所有开源模型泼了一盆冷水。nhc品论天涯网

但退一步看,开源的价值不止于性能指标,更在于长期可控性、社区生态与开放创新的累积潜力。Llama4的多模态架构、超长上下文和低廉定价,依然在为未来铺路——也许不是现在碾压闭源的“终极答案”,但可能是通往答案的那一步。nhc品论天涯网

最终,它是倒退还是转折,要看Meta和整个开源社区,能否在质疑声中继续优化、快速迭代,把短板变成支点。真正的竞争,还远远没有结束。nhc品论天涯网

本网除标明“PLTYW原创”的文章外,其它文章均为转载或者爬虫(PBot)抓取; 本文只代表作者个人观点,不代表本站观点,仅供大家学习参考。本网站属非谋利性质,旨在传播马克思主义和共产主义历史文献和参考资料。凡刊登的著作文献侵犯了作者、译者或版权持有人权益的,可来信联系本站删除。 本站邮箱[email protected]