人工智能

Llama 4全网首测来袭:3台Mac狂飙2万亿 多模态惊艳代码却翻车

字号+作者:量子位 来源:量子位 2025-04-08 10:12 评论(创建话题) 收藏成功收藏本文

Llama4家族周末突袭,实属意外。这场AI领域的“闪电战”不仅带来了两款全新架构的开源模型,更揭示了一个惊人事实:苹果Mac设备或将成为部署大型AI模型的“'...

Llama4家族周末突袭,实属意外。这场AI领域的“闪电战”不仅带来了两款全新架构的开源模型,更揭示了一个惊人事实:苹果Mac设备或将成为部署大型AI模型的“性价比之王”。谁也没料到,大周末的,小扎竟然开源了Llama4家族。x83品论天涯网


x83品论天涯网


x83品论天涯网

一共三款模型,首次采用MoE架构,开启了原生多模态的Llama时代!x83品论天涯网

Llama4Scout,激活17B,16个专家,109B参数;x83品论天涯网

Llama4Maverick,激活17B,128个专家,402B参数;x83品论天涯网

Llama4Behemoth,激活288B,16个专家,2T参数。x83品论天涯网

Llama4发布后排名瞬间跃升,甚至超过了DeepSeek-V3,Meta再一次回到牌桌。x83品论天涯网


x83品论天涯网

业界首个1000万上下文,RAG已死?x83品论天涯网

Meta宣称Llama-4-Scout-17B-16E测试中好于Gemma3、Gemini2.0Flash-Lite和Mistral3.1。甚至,小扎剧透了推理模型也不远了。x83品论天涯网


x83品论天涯网

但也有网友调侃Llama4这次是“赶鸭子上架”,所以Llama4性能到底如何,请看下面网友的实测。x83品论天涯网

稀疏MoE模型,和苹果芯堪称天作之合x83品论天涯网

当前,第一批测试结果已经出来了!x83品论天涯网

苹果ML工程师AwniHannun实测,Llama4Maverick在单台M3Ultra-512GB上使用MLX推理框架时速度极快,达到了50token/秒!x83品论天涯网


x83品论天涯网

与DeepSeekV3/R1类似,Llama4系都是巨大的稀疏MoE模型。x83品论天涯网

这些模型拥有极其庞大的参数量,但每次只有少量参数(专家)被激活。由于事先无法预测哪些参数会被激活,因此必须把所有参数同时存放在高速的GPU显存中。x83品论天涯网

为何对于开源模型,社区大佬都倾向于使用苹果芯片去测试?x83品论天涯网


x83品论天涯网

一方面,是因为买不到英伟达H100啊。x83品论天涯网


x83品论天涯网

AwniHannun表示,更重要的是Apple芯片适合稀疏模型。x83品论天涯网

GPU显存速度快,但成本昂贵。然而AppleSilicon通过统一内存(UnifiedMemory)和UltraFusion技术融合多个芯片,使其能够以更低的成本提供更大容量、中等速度的内存。x83品论天涯网

一个月前发布的M3UltraMacStudio的统一内存容量高达512GB!x83品论天涯网

然而,当内存容量增大到这个程度时,内存带宽就不足了。对于512GB版本来说,内存刷新率(每秒GPU可完整遍历所有内存的次数,即内存带宽与容量之比)只有1.56次/秒。与其他硬件对比如下:x83品论天涯网

NVIDIAH100(80GB):37.5次/秒x83品论天涯网

AMDMI300X(192GB):27.6次/秒x83品论天涯网

AppleM2Ultra(192GB):4.16次/秒(比H100慢9倍)x83品论天涯网

AppleM3Ultra(512GB):1.56次/秒(比H100慢24倍)x83品论天涯网

理想情况下,工作负载特性应与硬件特性相匹配。否则,硬件会存在浪费(性能过剩)或瓶颈(性能不足)。对工作负载(此处为批大小=1的推理任务)而言,关键特性是模型稀疏度。x83品论天涯网

模型的稀疏度定义为1-(激活参数数/总参数数)。x83品论天涯网

稠密模型稀疏度为0%(因为激活参数=总参数)。各模型稀疏度如下:x83品论天涯网

Llama3.3405B:总参数=405B,激活参数=405B,稀疏度=0%x83品论天涯网

DeepSeekV3/R1:总参数=671B,激活参数=37B,稀疏度=94.4%x83品论天涯网

Llama4Scout:总参数=109B,激活参数=17B,稀疏度=84.4%x83品论天涯网

Llama4Maverick:总参数=400B,激活参数=17B,稀疏度=95.75%(非常高!)x83品论天涯网

Llama4Behemoth:总参数=2T,激活参数=288B,稀疏度=85.6%x83品论天涯网

一般来说,稀疏度越高,越适合内存刷新率较低的AppleSilicon。因此,Llama4Maverick显然是最适合AppleSilicon的模型。x83品论天涯网

另外更重要的原因就是AppleSilicon是运行大模型最具成本效益的方案,因为统一内存每GB的成本远低于GPU显存:x83品论天涯网

NVIDIAH100:80GB,3TB/s,售价$25,000,每GB成本$312.50x83品论天涯网

AMDMI300X:192GB,5.3TB/s,售价$20,000,每GB成本$104.17x83品论天涯网

AppleM3Ultra:512GB,800GB/s,售价$9,500,每GB成本$18.55x83品论天涯网

以2万亿参数巨兽Llama4Behemoth为例。x83品论天涯网

考虑到若用H100来完整容纳Behemoth模型(fp16精度),则需要50块H100,总成本为125万美元;x83品论天涯网

MI300X的总成本则为42万美元;x83品论天涯网

但若使用M3Ultra,总成本仅为7.6万美元!x83品论天涯网

以下是网友@alexocheema对不同版本Mac运行新Llama4版本的情况进行了全面分析。x83品论天涯网


x83品论天涯网

Llama4这次发布的模型最大一个优点之一就是稀疏模型,这给了本地部署很多想象力,也是开源模型的使命。x83品论天涯网

以精度4-bit为例,使用MLX推理框架可以在具有足够RAM的Mac上部署这些模型。x83品论天涯网

网友@awnihannun总结了部署Llama4最新三个模型所需要的最小配置,几乎都可以完成本地部署:x83品论天涯网

Llama4Scout109B参数:64GB的M4Max;x83品论天涯网

Llama4Maverick400B参数:256GB的M3Ultra;x83品论天涯网

Llama4Behemoth2T参数:3台512GB的M3Ultra;x83品论天涯网


x83品论天涯网

Llama4很强,就是写代码有点菜x83品论天涯网

说完了硬件,再来看看Llama4的实测效果。x83品论天涯网

网友@gnukeith测试了Llama4的多模态能力,让模型识别图片中的人物来自于哪个动漫,Llama成功识别!x83品论天涯网


x83品论天涯网

网友@attentionmech制作了一个模型视觉化网页(简单说就是看模型有多少层,有多深),Llama4视觉上看起来确实令人惊叹。x83品论天涯网


x83品论天涯网

网友@philip_kiely使用Llama4(Maverick)轻松击败了BrickBreaker氛围测试。x83品论天涯网


x83品论天涯网

当然,也有翻车的,比如网友@fighto测试了“喜闻乐见”的让模型数r的问题,Llama4Maverick回答错误。x83品论天涯网


x83品论天涯网

网友@tariquesha1测试了Llama4的图像生成能力。x83品论天涯网


x83品论天涯网

再来看看Llama4写代码的实战案例。x83品论天涯网

网友AlexBefest宣布Llama4Maverick——Python六边形测试失败。Python六边形测试可以说是每个新发布大模型的“试金石”了。x83品论天涯网


x83品论天涯网

下面展示了其他模型在Python六边形测试弹跳小球上的结果,来自Github的KCORES团队。x83品论天涯网


x83品论天涯网

KCORES团队成员karminski-牙医发布了Llama4Scout和Llama4Maverick的测试结果。x83品论天涯网


x83品论天涯网

用他的话说,Llama4Scout小参数模型开心就好;足足有402B参数的Maverick模型的表现并不是很满意:x83品论天涯网

Scout小参数模型大概接近Grok2的水平(咋还倒退了);x83品论天涯网

而Mavericks还不如使用DeepSeek-V3-0324;x83品论天涯网

总之不建议Llama4写代码x83品论天涯网


x83品论天涯网

按照KCORESLLMArena的评测结果,目前最好的模型GPT-4.5-Preview。x83品论天涯网


x83品论天涯网

当然,目前的测试只针对写代码,其他长文本和多模态领域还需要更多的测试案例。x83品论天涯网

Llama4的另一个突破就是支持10M的上下文窗口长度,相当于20个小时的视频。x83品论天涯网


x83品论天涯网

全网部署Llama4x83品论天涯网

不管怎么说Llama4的发布依然是开源模型的又一剂强心针。x83品论天涯网

各家巨头和平台同时宣布支持最新的Llama4。x83品论天涯网

微软CEOSatyaNadella宣布马上将Scout和Maverick发布在AzureAIFoundry平台。x83品论天涯网


x83品论天涯网

Cerebras宣布将在下周完成Llama4最新模型的部署。x83品论天涯网


x83品论天涯网

TogetherAI上也同步推出Llama4模型,作为Meta的发布合作伙伴,还支持TogetherAPI的方式来访问Llama4Maverick和Llama4Scout。x83品论天涯网


x83品论天涯网

T3Chat也宣布Llama4Scout和Maverick均已启动,Scout由Groq托管,而Maverick由OpenRouter托管,并且声明了小参数模型Scout非常便宜,决定免费发布。x83品论天涯网


x83品论天涯网

Databricks数据智能平台宣布使用Llama模型来为AI应用程序、智能体和工作流程提供支持。x83品论天涯网


x83品论天涯网

接下来还会有更多的平台跟进Llama4最新模型,就像几个月前各家平台也是“疯狂”上线DeepSeek一样。x83品论天涯网

还有一个问题,为啥小扎选在他们的休息日发布Llama4,马上就周一了啊?x83品论天涯网

Defined和Liftoff的联合创始人NathanLambert说顶尖Lab的领导们都会知道其他Labs的发布计划。x83品论天涯网

难道说小扎知道下周会有什么“疯狂”的模型发布可能会盖过Llama4的风头,所以“赶鸭子上架”吗。x83品论天涯网


x83品论天涯网

首先在Llama4的GithubModel_Card的更新日志中,发现一个改动:x83品论天涯网

模型发布的日期从美国时间的4月7号改到了4月5号(也就是我们4月6号的凌晨)!x83品论天涯网


x83品论天涯网

所以,周一Meta还会发布什么新模型吗?x83品论天涯网

在llama.com的官网上,我们看到了llama4-resoning-is-coming的后缀,似乎预示着llama-4推理模型也要马上发布了!x83品论天涯网


x83品论天涯网

而奥特曼继续放出他的烟雾弹,在社交媒体不停的预热:OpenAI接下来也要放大招了!x83品论天涯网


x83品论天涯网

而不论是此前奥特曼宣布GPT5、o3和o4-mini的消息,还是Llama4的发布,还是DeepSeek和清华共同发布的论文,似乎预示着一件事:x83品论天涯网

所有人都在等待并期待着DeepSeek-R2!x83品论天涯网


x83品论天涯网

请大家做好准备,也许下周即将是“疯狂”的一周。x83品论天涯网

本网除标明“PLTYW原创”的文章外,其它文章均为转载或者爬虫(PBot)抓取; 本文只代表作者个人观点,不代表本站观点,仅供大家学习参考。本网站属非谋利性质,旨在传播马克思主义和共产主义历史文献和参考资料。凡刊登的著作文献侵犯了作者、译者或版权持有人权益的,可来信联系本站删除。 本站邮箱[email protected]