Meta 143亿挖角后首个作品 Alexandr Wang 推出闭源模型杨立坤点赞-品论天涯网

沉寂了9个月后，这位让扎克伯克花了143亿美元挖来的天才少年AlexandrWang终于交出了首个作品。9Zl品论天涯网

9Zl品论天涯网

昨夜，Meta正式发布新一代模型MuseSpark，代号Avocado，就是外界传了很久的“牛油果”。这是其内部AI组织MetaSuperintelligenceLabs在战略重组后的首个落地产品，也被视为这家科技巨头迈向“个人超级智能”路线图的起点。9Zl品论天涯网

9Zl品论天涯网

AlexandrWang甚至激动地在X上连发九条推文介绍该模型。9Zl品论天涯网

与此前侧重语言能力的模型不同，MuseSpark从一开始就被定义为“原生多模态推理模型”。它不仅能够处理文本，还能理解图像、环境信息，并在此基础上进行推理、调用工具，甚至与其他智能体协同完成复杂任务。9Zl品论天涯网

这种能力组合，意味着Meta正试图将AI从“对话工具”升级为“行动系统”。9Zl品论天涯网

MuseSpark的发布，并非一次单点技术升级，而更像是MetaAI战略的一次整体转向。9Zl品论天涯网

过去一年，Meta在AI领域经历了明显的路径调整。从开源导向的Llama系列，到如今强调“超级智能”的闭环系统能力，核心变化在于：不再单纯追求模型能力本身，而是强调“模型+工具+环境+多智能体”的系统级协同。9Zl品论天涯网

MuseSpark正是这一思路的首个成型产品。9Zl品论天涯网

官方披露，为支撑这一方向，Meta正在对整个技术栈进行重构，包括模型训练、数据管理以及底层基础设施。其中，名为Hyperion的新一代数据中心被明确点名，成为未来大规模模型扩展的关键支撑。9Zl品论天涯网

性能媲美GeminiPro和GPT5.49Zl品论天涯网

在能力层面，MuseSpark的核心突破集中在“多模态推理”。9Zl品论天涯网

Meta在官方博客中表示：“在过去的九个月里，我们彻底重建了人工智能堆栈，速度比以往任何开发周期都要快。这个初始模型的设计初衷就是体积小、速度快，但却足以应对科学、数学和健康领域的复杂问题。这是一个强大的基础，下一代模型已经在开发中。”9Zl品论天涯网

9Zl品论天涯网

据介绍，Meta还发布了“思考模式”，该模式可协调多个智能体并行推理。这使得MuseSpark能够与GeminiDeepThink和GPTPro等前沿模型的极限推理模式相媲美。“思考模式”显著提升了MuseSpark在挑战性任务中的能力，在“人类最后的考试”任务中取得了58%的完成率，在“前沿科学研究”任务中取得了38%的完成率。9Zl品论天涯网

9Zl品论天涯网

不同于传统视觉模型仅能识别图像内容，MuseSpark被设计为能够将视觉信息与推理过程深度融合。例如，在STEM问题、物体识别与空间定位等场景中，它不仅能“看见”，还能“理解并推导”。9Zl品论天涯网

这种能力使其可以直接参与实际任务。例如：9Zl品论天涯网

通过摄像头分析家电状态，并用动态标注辅助用户排查故障9Zl品论天涯网

根据视觉输入生成互动内容，如小游戏或教学演示9Zl品论天涯网

在复杂环境中进行实时决策辅助9Zl品论天涯网

更关键的是，MuseSpark支持“可视化思维链”（visualchain-of-thought），即将推理过程以可视形式呈现。这一设计不仅提升了可解释性，也为复杂任务的人机协作提供了新的交互范式。9Zl品论天涯网

Meta此次特别强调了MuseSpark在健康领域的应用潜力。9Zl品论天涯网

据介绍，Meta与超过1000名医生合作构建训练数据，使模型在健康推理上具备更高的专业性与可靠性。基于这一能力，MuseSpark可以生成带交互界面的分析结果，例如：9Zl品论天涯网

食物营养结构的可视化拆解9Zl品论天涯网

运动过程中肌肉激活情况的动态展示9Zl品论天涯网

个性化饮食建议（结合用户健康状况）9Zl品论天涯网

这类能力的本质，是将AI从“信息提供者”升级为“决策辅助系统”。9Zl品论天涯网

在技术层面，Meta把另一个重点放在“扩展效率”上。9Zl品论天涯网

官方披露，在过去九个月中，团队重构了预训练体系，包括模型架构、优化方法和数据管理流程。结果是：在达到相同性能的前提下，MuseSpark所需的训练计算量（FLOPs）相比上一代模型（如Llama4Maverick）下降了一个数量级以上。9Zl品论天涯网

这一结果具有明确的行业意义。9Zl品论天涯网

过去两年，大模型竞争很大程度上依赖“堆算力”。而Meta此次强调的，是通过工程优化提升“单位算力产出”。换句话说，其试图证明：性能增长不必完全依赖指数级资源投入。9Zl品论天涯网

9Zl品论天涯网

提示：你能把它转换成一个我可以在网上玩的数独游戏吗？9Zl品论天涯网

技术实现细节完整披露9Zl品论天涯网

在官方技术博客中，Meta详细介绍了他们如何从三个维度研究和追踪MuseSpark的扩展特性：预训练、强化学习和测试时推理。9Zl品论天涯网

预训练。在预训练阶段，MuseSpark获得其核心的多模态理解、推理和编码能力——这是强化学习和测试时计算的基础。9Zl品论天涯网

Meta重构了预训练堆栈，改进了模型架构、优化和数据管理。这些改进共同提升了其利用每一单位计算资源所能达到的性能。为了严格评估新方案，Meta研发团队对一系列小型模型拟合了一个扩展定律，并比较了达到特定性能水平所需的训练浮点运算次数（FLOPs）。结果显而易见：与之前的模型Llama4Maverick相比，他们用少一个数量级以上的计算资源就能达到相同的性能。这一改进也使得MuseSpark比目前可供比较的领先基础模型效率更高。9Zl品论天涯网

9Zl品论天涯网

强化学习。经过预训练后，强化学习(RL)利用计算能力可扩展地提升模型性能。尽管大规模强化学习历来容易出现不稳定，但Meta的新技术栈能够带来平稳、可预测的性能提升。9Zl品论天涯网

下图展示了扩展MuseSpark的强化学习(RL)计算能力（以步数衡量）所带来的益处。左图显示，在训练数据上，pass@1和pass@16（16次尝试中至少成功一次）的数值呈对数线性增长。这表明强化学习在不影响推理多样性的前提下提高了模型的可靠性。右图显示，在预留的评估集上准确率的增长表明，强化学习带来的收益具有可预测的泛化能力：MuseSpark在训练中未遇到的任务上也表现良好。9Zl品论天涯网

9Zl品论天涯网

测试时推理。强化学习训练模型在回答问题前进行“思考”——这一过程被称为测试时推理。要让数十亿用户拥有这种能力，就需要高效利用推理令牌。为此，研发团队依靠两个关键手段：一是思考时间惩罚，用于优化token使用；二是多智能体编排，用于在不降低响应速度的前提下提升性能。9Zl品论天涯网

为了在每个token上实现最高的智能水平，强化学习训练在增加思考时间的前提下，最大化正确率。在诸如AIME等部分评估任务中，这会导致阶段性转变。在初始阶段，模型通过延长思考时间来提升性能；之后，思考时间的惩罚会促使模型进行思维压缩——MuseSpark会压缩其推理过程，从而使用更少的token解决问题。压缩之后，模型会再次扩展其解决方案，以获得更强的性能。9Zl品论天涯网

9Zl品论天涯网

为了在不显著增加延迟的情况下，将更多时间用于测试时的推理，可以扩展协作解决难题的并行智能体的数量。下图展示了这种方法的优势。标准的测试时扩展方法会使单个智能体思考更长时间，而采用多智能体思维的MuseSpark扩展方法则可以在保持相当延迟的情况下实现更高的性能。9Zl品论天涯网

9Zl品论天涯网

在安全层面，Meta表示已在部署前对MuseSpark进行系统性评估，依据其更新后的“高级人工智能扩展框架”（AdvancedAIScalingFramework），对威胁模型、评估流程及上线标准进行了统一规范。9Zl品论天涯网

评估重点覆盖前沿风险（如生物与化学领域）、行为一致性以及对抗鲁棒性，并在安全措施实施前后进行对比测试。结果显示，MuseSpark在涉及高风险内容时表现出明显的拒绝倾向，这主要得益于数据过滤、后训练安全对齐及系统级防护的多层机制。9Zl品论天涯网

Meta同时指出，在网络攻击或“失控”场景中，当前模型尚不具备执行复杂威胁任务的自主能力。整体来看，MuseSpark在已评估的风险范围内处于可控水平，更多细节将于后续《安全与准备报告》中披露。9Zl品论天涯网

9Zl品论天涯网

网友：模型强不强不知道，9Zl品论天涯网

但闭源让人失望9Zl品论天涯网

MuseSpark的发布在技术社区引发了巨大反响，StabilityAI创始人EmadMostaque及Meta前首席科学家YannLeCun、Coinbase联创兼CEOBrianArmstrong等大佬纷纷在x上向AlexandrWang和Meta表示祝贺。9Zl品论天涯网

9Zl品论天涯网

另一方面，普通网友和部分开发者则聚焦于实际应用层面相关问题展开了争论。9Zl品论天涯网

有网友表示，该模型在排行榜上的表现令人印象深刻，但好奇Meta是否也会在智能体编码领域展开竞争？9Zl品论天涯网

9Zl品论天涯网

还有网友表示，新模型的多代理编排部分很有意思，MuseSpark能原生处理这个问题，是一个真正的突破。他写道：“我一直在单体仓库的不同模块上运行并行的ClaudeCode代理，协调开销非常大。如果MuseSpark能原生处理这个问题，对于大型代码库的复杂重构来说，这将是一个真正的突破。”9Zl品论天涯网

9Zl品论天涯网

有网友认为，Meta能在短时间内构建出性能如此强大的模型，为以后的基础设施建设打下了坚实基础。他评论：9Zl品论天涯网

“从零开始重建了整个堆栈，计算能力比Maverick低10倍，性能却与之匹敌。这9个月的基础设施建设工作构成了制胜的护城河。”9Zl品论天涯网

9Zl品论天涯网

还有网友将Meta的新模型与Opus4.5进行了对比，认为“牛油果”表现逊色于Opus4.5。9Zl品论天涯网

9Zl品论天涯网

值得注意的是，Meta此次发布的新模型走的是闭源路线，与此前一直主张的开源模型完全相反，这样一些x用户感到失望。9Zl品论天涯网

9Zl品论天涯网

也有网友认为，Meta这次之所以将模型闭源，是因为此前的一系列开源没有为股东创造足够价值。9Zl品论天涯网

9Zl品论天涯网

迈向“个人超级智能”，9Zl品论天涯网

仍有很长的路要走9Zl品论天涯网

尽管Meta将MuseSpark定义为“个人超级智能”的起点，但其也明确承认，目前仍存在明显短板。尤其是在两个关键领域：9Zl品论天涯网

长时程智能体（long-horizonagents）9Zl品论天涯网

编码与复杂工作流9Zl品论天涯网

这意味着，虽然模型已经具备多模态与推理能力，但在持续执行复杂任务、长链条决策等方面，仍未达到真正“代理人级别”的能力。9Zl品论天涯网

此外，虽然Meta利用生成式AI的进步以及自身在该技术领域的投资来增强其广告业务并提高公司整体效率，但它尚未在大模型市场取得显著突破，而其在该领域的主要竞争对手已经遥遥领先。9Zl品论天涯网

OpenAI和Anthropic的估值总和现已超过1万亿美元，Google的Gemini技术和服务也获得了广泛认可，尤其是在消费市场。9Zl品论天涯网

据GrandViewResearch称，全球生成式人工智能市场预计将以每年40%以上的速度增长，从2025年的约220亿美元增长到2033年的近3250亿美元，因此，该市场前景十分广阔。9Zl品论天涯网

9Zl品论天涯网

与此同时，Meta正在加大对人工智能基础设施的投入，力图赶上其他超大规模数据中心运营商。Meta在其最新财报中表示，其2026年与人工智能相关的资本支出将在1150亿美元至1350亿美元之间，几乎是去年的两倍。9Zl品论天涯网

Meta公司也在尝试一种新的AI模型盈利模式，即通过API向第三方开发者提供MuseSpark底层技术的访问权限。Meta公司表示，目前只有部分“特邀合作伙伴”可以访问该AI模型的“私有API预览版”，但计划在未来某个时候向更广泛的用户群体提供付费API访问权限。9Zl品论天涯网

Meta公司表示，其全新模型MuseSpark目前已应用于公司独立的MetaAI应用程序和桌面网站中的数字助理功能。该公司还表示，MuseSpark将在未来几周内率先登陆Facebook、Instagram、WhatsApp和Messenger，以及公司与Ray-Ban合作推出的MetaAI眼镜。9Zl品论天涯网

Meta还计划最终让MuseSpark为MetaAI应用程序中的VibesAI视频功能提供支持。Meta指出，该服务目前使用的是来自BlackForestLabs等第三方公司的AI模型。9Zl品论天涯网

Meta表示：“购物模式借鉴了我们应用程序中已有的造型灵感和品牌故事，展现了创作者和人们已经关注的社群的创意。”9Zl品论天涯网

Meta 143亿挖角后首个作品 Alexandr Wang 推出闭源模型 杨立坤点赞

Meta 143亿挖角后首个作品 Alexandr Wang 推出闭源模型杨立坤点赞