Meta 发布闭源模型 Muse Spark：重构技术栈，开源时代终结

2026/04/09 16:39阅读量 117

Meta 推出全新闭源大模型 Muse Spark，由汪韬（Alexandr Wang）主导重建，采用“思维压缩”技术将计算效率提升十倍。该模型在多模态与医疗领域表现突出，但在逻辑推理与代码能力上存在短板。此次发布标志着 Meta 正式放弃 Llama 系列的开源策略，转向完全闭源模式以支撑其高昂的 AI 基础设施投入。

事件概述

2026 年 4 月 9 日，Meta 正式发布其超级智能实验室（MSL）的首个成果——Muse Spark 大模型。该模型内部代号为 Avocado，是 Meta 新 Muse 系列的首个型号。此次发布被视为 Meta 在经历 Llama4 基准测试造假丑闻及旗舰项目延期后的一次重大战略重启。发布当日，Meta 股价盘中涨幅超 10%，收盘涨约 9%。

核心信息

1. 技术重构与“思维压缩”

从零重建：在 Scale AI 联合创始人汪韬（Alexandr Wang）加入 Meta 并担任首席 AI 官九个月后，团队彻底推倒重来，建立了全新的 AI 技术栈、架构和数据流水线。
思维压缩（Thought Compression）：这是 Muse Spark 的核心技术突破。通过在强化学习阶段对模型过度思考的行为施加惩罚，迫使模型用更少的推理 token 解决问题。Meta 声称，Muse Spark 达到 Llama4 Maverick 同等性能水平所需的计算量减少了十倍以上。
三级推理模式：提供 Instant（即时）、Thinking（思考）和 Contemplating（沉思）三种模式。其中 Contemplating 模式并行启动多个子智能体处理任务，HLE（人类最后考试）得分达 58%，Frontier Science Research 得分达 38%。

2. 性能评估：长板与短板并存

根据第三方机构 Artificial Analysis 的评测（Intelligence Index v 4.0），Muse Spark 综合排名第四（52 分），落后于 Gemini 3.1 Pro、GPT-5.4 和 Claude Opus 4.6，但在特定领域表现优异：

优势领域：
- 视觉理解：MMMU-Pro 得分 80.5，排名第二。
- 图表推理：CharXiv Reasoning 得分 86.4，全场第一。
- 医疗健康：Health Bench Hard 得分 42.8，显著优于竞品。Meta 称已与超过 1000 名医生合作定制训练数据。
劣势领域：
- 抽象推理：ARCAGI 2 得分 42.5，远低于 Gemini 3.1 Pro（76.5）和 GPT-5.4（76.1）。
- 代码编程：Terminal-Bench 2.0 得分 59.0，落后于 GPT-5.4（75.1）和 Gemini（68.5）。Meta 承认长程 agentic 系统和代码工作流是当前重点投入方向。

3. 战略转型：从开源到闭源

彻底闭源：Muse Spark 不公开架构和权重，仅通过 MetaAI 应用、meta.ai 网站及部分合作伙伴 API 私测使用。官方虽提及“未来版本可能开源”，但未给出时间表或承诺。
商业逻辑：Meta 今年 AI 基础设施支出上限调至 1350 亿美元。为支撑巨额投入并避免研发成果直接赋能竞争对手，Meta 选择将最先进架构保持私密。
生态影响：此举标志着 Llama 系列作为“开源 AI 精神图腾”时代的结束。对于依赖开源生态的开发者而言，这意味着失去了可本地部署和修改的标准模型；对于 DeepSeek 等开源厂商，虽然面临开源界失去“定海神针”的市场空间，但也需独自面对闭源巨头更厚的技术壁垒。

4. 应用场景与竞争格局

个人超级智能：Muse Spark 将驱动 Facebook、Instagram、WhatsApp、Messenger 上的 MetaAI 助手及 Ray-Ban MetaAI 眼镜，覆盖超 35 亿用户触点。
商业化闭环：在购物场景中，MetaAI 可直接识别用户浏览内容并结合行为信号推荐商品完成购买；在健康场景，利用社交账号登录进行查询，但隐私政策措辞较为模糊。
竞争态势：在 Anthropic 发布 Claude Mythos 及中国 Z.AI 刷新代码基准的背景下，Muse Spark 旨在确保 Meta 重回顶层牌桌。未来的竞争焦点将从“开源 vs 闭源”的意识形态之争，转向“谁能用更少算力跑出更强智力”的终极对决。

阅读原文详情