Meta 发布闭源模型 Muse Spark:重构技术栈,开源时代终结
2026/04/09 16:39阅读量 2
Meta 推出全新闭源大模型 Muse Spark,由汪韬(Alexandr Wang)主导重建,采用“思维压缩”技术将计算效率提升十倍。该模型在多模态与医疗领域表现突出,但在逻辑推理与代码能力上存在短板。此次发布标志着 Meta 正式放弃 Llama 系列的开源策略,转向完全闭源模式以支撑其高昂的 AI 基础设施投入。
事件概述
2026 年 4 月 9 日,Meta 正式发布其超级智能实验室(MSL)的首个成果——Muse Spark 大模型。该模型内部代号为 Avocado,是 Meta 新 Muse 系列的首个型号。此次发布被视为 Meta 在经历 Llama4 基准测试造假丑闻及旗舰项目延期后的一次重大战略重启。发布当日,Meta 股价盘中涨幅超 10%,收盘涨约 9%。
核心信息
1. 技术重构与“思维压缩”
- 从零重建:在 Scale AI 联合创始人汪韬(Alexandr Wang)加入 Meta 并担任首席 AI 官九个月后,团队彻底推倒重来,建立了全新的 AI 技术栈、架构和数据流水线。
- 思维压缩(Thought Compression):这是 Muse Spark 的核心技术突破。通过在强化学习阶段对模型过度思考的行为施加惩罚,迫使模型用更少的推理 token 解决问题。Meta 声称,Muse Spark 达到 Llama4 Maverick 同等性能水平所需的计算量减少了十倍以上。
- 三级推理模式:提供 Instant(即时)、Thinking(思考)和 Contemplating(沉思)三种模式。其中 Contemplating 模式并行启动多个子智能体处理任务,HLE(人类最后考试)得分达 58%,Frontier Science Research 得分达 38%。
2. 性能评估:长板与短板并存
根据第三方机构 Artificial Analysis 的评测(Intelligence Index v 4.0),Muse Spark 综合排名第四(52 分),落后于 Gemini 3.1 Pro、GPT-5.4 和 Claude Opus 4.6,但在特定领域表现优异:
- 优势领域:
- 视觉理解:MMMU-Pro 得分 80.5,排名第二。
- 图表推理:CharXiv Reasoning 得分 86.4,全场第一。
- 医疗健康:Health Bench Hard 得分 42.8,显著优于竞品。Meta 称已与超过 1000 名医生合作定制训练数据。
- 劣势领域:
- 抽象推理:ARCAGI 2 得分 42.5,远低于 Gemini 3.1 Pro(76.5)和 GPT-5.4(76.1)。
- 代码编程:Terminal-Bench 2.0 得分 59.0,落后于 GPT-5.4(75.1)和 Gemini(68.5)。Meta 承认长程 agentic 系统和代码工作流是当前重点投入方向。
3. 战略转型:从开源到闭源
- 彻底闭源:Muse Spark 不公开架构和权重,仅通过 MetaAI 应用、meta.ai 网站及部分合作伙伴 API 私测使用。官方虽提及“未来版本可能开源”,但未给出时间表或承诺。
- 商业逻辑:Meta 今年 AI 基础设施支出上限调至 1350 亿美元。为支撑巨额投入并避免研发成果直接赋能竞争对手,Meta 选择将最先进架构保持私密。
- 生态影响:此举标志着 Llama 系列作为“开源 AI 精神图腾”时代的结束。对于依赖开源生态的开发者而言,这意味着失去了可本地部署和修改的标准模型;对于 DeepSeek 等开源厂商,虽然面临开源界失去“定海神针”的市场空间,但也需独自面对闭源巨头更厚的技术壁垒。
4. 应用场景与竞争格局
- 个人超级智能:Muse Spark 将驱动 Facebook、Instagram、WhatsApp、Messenger 上的 MetaAI 助手及 Ray-Ban MetaAI 眼镜,覆盖超 35 亿用户触点。
- 商业化闭环:在购物场景中,MetaAI 可直接识别用户浏览内容并结合行为信号推荐商品完成购买;在健康场景,利用社交账号登录进行查询,但隐私政策措辞较为模糊。
- 竞争态势:在 Anthropic 发布 Claude Mythos 及中国 Z.AI 刷新代码基准的背景下,Muse Spark 旨在确保 Meta 重回顶层牌桌。未来的竞争焦点将从“开源 vs 闭源”的意识形态之争,转向“谁能用更少算力跑出更强智力”的终极对决。
