Meta 亿元天团耗时九个月推出原生多模态大模型 Muse Spark,重塑第一梯队地位
由余家辉、Jason Wei 等顶尖专家领衔的 Meta 团队耗时九个月重构技术栈,推出主打原生多模态与推理能力的 Muse Spark 大模型。该模型在医学问答、多模态理解及工具调用方面表现优异,使 Meta 重回 AI 第一梯队,但编程与长时自主任务能力仍有短板。Meta 此次选择先闭源发布 API,并计划未来开源后续版本,同时推出了“沉思模式”以增强复杂推理能力。
事件概述
Meta 超级智能实验室(SIL)在亚历山大·卡迪纳尔(Alexandr Wang)带领下,集结了思维链作者 Jason Wei、o1 核心贡献者 Hyung Won Chung、扩散模型专家宋飏及前 OpenAI 高管余家辉等“亿元天团”,耗时九个月从零重构 AI 技术栈,正式推出首个原生多模态大模型 Muse Spark。该模型发布后,Meta 股价单日上涨约 6% 至 7%,市场反应热烈。
核心性能与评测
Muse Spark 在第三方测评中已跻身行业第一梯队,关键指标仅次于 Gemini 3.1 Pro、GPT-5.4 和 Claude Opus 4.6。其核心优势体现在以下领域:
- 多模态理解:在处理论文图表、屏幕截图及图片转代码任务上表现卓越,得分与 Gemini 3.1 Pro、GPT-5.4 等顶尖模型持平或领先。
- 医学能力:通过与 1000+ 医生合作训练,在 HealthBench Hard 测试中取得 42.8 的最高分,并在 MedXpertQA MM 多模态医学问答中位居前列。
- 工具调用:具备强大的外部工具调用能力,能够执行复杂的自动化任务。
局限性与短板:
尽管整体实力强劲,Muse Spark 在编程和**长时间自主运行(Agent)**任务上仍落后于竞品。实测显示,其在生成网站前端代码时偶有失败,部分 Python 自动微分任务无法跑通,甚至出现损失函数长期不下降的异常现象。
技术创新与训练细节
为弥补上述短板并提升效率,Meta 在 Muse Spark 的训练架构上进行了全面升级:
- 算力效率革命:相比 Llama 4,Muse Spark 达到同等性能水平所需的计算量降低了 10.3 倍。预训练阶段实现了更高效的 Scaling 曲线。
- 强化学习(RL)优化:采用新的 RL 架构,使得训练过程平滑且可预测。在未见过的任务上,准确率随训练步数呈对数线性增长,证明了良好的泛化能力而非死记硬背。
- 思维压缩机制:引入“思考时间惩罚”策略,迫使模型在 Test-time 阶段学会用更少的 Token 解决问题,实现“思维压缩”。
- 多智能体协作:推出 Contemplating(沉思)模式,让多个 Agent 协同思考同一问题并汇总结果。在“人类最后的考试”等高难度推理任务中,该模式表现优于 Gemini Deep Think 和 GPT Pro,但在物理奥赛理论题中略逊一筹。
产品策略与市场动作
- 发布策略:Muse Spark 目前采取闭源策略,API 仅向部分合作伙伴开放,未直接开源权重。Meta 官方表示计划在未来开源后续版本。
- 新功能上线:
- 购物模式:结合用户在 Instagram、Facebook、Threads 上的关注偏好,提供个性化商品推荐。
- 灰度测试:“沉思模式”已在 Meta 官网进行灰度测试。
总结
Muse Spark 的发布标志着 Meta 在经历 Llama 系列挫折后的强势回归。通过重构基础设施和优化训练算法,Meta 成功在多模态感知与专业推理领域缩小了与头部竞品的差距,但在代码生成与长程自主代理任务上仍需持续迭代。
