Meta 发布闭源大模型 Muse Spark:医疗与推理表现突出,战略转向商业化

2026/04/09 17:24阅读量 2

Meta 超级智能实验室(MSL)在沉寂九个月后正式发布自研大模型 Muse Spark,该模型综合性能跻身全球第一梯队,尤其在医疗健康问答和科学图表推理领域优势显著。此次发布标志着 Meta 在经历 Llama4 造假风波及团队重组后,战略重心从开源转向闭源商业化,计划通过付费 API 及全生态整合实现盈利。尽管编程与高难度专业知识测试中表现仍有短板,但 Muse Spark 的推出提振了市场信心,推动 Meta 股价单日大涨近 9%。

事件概述

2026 年 4 月 9 日,Meta 旗下超级智能实验室(MSL)正式官宣首款自研大模型 Muse Spark,并已在 meta.ai 网站及 Meta AI App 上线,API 预览版向特定合作伙伴开放。受此消息提振,Meta 股价当日一度上涨近 9%,创下今年 1 月以来最大单日涨幅。

核心背景与团队重塑

  • 重建周期:MSL 耗时 9 个月从零重建 AI 技术体系,涵盖全新基础设施、架构及数据流水线。
  • 人事变动:此前因 Llama4 数据造假风波,Meta 对原团队进行大规模调整。现任首席人工智能官为 Scale AI 联合创始人 Alexandr Wang(汪滔),其于 2025 年带领 Meta 斥资 143 亿美元收购 Scale AI 近 49% 股权。
  • 人才集结:新团队延揽了来自苹果(AFM)、OpenAI、DeepMind 等机构的顶尖专家,包括前苹果基础模型负责人 Pang Ruoming 及多位多模态与强化学习权威。

性能评测:优势与短板并存

第三方评测机构 Artificial Analysis 数据显示,Muse Spark 综合智能指数为 52 分,排名全球第四(低于 GPT-5.4 的 57 分和 Gemini 3.1 的 57 分,高于 Llama4 的 18 分)。

优势领域

  • 医疗健康:在 HealthBench Hard 测试中得分 42.8,大幅领先 GPT-5.4(40.1)、Gemini 3.1 Pro(20.6)等竞品。Meta 称已与超 1000 名医生合作训练,专注于营养与运动等主题的深度回答。
  • 科学推理:在 CharXiv Reasoning(图表科学推理)测试中以 86.4 分 领跑,展现强大的多模态信息提取与逻辑推理能力。

待提升领域

  • 高难度专业知识:在 Humanity's Last Exam with tools (HLE) 测试中得分为 50.4,在主流前沿模型中排名末位。
  • 视觉抽象推理:ARC AGI 2 测试得分为 42.5,与表现最佳的 Gemini 3.1 Pro(76.5)差距明显。
  • 编程能力:LiveCodeBench Pro 得分为 80,低于 GPT-6.4 的 87.5;Terminal-Bench 2.0 得分为 59,低于 GPT 5.4 的 75.1。Meta 承认其在长时序 agentic 系统和编程工作流方面仍有差距。

战略转向:闭源商业化与生态整合

  • 模式变更:Muse Spark 选择闭源,背离了 Meta 过往“开放科学”的初衷。Alexandr Wang 回应称未来版本计划开源,但当前核心思路是探索盈利。
  • 商业化路径
    • 优先通过付费 API向合作伙伴开放。
    • 全面接入 Facebook、Instagram、WhatsApp 等旗下生态。
    • 推出购物模式,基于用户关注内容与品牌偏好提供个性化推荐。
  • 战略意图:Meta 正将重心从单纯追求 AGI 理想转向让大模型渗透至社交、购物、医疗及硬件等真实场景,以服务于其 30 亿用户并实现商业变现。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。