Meta发布Muse Spark大模型:汪滔掌舵后首秀,多模态与医疗推理表现亮眼

2026/04/09 18:05阅读量 2

Meta在吸纳Alexandr Wang(汪滔)并成立超级智能实验室十个月后,正式发布首款Muse系列大模型Muse Spark。该模型主打小巧快速与原生多模态架构,在视觉理解、医疗硬推理等特定领域超越竞品,但在编码任务上仍有差距。此次发布被视为Meta重归AI竞争第一梯队的关键一步,推动其股价单日大涨近9%。

事件概述

当地时间4月8日,Meta正式官宣发布Muse系列的首款模型Muse Spark。这是Meta吸纳Alexandr Wang(汪滔)担任首席AI官并组建“超级智能实验室(MSL)”十个月后的首个核心成果。Meta明确表示,该模型旨在以“小巧快速”的特性率先落地,而非直接发布碾压级产品,以此回应市场对AI进展的迫切期待。

核心技术与性能表现

Muse Spark被定义为Meta迄今为止功能最强大的模型,专为Meta AI应用及生态打造,未来将部署于WhatsApp、Instagram、Facebook、Messenger及AI眼镜等平台。

架构创新

  • 原生多模态推理:不同于以往将视觉与文本简单拼接,Muse Spark从底层架构重建,将视觉信息整合进内部逻辑,实现“视觉思维链”,能够标注动态环境(如识别复杂设备组件或分析视频中的动作)。
  • “思考”模式:新增协调多个子智能体并行推理的功能,使其在极端推理能力上可对标Google Gemini Deep Think和OpenAI GPT-5.4 Pro。

基准测试数据(Artificial Analysis Intelligence Index)

Muse Spark在综合智能指数中得分52分,位列全球第4名,显著优于去年Llama 4 Maverick的18分。具体分项表现如下:

  • 图表与视觉理解(CharXiv Reasoning):得分86.4,明显优于Gemini 3.1 Pro(80.2)、GPT-5.4(82.8)及Claude Opus 4.6(65.3),是其突出优势。
  • 医疗硬推理(HealthBench Hard):得分42.8%,大幅领先主要竞品(GPT-5.4为40.1%,Gemini 3.1 Pro为20.6%),得益于与超1000名医生合作的针对性训练。
  • PhD级科学推理(GPQA Diamond):准确率达89.5%,略低于Gemini 3.1 Pro(94.3%)、GPT-5.4(92.8%)和Claude Opus 4.6(92.7%)。
  • 软件工程与编码(SWE-Bench Verified):得分77.4%,落后于Claude Opus 4.6(80.8%)和Gemini 3.1 Pro(80.6%),显示在长时程自主任务和复杂编码工作流上仍有提升空间。
  • 多模态多学科理解(MMMU Pro):得分约80.4–80.5%,仅次于Gemini 3.1 Pro(83.9%)。

战略调整与市场反应

  • 策略转变:Meta放弃了此前传闻中完全转向闭源的路线,未来可能采取开源与闭源并行的混合策略,保留旗舰技术的同时向开发者开放新鲜模型。
  • 市场反馈:尽管发布初期因Benchmark图表展示方式引发争议(被指有误导性高亮),Alexandr Wang迅速公开致歉并承诺改进。市场对此反应积极,Meta股价当日一度上涨约9%,收盘涨6.5%,创下今年1月以来最大单日涨幅。
  • 投入背景:过去十个月,Meta斥资143亿美元投资Scale AI并高薪招募数十名顶尖研究员,2025年AI资本支出达722.2亿美元,2026年指引更提升至1150亿—1350亿美元。Muse Spark的发布标志着Meta在巨额投入后终于交出了阶段性答卷。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。