Meta发布Muse Spark大模型：汪滔掌舵后首秀，多模态与医疗推理表现亮眼

2026/04/09 18:05阅读量 41

Meta在吸纳Alexandr Wang（汪滔）并成立超级智能实验室十个月后，正式发布首款Muse系列大模型Muse Spark。该模型主打小巧快速与原生多模态架构，在视觉理解、医疗硬推理等特定领域超越竞品，但在编码任务上仍有差距。此次发布被视为Meta重归AI竞争第一梯队的关键一步，推动其股价单日大涨近9%。

事件概述

当地时间4月8日，Meta正式官宣发布Muse系列的首款模型Muse Spark。这是Meta吸纳Alexandr Wang（汪滔）担任首席AI官并组建“超级智能实验室（MSL）”十个月后的首个核心成果。Meta明确表示，该模型旨在以“小巧快速”的特性率先落地，而非直接发布碾压级产品，以此回应市场对AI进展的迫切期待。

核心技术与性能表现

Muse Spark被定义为Meta迄今为止功能最强大的模型，专为Meta AI应用及生态打造，未来将部署于WhatsApp、Instagram、Facebook、Messenger及AI眼镜等平台。

架构创新

原生多模态推理：不同于以往将视觉与文本简单拼接，Muse Spark从底层架构重建，将视觉信息整合进内部逻辑，实现“视觉思维链”，能够标注动态环境（如识别复杂设备组件或分析视频中的动作）。
“思考”模式：新增协调多个子智能体并行推理的功能，使其在极端推理能力上可对标Google Gemini Deep Think和OpenAI GPT-5.4 Pro。

基准测试数据（Artificial Analysis Intelligence Index）

Muse Spark在综合智能指数中得分52分，位列全球第4名，显著优于去年Llama 4 Maverick的18分。具体分项表现如下：

图表与视觉理解（CharXiv Reasoning）：得分86.4，明显优于Gemini 3.1 Pro（80.2）、GPT-5.4（82.8）及Claude Opus 4.6（65.3），是其突出优势。
医疗硬推理（HealthBench Hard）：得分42.8%，大幅领先主要竞品（GPT-5.4为40.1%，Gemini 3.1 Pro为20.6%），得益于与超1000名医生合作的针对性训练。
PhD级科学推理（GPQA Diamond）：准确率达89.5%，略低于Gemini 3.1 Pro（94.3%）、GPT-5.4（92.8%）和Claude Opus 4.6（92.7%）。
软件工程与编码（SWE-Bench Verified）：得分77.4%，落后于Claude Opus 4.6（80.8%）和Gemini 3.1 Pro（80.6%），显示在长时程自主任务和复杂编码工作流上仍有提升空间。
多模态多学科理解（MMMU Pro）：得分约80.4–80.5%，仅次于Gemini 3.1 Pro（83.9%）。

战略调整与市场反应

策略转变：Meta放弃了此前传闻中完全转向闭源的路线，未来可能采取开源与闭源并行的混合策略，保留旗舰技术的同时向开发者开放新鲜模型。
市场反馈：尽管发布初期因Benchmark图表展示方式引发争议（被指有误导性高亮），Alexandr Wang迅速公开致歉并承诺改进。市场对此反应积极，Meta股价当日一度上涨约9%，收盘涨6.5%，创下今年1月以来最大单日涨幅。
投入背景：过去十个月，Meta斥资143亿美元投资Scale AI并高薪招募数十名顶尖研究员，2025年AI资本支出达722.2亿美元，2026年指引更提升至1150亿—1350亿美元。Muse Spark的发布标志着Meta在巨额投入后终于交出了阶段性答卷。

阅读原文详情

事件概述

核心技术与性能表现

架构创新

基准测试数据（Artificial Analysis Intelligence Index）

战略调整与市场反应

准备好启动您的定制项目了吗？