商汤绝影发布端侧多模态智能体基座Sage：PinchBench实测94%领跑，3B激活参数突破云端级能力

2026/04/22 10:35阅读量 3

2026年4月22日，商汤绝影正式发布端侧多模态智能体基座大模型Sage，该模型采用MoE架构，总参数量32B但仅激活3B，已在英伟达Orin X平台完成部署。在面向真实Agent工作流的PinchBench评测中，Sage以94%的最佳任务完成率超越Claude-Opus-4.6、GPT-5.4等国际主流云端大模型。其核心优势源于自研的SCOUT（节省60%算力）与ERL（提升20%任务成功率）两项后训练技术，实现了从“听懂指令”到“独立办成复杂事”的跨越。

事件概述

2026年4月22日，商汤绝影正式推出端侧多模态智能体基座大模型Sage。该模型旨在解决智能座舱依赖云端导致的延迟高、Token成本高，或坚守端侧导致智能体能力缺失的行业痛点。Sage首次将云端级的复杂智能体能力落地于车端，支持接入OpenClaw、Hermes等主流Agent框架，覆盖出行、家庭等全场景。

核心性能数据

架构与部署：采用MoE架构，总参数量32B，激活参数仅3B。已在英伟达Orin X端侧平台实现部署。
PinchBench评测表现：在公开Agent评测基准PinchBench上，Sage最佳任务完成率达到94%，超越以下国际主流模型：
- Claude-Opus-4.6 (93.3%)
- GPT-5.4 (90.5%)
- Qwen3.5-27B (90.0%)
- MiniMax-M2.7 (89.8%)
- Claude-Sonnet-4.6 (88.0%)
- MiMo-v2-Pro (87.4%)
- Google-Gemini-3 (87.0%)
- Google-Gemma-4 (83.9%)
效率对比：相比小米MiMo-v2-Pro（激活参数42B，总参数超1T），Sage激活算力需求仅为前者的1/14，显存占用约为1/31，但任务完成率仍高出6.6个百分点。
其他基准测试：
- MMLU Pro（跨学科知识）：76分，领先同级约10%。
- GPQA Diamond（研究生级推理）：77分，提升33%。
- Human Semantic Understanding（语义与视觉理解）：91分，提升32%。
- τ2-bench（工具调用与任务闭环）：80分，较Google-Gemma 4提升38%。
实时性指标（Orin X平台）：首字响应时间（TTFT）约0.5秒，单Token推理延迟（TPOT）低至0.03秒，生成吞吐80 tk/S。

关键技术突破

Sage的性能突破主要得益于商汤绝影在后训练阶段自研的两项核心技术：

1. SCOUT（Sub-Scale Collaboration On Unseen Tasks）

功能：分级协同学习框架，解决大模型学习复杂任务成本高、试错慢的问题。
机制：采用“探路与吸收解耦”策略，先由轻量小模型快速筛选可行路径，再将高价值经验喂给大模型学习。
成效：在复杂任务能力注入过程中节省约**60%**的GPU小时消耗。
论文链接：https://arxiv.org/abs/2601.21754

2. ERL（Erasable Reinforcement Learning）

功能：可擦除强化学习，聚焦复杂任务链路中的错误识别与纠偏。
机制：赋予模型“边想边纠错”能力，自动识别并擦除推理过程中的错误步骤，重新生成正确内容，阻断偏差扩散。
成效：装车后使复杂任务完成率提升20%，在多跳复杂推理基准上显著优于此前SOTA。
收录情况：已被机器学习顶级会议ICLR 2026收录。
论文链接：https://arxiv.org/abs/2510.00861

应用场景与产品落地

Sage Box：商汤绝影将在北京车展期间推出搭载Sage模型的硬件产品Sage Box，作为汽车超级智能体时代的核心根基。
实际体验：模型可实现复合指令解析，自动联动空调、影音、导航等系统；结合传感器感知乘员状态与路况，主动提供儿童模式、智能路线调整等服务。
场景指标：场景推理精度超90%，长链路工具调用成功率92%，逻辑规划成功率89%，环境感知任务成功率94%，复杂指令遵循率提升40%。

阅读原文详情