商汤绝影发布端侧多模态智能体基座Sage:PinchBench实测94%领跑,3B激活参数突破云端级能力
2026/04/22 10:35阅读量 3
2026年4月22日,商汤绝影正式发布端侧多模态智能体基座大模型Sage,该模型采用MoE架构,总参数量32B但仅激活3B,已在英伟达Orin X平台完成部署。在面向真实Agent工作流的PinchBench评测中,Sage以94%的最佳任务完成率超越Claude-Opus-4.6、GPT-5.4等国际主流云端大模型。其核心优势源于自研的SCOUT(节省60%算力)与ERL(提升20%任务成功率)两项后训练技术,实现了从“听懂指令”到“独立办成复杂事”的跨越。
事件概述
2026年4月22日,商汤绝影正式推出端侧多模态智能体基座大模型Sage。该模型旨在解决智能座舱依赖云端导致的延迟高、Token成本高,或坚守端侧导致智能体能力缺失的行业痛点。Sage首次将云端级的复杂智能体能力落地于车端,支持接入OpenClaw、Hermes等主流Agent框架,覆盖出行、家庭等全场景。
核心性能数据
- 架构与部署:采用MoE架构,总参数量32B,激活参数仅3B。已在英伟达Orin X端侧平台实现部署。
- PinchBench评测表现:在公开Agent评测基准PinchBench上,Sage最佳任务完成率达到94%,超越以下国际主流模型:
- Claude-Opus-4.6 (93.3%)
- GPT-5.4 (90.5%)
- Qwen3.5-27B (90.0%)
- MiniMax-M2.7 (89.8%)
- Claude-Sonnet-4.6 (88.0%)
- MiMo-v2-Pro (87.4%)
- Google-Gemini-3 (87.0%)
- Google-Gemma-4 (83.9%)
- 效率对比:相比小米MiMo-v2-Pro(激活参数42B,总参数超1T),Sage激活算力需求仅为前者的1/14,显存占用约为1/31,但任务完成率仍高出6.6个百分点。
- 其他基准测试:
- MMLU Pro(跨学科知识):76分,领先同级约10%。
- GPQA Diamond(研究生级推理):77分,提升33%。
- Human Semantic Understanding(语义与视觉理解):91分,提升32%。
- τ2-bench(工具调用与任务闭环):80分,较Google-Gemma 4提升38%。
- 实时性指标(Orin X平台):首字响应时间(TTFT)约0.5秒,单Token推理延迟(TPOT)低至0.03秒,生成吞吐80 tk/S。
关键技术突破
Sage的性能突破主要得益于商汤绝影在后训练阶段自研的两项核心技术:
1. SCOUT(Sub-Scale Collaboration On Unseen Tasks)
- 功能:分级协同学习框架,解决大模型学习复杂任务成本高、试错慢的问题。
- 机制:采用“探路与吸收解耦”策略,先由轻量小模型快速筛选可行路径,再将高价值经验喂给大模型学习。
- 成效:在复杂任务能力注入过程中节省约**60%**的GPU小时消耗。
- 论文链接:https://arxiv.org/abs/2601.21754
2. ERL(Erasable Reinforcement Learning)
- 功能:可擦除强化学习,聚焦复杂任务链路中的错误识别与纠偏。
- 机制:赋予模型“边想边纠错”能力,自动识别并擦除推理过程中的错误步骤,重新生成正确内容,阻断偏差扩散。
- 成效:装车后使复杂任务完成率提升20%,在多跳复杂推理基准上显著优于此前SOTA。
- 收录情况:已被机器学习顶级会议ICLR 2026收录。
- 论文链接:https://arxiv.org/abs/2510.00861
应用场景与产品落地
- Sage Box:商汤绝影将在北京车展期间推出搭载Sage模型的硬件产品Sage Box,作为汽车超级智能体时代的核心根基。
- 实际体验:模型可实现复合指令解析,自动联动空调、影音、导航等系统;结合传感器感知乘员状态与路况,主动提供儿童模式、智能路线调整等服务。
- 场景指标:场景推理精度超90%,长链路工具调用成功率92%,逻辑规划成功率89%,环境感知任务成功率94%,复杂指令遵循率提升40%。
