商汤绝影发布端侧多模态智能体基座Sage:PinchBench实测94%领跑,3B激活参数突破云端级能力

2026/04/22 10:35阅读量 3

2026年4月22日,商汤绝影正式发布端侧多模态智能体基座大模型Sage,该模型采用MoE架构,总参数量32B但仅激活3B,已在英伟达Orin X平台完成部署。在面向真实Agent工作流的PinchBench评测中,Sage以94%的最佳任务完成率超越Claude-Opus-4.6、GPT-5.4等国际主流云端大模型。其核心优势源于自研的SCOUT(节省60%算力)与ERL(提升20%任务成功率)两项后训练技术,实现了从“听懂指令”到“独立办成复杂事”的跨越。

事件概述

2026年4月22日,商汤绝影正式推出端侧多模态智能体基座大模型Sage。该模型旨在解决智能座舱依赖云端导致的延迟高、Token成本高,或坚守端侧导致智能体能力缺失的行业痛点。Sage首次将云端级的复杂智能体能力落地于车端,支持接入OpenClaw、Hermes等主流Agent框架,覆盖出行、家庭等全场景。

核心性能数据

  • 架构与部署:采用MoE架构,总参数量32B,激活参数仅3B。已在英伟达Orin X端侧平台实现部署。
  • PinchBench评测表现:在公开Agent评测基准PinchBench上,Sage最佳任务完成率达到94%,超越以下国际主流模型:
    • Claude-Opus-4.6 (93.3%)
    • GPT-5.4 (90.5%)
    • Qwen3.5-27B (90.0%)
    • MiniMax-M2.7 (89.8%)
    • Claude-Sonnet-4.6 (88.0%)
    • MiMo-v2-Pro (87.4%)
    • Google-Gemini-3 (87.0%)
    • Google-Gemma-4 (83.9%)
  • 效率对比:相比小米MiMo-v2-Pro(激活参数42B,总参数超1T),Sage激活算力需求仅为前者的1/14,显存占用约为1/31,但任务完成率仍高出6.6个百分点。
  • 其他基准测试
    • MMLU Pro(跨学科知识):76分,领先同级约10%。
    • GPQA Diamond(研究生级推理):77分,提升33%。
    • Human Semantic Understanding(语义与视觉理解):91分,提升32%。
    • τ2-bench(工具调用与任务闭环):80分,较Google-Gemma 4提升38%。
  • 实时性指标(Orin X平台):首字响应时间(TTFT)约0.5秒,单Token推理延迟(TPOT)低至0.03秒,生成吞吐80 tk/S。

关键技术突破

Sage的性能突破主要得益于商汤绝影在后训练阶段自研的两项核心技术:

1. SCOUT(Sub-Scale Collaboration On Unseen Tasks)

  • 功能:分级协同学习框架,解决大模型学习复杂任务成本高、试错慢的问题。
  • 机制:采用“探路与吸收解耦”策略,先由轻量小模型快速筛选可行路径,再将高价值经验喂给大模型学习。
  • 成效:在复杂任务能力注入过程中节省约**60%**的GPU小时消耗。
  • 论文链接https://arxiv.org/abs/2601.21754

2. ERL(Erasable Reinforcement Learning)

  • 功能:可擦除强化学习,聚焦复杂任务链路中的错误识别与纠偏。
  • 机制:赋予模型“边想边纠错”能力,自动识别并擦除推理过程中的错误步骤,重新生成正确内容,阻断偏差扩散。
  • 成效:装车后使复杂任务完成率提升20%,在多跳复杂推理基准上显著优于此前SOTA。
  • 收录情况:已被机器学习顶级会议ICLR 2026收录。
  • 论文链接https://arxiv.org/abs/2510.00861

应用场景与产品落地

  • Sage Box:商汤绝影将在北京车展期间推出搭载Sage模型的硬件产品Sage Box,作为汽车超级智能体时代的核心根基。
  • 实际体验:模型可实现复合指令解析,自动联动空调、影音、导航等系统;结合传感器感知乘员状态与路况,主动提供儿童模式、智能路线调整等服务。
  • 场景指标:场景推理精度超90%,长链路工具调用成功率92%,逻辑规划成功率89%,环境感知任务成功率94%,复杂指令遵循率提升40%。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。