商汤大装置重构AI原生算力:秒级弹性与全栈托管新范式

2026/04/02 18:21阅读量 2

在2026中关村论坛专题研讨会上,商汤大装置首席架构师项铁尧提出AI原生时代算力集群需具备统一规范、极致弹性及深度优化的Runtime。商汤推出采用“三明治”分层架构的AI算力池,通过虚拟集群技术实现控制面与数据面全量托管,将扩缩容效率提升至秒级。此外,其自研的SenseCore Scheduler、容错引擎及Agentic Engine三大套件,旨在解决超大规模训练推理的复杂协同与稳定性难题。

事件概述

近日,在由趋境科技与九源智能计算系统生态联合体主办的“全栈智能 全域推理:Token爆发元年的全场景大规模推理服务”专题研讨会上,商汤大装置首席架构师项铁尧发表了关于AI原生云基础设施探索与实践的主题演讲。演讲核心在于阐述如何构建适应AI原生时代的算力集群架构,以应对从云原生向AI原生跃迁过程中的新挑战。

核心信息

1. AI算力池:面向角色的水平分层架构

商汤大装置推出了面向AI原生需求的AI算力池,采用“三明治”水平分层架构,彻底打破资源孤岛:

  • 底层:高度优化的计算、网络与存储基础设施。
  • 中间层:全新的虚拟集群技术。
  • 上层:涵盖开发机、训练平台、部署平台及Agentic Engine的完整PaaS产品体系。

该架构具备三大优势:

  • 面向角色:为集群管理员、平台工程师提供高弹性虚拟集群资源;为AI研究员提供丰富的脚本工具与高效研发环境。
  • 水平分层:杜绝不同产品间的信息与资源隔离。
  • 资源自由流转:用户购买一种通用算力形态后,可在虚拟机、虚拟集群、AI Code Space开发机等形态间实现秒级切换,有效应对算力潮汐效应,提升整体利用率。

2. 虚拟集群:全量托管与秒级弹性

针对传统云托管服务中数据面管理重、扩容慢的痛点,商汤大装置创新应用虚拟集群技术

  • 全量托管:不同于主流厂商仅托管控制面,该技术实现了控制面与数据面的全量托管。
  • 极速弹性:扩缩容效率从传统的数分钟至数十分钟压缩至秒级
  • 无缝兼容:提供完全标准的K8s API,用户无需修改现有代码即可接入。

3. 三大自研套件护航超大规模场景

为解决AI新技术层出不穷导致的组件协同复杂问题,商汤大装置基于虚拟集群提出了AI集群Runtime概念,并自研三大套件:

  • SenseCore Scheduler:高性能调度器,支持复杂异构硬件的在离线混合调度。
  • 容错引擎:解决超大规模训练中的不稳定性,实现故障自动检测与隔离。
  • Agentic Engine:针对Agent需求进行深度优化,包括沙箱预热、快速启动、规划保持及状态快照等功能。

4. 虚拟节点与生态合作

  • 虚拟节点:作为弹性算力的最后一环,该技术具备轻量级体验、高效性能以及优于runc的安全性和隔离度,并与虚拟集群体系无缝集成。
  • 生态协同:商汤大装置已与趋境科技深度合作,为其自研的ATaaS(AI Token as a Service)高效能AI Token生产服务平台提供算力支撑。该平台可支撑万级别AI推理需求,达到日均万亿级别Token产能。同时,商汤作为九源智能计算系统生态联合体理事单位,致力于推动国产智能计算系统建设与自主可控生态的构建。

值得关注

随着Kubernetes引入动态资源分配(DRA)、Workload API与Gateway API等新特性,容器编排平台正进化为AI时代的操作系统。商汤大装置的实践表明,未来的算力集群建设将不再局限于单纯的资源供给,而是转向提供统一规范、极致弹性且深度优化的全栈服务,以降低AI基础设施的使用门槛与运维复杂度。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。