ClearML 与 SUSE k3k 联手:为 enterprise AI 打造虚拟 Kubernetes 集群,实现自治与安全兼得
ClearML 集成 SUSE Rancher Prime 的 k3k 技术,通过创建轻量级嵌套 Kubernetes 集群(Virtual Clusters),解决了企业 AI 团队需要深度集群权限与 IT 部门需维持基础设施安全之间的冲突。该方案允许各团队在完全隔离的虚拟环境中拥有 cluster-admin 权限,同时物理节点、存储和网络仍由 IT 统一管控,彻底消除了传统共享集群的安全隐患。目前该集成已面向使用 SUSE Rancher Prime 的企业客户正式开放。
事件概述
Kubernetes 已成为企业 AI 基础设施的事实标准,但传统架构面临两难困境:AI 团队需要深度访问权限(如安装自定义 Operator、CRD 或管理命名空间)以构建特定工作负载,而 IT 部门若授予此类权限则面临严重安全风险;若限制权限,则导致环境变更成为瓶颈。ClearML 与 SUSE Rancher Prime 的 k3k 集成通过引入“虚拟 Kubernetes 集群”架构,在不牺牲安全性的前提下实现了真正的集群自治。
核心机制:虚拟集群架构
k3k (Kubernetes-in-Kubernetes) 是一种开源项目,可在父级宿主集群内创建轻量级的嵌套子集群。每个子集群拥有独立的 API Server、控制平面和命名空间,对使用者而言体验等同于专用裸机集群,但对宿主集群而言仅是一组运行在命名空间内的 Pod。
安全与管理分层
该架构将控制权严格划分为两个互不重叠的层级:
- 管理层(父集群):由 IT 部门掌控。负责物理节点、存储驱动 (CSI)、网络 (CNI)、GPU 访问及资源配额。ClearML 的基础设施控制平面在此层运行,提供治理、调度和跨租户可见性。
- 执行层(子集群/虚拟集群):交付给 AI 团队。团队在此层拥有完整的
cluster-admin权限,可自由安装 Operator、定义 CRD 和管理命名空间。但其“节点”实为容器化 Pod,无法感知底层物理设施,无法横向移动至其他租户,也无法访问宿主 VPC 或管理平面。
关键特性
- 全虚拟化模式:ClearML 仅采用 k3k 更安全的“虚拟模式”,确保每个租户的工作负载在完全封装的虚拟集群中运行,各层均相互隔离。
- 资源可控:资源分配由父集群管理员严格控制,支持按需调整计算资源,而非自动弹性伸缩,确保物理资源在各租户间明确分配,无底层资源共享风险。
- 自动化生命周期:ClearML 接口自动化处理虚拟集群的供应、资源分配、扩展和销毁,无需团队直接操作 k3k。
实际工作流程
- 申请:团队通过 ClearML 界面请求虚拟实验室,选择运行 k3s 的队列及工作负载 Pod 路由队列。
- 部署:ClearML 在 SUSE Rancher Prime 环境中自动配置隔离的虚拟 Kubernetes 集群。
- 授权:团队获得虚拟集群的 kubeconfig 及内部
cluster-admin权限,可自由安装所需组件。 - 扩展与维护:随着工作负载增长,ClearML 在父集群的物理节点上自动扩展 k3k Pod;IT 通过资源配额设定硬性上限,防止单一租户耗尽 GPU 池;清理、日志记录及成本归属均由 ClearML 控制台自动化管理。
适用场景
该架构特别适用于以下三类需求强烈的场景:
- 强业务单元隔离要求的企业:不同部门受不同监管制度约束,或需确保团队间完全不可见,虚拟集群比命名空间级 RBAC 提供更强的隔离保障。
- 研究与高级开发团队:需要沙箱环境进行自定义训练栈、新 Operator 或基础设施配置的实验,同时确保实验不会逃逸至生产基础设施。
- 云服务提供商 (CSP) 与托管 AI 平台:在共享硬件上为多个企业客户提供服务,使每个客户感觉拥有专用集群,同时提供商保持集中治理、计费可视性和整体算力效率。
可用性
ClearML 与 SUSE Rancher Prime 的 k3k 集成现已面向企业客户开放。相关技术参考文档及演示预约可通过官方渠道获取。
