ClearML 与 SUSE k3k 联手：为 enterprise AI 打造虚拟 Kubernetes 集群，实现自治与安全兼得

2026/03/25 04:31阅读量 20

ClearML 集成 SUSE Rancher Prime 的 k3k 技术，通过创建轻量级嵌套 Kubernetes 集群（Virtual Clusters），解决了企业 AI 团队需要深度集群权限与 IT 部门需维持基础设施安全之间的冲突。该方案允许各团队在完全隔离的虚拟环境中拥有 cluster-admin 权限，同时物理节点、存储和网络仍由 IT 统一管控，彻底消除了传统共享集群的安全隐患。目前该集成已面向使用 SUSE Rancher Prime 的企业客户正式开放。

事件概述

Kubernetes 已成为企业 AI 基础设施的事实标准，但传统架构面临两难困境：AI 团队需要深度访问权限（如安装自定义 Operator、CRD 或管理命名空间）以构建特定工作负载，而 IT 部门若授予此类权限则面临严重安全风险；若限制权限，则导致环境变更成为瓶颈。ClearML 与 SUSE Rancher Prime 的 k3k 集成通过引入“虚拟 Kubernetes 集群”架构，在不牺牲安全性的前提下实现了真正的集群自治。

核心机制：虚拟集群架构

k3k (Kubernetes-in-Kubernetes) 是一种开源项目，可在父级宿主集群内创建轻量级的嵌套子集群。每个子集群拥有独立的 API Server、控制平面和命名空间，对使用者而言体验等同于专用裸机集群，但对宿主集群而言仅是一组运行在命名空间内的 Pod。

安全与管理分层

该架构将控制权严格划分为两个互不重叠的层级：

管理层（父集群）：由 IT 部门掌控。负责物理节点、存储驱动 (CSI)、网络 (CNI)、GPU 访问及资源配额。ClearML 的基础设施控制平面在此层运行，提供治理、调度和跨租户可见性。
执行层（子集群/虚拟集群）：交付给 AI 团队。团队在此层拥有完整的 cluster-admin 权限，可自由安装 Operator、定义 CRD 和管理命名空间。但其“节点”实为容器化 Pod，无法感知底层物理设施，无法横向移动至其他租户，也无法访问宿主 VPC 或管理平面。

关键特性

全虚拟化模式：ClearML 仅采用 k3k 更安全的“虚拟模式”，确保每个租户的工作负载在完全封装的虚拟集群中运行，各层均相互隔离。
资源可控：资源分配由父集群管理员严格控制，支持按需调整计算资源，而非自动弹性伸缩，确保物理资源在各租户间明确分配，无底层资源共享风险。
自动化生命周期：ClearML 接口自动化处理虚拟集群的供应、资源分配、扩展和销毁，无需团队直接操作 k3k。

实际工作流程

申请：团队通过 ClearML 界面请求虚拟实验室，选择运行 k3s 的队列及工作负载 Pod 路由队列。
部署：ClearML 在 SUSE Rancher Prime 环境中自动配置隔离的虚拟 Kubernetes 集群。
授权：团队获得虚拟集群的 kubeconfig 及内部 cluster-admin 权限，可自由安装所需组件。
扩展与维护：随着工作负载增长，ClearML 在父集群的物理节点上自动扩展 k3k Pod；IT 通过资源配额设定硬性上限，防止单一租户耗尽 GPU 池；清理、日志记录及成本归属均由 ClearML 控制台自动化管理。

适用场景

该架构特别适用于以下三类需求强烈的场景：

强业务单元隔离要求的企业：不同部门受不同监管制度约束，或需确保团队间完全不可见，虚拟集群比命名空间级 RBAC 提供更强的隔离保障。
研究与高级开发团队：需要沙箱环境进行自定义训练栈、新 Operator 或基础设施配置的实验，同时确保实验不会逃逸至生产基础设施。
云服务提供商 (CSP) 与托管 AI 平台：在共享硬件上为多个企业客户提供服务，使每个客户感觉拥有专用集群，同时提供商保持集中治理、计费可视性和整体算力效率。

可用性

ClearML 与 SUSE Rancher Prime 的 k3k 集成现已面向企业客户开放。相关技术参考文档及演示预约可通过官方渠道获取。

阅读原文详情