ClearML 与 Nutanix 联手打造企业级 AI 全栈解决方案

2026/04/08 04:38阅读量 30

ClearML 与 Nutanix 合作推出基于 Nutanix Kubernetes Platform (NKP) 的企业级 AI 全栈方案，旨在解决 GPU 资源孤岛、运维配置繁琐及生产部署困难等核心痛点。该方案通过硬件无关的基础设施控制平面实现动态分片 GPU 分配与成本归因，并集成实验追踪、模型版本管理及 RAG 工作流自动化功能。最终目标是帮助企业快速构建可规模化、高可靠且具备成本透明度的生成式 AI 生产环境。

事件概述

针对企业 AI 团队面临的 GPU 资源利用率低、跨团队协作壁垒高、运维配置复杂以及从开发到生产部署困难等挑战，ClearML 与 Nutanix 联合推出了基于 Nutanix Kubernetes Platform (NKP) 的“开箱即用”企业 AI 全栈解决方案。该方案旨在消除基础设施层面的复杂性，加速 AI 生命周期各阶段，并释放生产级生成式 AI（GenAI）的潜力。

核心架构与关键能力

1. 面向 AI 的基础设施层

统一平台工程：NKP 堆栈消除了操作复杂性，确保在任何环境中运行大规模 AI 工作负载时的一致性。
硬件无关的控制平面：ClearML 在此基础上构建了硬件无关的基础设施控制平面，支持多租户环境，促进协作与资源效率。
GPU-as-a-Service：
- 开发者可通过 Jupyter、VSCode、SSH 或远程桌面即时访问 AI 加速器。
- 支持动态分片 GPU 分配（dynamic fractional GPU allocation）和受控突发（controlled bursting），有效解决 GPU 闲置与团队争抢问题。
- 引入基于使用量的计费（usage-based billing）和成本归属（cost attribution），提升跨部门扩展时的可见性。

2. 加速 AI 开发与运维

全流程工作流集中化：以 NKP 为核心，整合了实验追踪与可复现性、数据集与模型版本管理、流水线编排及 CI/CD 集成。
安全存储：通过 Nutanix Objects 提供安全的 S3 兼容存储，自动记录所有实验数据，减少日志管理和重复工作的负担。
无缝资源供给：开发工作负载直接在 NKP 堆栈上运行，确保跨环境的性能一致性和资源供应无缝衔接。

3. 生产级 GenAI 就绪

应用网关与安全：ClearML Application Gateway 作为容器网络的核心入口，管理所有进出流量，强制执行身份验证、资源感知路由及基于角色的访问控制（RBAC）。
内置 RAG 工作流：
- 集成内置向量数据库，支持问答、语义搜索和内容生成场景。
- 允许在同一平台内完成嵌入的索引、查询和服务，无需拼接第三方工具。
- 利用原生编排管道自动化整个 RAG 流程（从数据摄入到推理）。
可观测性与监控：提供集中式监控仪表板，实时展示延迟、请求速率和资源使用情况，支持对单个服务进行深度钻取分析，便于故障排查和异常检测。

实施价值

该组合方案使企业能够跳过繁琐的电子表格统计和状态会议，在一个会话中完成分数 GPU 启动、模型训练、GenAI 端点部署及实时成本监控。通过将 GPU 转化为高速、完全可问责的 AI 工厂，帮助企业在保证生产可靠性的同时实现成本优化和快速交付。

阅读原文详情