ClearML 与 Nutanix 联手打造企业级 AI 全栈解决方案

2026/04/08 04:38阅读量 4

ClearML 与 Nutanix 合作推出基于 Nutanix Kubernetes Platform (NKP) 的企业级 AI 全栈方案,旨在解决 GPU 资源孤岛、运维配置繁琐及生产部署困难等核心痛点。该方案通过硬件无关的基础设施控制平面实现动态分片 GPU 分配与成本归因,并集成实验追踪、模型版本管理及 RAG 工作流自动化功能。最终目标是帮助企业快速构建可规模化、高可靠且具备成本透明度的生成式 AI 生产环境。

事件概述

针对企业 AI 团队面临的 GPU 资源利用率低、跨团队协作壁垒高、运维配置复杂以及从开发到生产部署困难等挑战,ClearML 与 Nutanix 联合推出了基于 Nutanix Kubernetes Platform (NKP) 的“开箱即用”企业 AI 全栈解决方案。该方案旨在消除基础设施层面的复杂性,加速 AI 生命周期各阶段,并释放生产级生成式 AI(GenAI)的潜力。

核心架构与关键能力

1. 面向 AI 的基础设施层

  • 统一平台工程:NKP 堆栈消除了操作复杂性,确保在任何环境中运行大规模 AI 工作负载时的一致性。
  • 硬件无关的控制平面:ClearML 在此基础上构建了硬件无关的基础设施控制平面,支持多租户环境,促进协作与资源效率。
  • GPU-as-a-Service
    • 开发者可通过 Jupyter、VSCode、SSH 或远程桌面即时访问 AI 加速器。
    • 支持动态分片 GPU 分配(dynamic fractional GPU allocation)和受控突发(controlled bursting),有效解决 GPU 闲置与团队争抢问题。
    • 引入基于使用量的计费(usage-based billing)和成本归属(cost attribution),提升跨部门扩展时的可见性。

2. 加速 AI 开发与运维

  • 全流程工作流集中化:以 NKP 为核心,整合了实验追踪与可复现性、数据集与模型版本管理、流水线编排及 CI/CD 集成。
  • 安全存储:通过 Nutanix Objects 提供安全的 S3 兼容存储,自动记录所有实验数据,减少日志管理和重复工作的负担。
  • 无缝资源供给:开发工作负载直接在 NKP 堆栈上运行,确保跨环境的性能一致性和资源供应无缝衔接。

3. 生产级 GenAI 就绪

  • 应用网关与安全ClearML Application Gateway 作为容器网络的核心入口,管理所有进出流量,强制执行身份验证、资源感知路由及基于角色的访问控制(RBAC)。
  • 内置 RAG 工作流
    • 集成内置向量数据库,支持问答、语义搜索和内容生成场景。
    • 允许在同一平台内完成嵌入的索引、查询和服务,无需拼接第三方工具。
    • 利用原生编排管道自动化整个 RAG 流程(从数据摄入到推理)。
  • 可观测性与监控:提供集中式监控仪表板,实时展示延迟、请求速率和资源使用情况,支持对单个服务进行深度钻取分析,便于故障排查和异常检测。

实施价值

该组合方案使企业能够跳过繁琐的电子表格统计和状态会议,在一个会话中完成分数 GPU 启动、模型训练、GenAI 端点部署及实时成本监控。通过将 GPU 转化为高速、完全可问责的 AI 工厂,帮助企业在保证生产可靠性的同时实现成本优化和快速交付。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。