ClearML 发布平台管理中心,解决企业 AI 基础设施成本与资源管理难题
ClearML 于 GTC 2026 宣布其 Platform Management Center(平台管理中心)正式商用,旨在为多租户企业级 AI 部署提供统一的财务与资源监控能力。该功能通过租户级仪表盘,实现了对计算、存储等资源的成本追踪、使用量统计及用户配额管理的可视化,同时确保管理员无法访问租户内部数据以保障隐私。这一工具填补了企业在从试点转向规模化 AI 运营时,在 FinOps 和基础设施管控方面的工具空白。
事件概述
ClearML 在 GTC 2026 上宣布推出 Platform Management Center(平台管理中心),该功能现作为 ClearML Enterprise 计划的一部分正式可用。该平台专为 IT 管理员和 AI 平台领导者设计,用于管理大规模的多租户 ClearML 部署,解决了企业在使用 GPU 基础设施时面临的“支出无问责”痛点。
核心功能与信息
1. 成本追踪与归属 (Cost Tracking & Attribution)
- 定制化仪表板:支持对任何计量遥测事件(如计算、存储、用户及服务账户活动)进行自定义成本估算。
- 多维度分析:提供按类别(如不同 GPU 类型、存储服务)的成本细分,并支持跨报告周期的趋势对比。
- 财务模型支持:为分摊成本(chargeback)和展示成本(showback)模型奠定基础,辅助前瞻性 AI 预算规划。
2. 资源与活动指标 (Resource and Activity Metrics)
- 使用全景图:显示每个租户的项目数、任务总数、任务创建趋势及按队列划分的任务运行时长。
- 非侵入式监控:管理员可准确掌握各团队的平台使用情况,而无需直接访问其工作负载或数据。
3. 用户配额与状态可见性 (User Quota and Status Visibility)
- 精细化统计:将租户用户细分为活跃、待处理(已注册但未登录)及总数,并与配置的配额进行对比。
- 权限管理:支持查看包含邮箱、ID 和角色的完整用户列表,简化大规模部署中的许可证和访问管理。
4. 设计原则:租户隔离 (Tenant Isolation by Design)
- 隐私保护:所有监控功能均在保证租户工作负载和数据隐私的前提下实现。
- 适用场景:既满足云服务提供商(CSPs)向客户交付基础设施的需求,也符合企业内部不同业务单元间的数据治理要求。
行业背景与影响
- 运营瓶颈转移:随着企业 AI 从试点项目转向全组织规模应用,瓶颈已从硬件容量转向受控流程。IT 和 FinOps 团队缺乏能够像管理其他业务部门那样严格管理昂贵 GPU 基础设施的工具。
- 商业模式赋能:对于提供 GPUaaS(GPU 即服务)或 AIaaS(AI 即服务)的运营商而言,该平台原生支持计算消耗追踪、精准开票及客户离网处理,使这些服务模式成为可行的商业模型,而非仅停留在技术层面。
引用观点:ClearML CEO Moses Guttmann 指出:“瓶颈已从硬件容量转移到受控流程。Platform Management Center 赋予了 IT 所需的控制权和财务可见性,同时确保 AI 团队能不受基础设施阻碍地快速推进。”
