NVIDIA 将 GPU 动态资源分配驱动捐赠给 Kubernetes 社区,推动开源 AI 基础设施标准化
NVIDIA 在 KubeCon Europe 宣布将其 NVIDIA GPU 动态资源分配(DRA)驱动捐赠给云原生计算基金会(CNCF),使其从厂商治理转变为 Kubernetes 项目下的完全社区所有。此举旨在提升 AI 工作负载在 Kubernetes 上的资源调度效率、扩展性和安全性,并联合 AWS、Google Cloud 等业界伙伴共同推进。同时,NVIDIA 还更新了 KAI Scheduler 至 CNCF Sandbox 项目,并推出了支持机密计算的 Kata Containers GPU 方案及 Grove API 等新开源工具。
事件概述
NVIDIA 于阿姆斯特丹举行的 KubeCon Europe 大会上宣布,将 NVIDIA Dynamic Resource Allocation (DRA) Driver for GPUs(NVIDIA GPU 动态资源分配驱动)正式捐赠给 Cloud Native Computing Foundation (CNCF)。该驱动将从厂商治理模式转为由 Kubernetes 项目主导的完全社区所有权模式,标志着高性能 GPU 编排技术进一步融入开源生态。
核心信息与技术细节
1. NVIDIA DRA 驱动的关键能力
该驱动的开源化旨在解决数据中心管理 AI 算力时的复杂性问题,主要特性包括:
- 提升效率:支持更智能的 GPU 资源共享,结合 NVIDIA Multi-Process Service (MPS) 和 NVIDIA Multi-Instance GPU (MIG) 技术优化计算利用率。
- 大规模扩展:原生支持通过 NVIDIA Multi-Node NVLink 互联技术连接系统,为在 NVIDIA Grace Blackwell 系统上训练超大规模 AI 模型提供基础。
- 灵活配置:允许开发者动态重新配置硬件资源,实时调整资源分配策略。
- 精准控制:支持细粒度的资源请求,用户可指定特定的计算能力、内存设置或互联架构以满足应用需求。
2. 安全与隔离增强
- 机密容器支持:与 CNCF 机密容器社区合作,为 Kata Containers(轻量级虚拟机容器)引入 GPU 支持。这实现了硬件加速与强隔离的结合,确保 AI 工作负载在机密计算环境中运行,有效保护数据安全。
3. 行业协作与生态建设
- 多方合作:NVIDIA 联合 Amazon Web Services (AWS)、Broadcom、Canonical、Google Cloud、Microsoft、Nutanix、Red Hat 和 SUSE 等行业领导者共同推动相关功能发展。
- KAI Scheduler 升级:高性能 AI 工作负载调度器 NVIDIA KAI Scheduler 已正式加入 CNCF Sandbox 项目,标志着其进入更广泛的社区协作阶段。
- 新开源项目发布:
- Grove:作为 NVIDIA Dynamo 1.0 生态的扩展,这是一个用于在 GPU 集群上编排 AI 工作负载的开源 Kubernetes API,支持以声明式方式表达复杂的推理系统,并与 llm-d 推理栈集成。
- NVSentinel:GPU 故障修复系统。
- AI Cluster Runtime:代理型 AI 框架。
- NVIDIA NemoClaw:参考堆栈。
- NVIDIA OpenShell:用于安全运行自主代理的运行时,提供细粒度可编程策略的安全与隐私控制,原生集成 Linux、eBPF 和 Kubernetes。
值得关注
- 社区贡献通道:开发者组织现已可以开始使用和贡献 NVIDIA DRA 驱动及 KAI Scheduler。
- 战略意义:此次捐赠被视为开源成为企业 AI 战略核心的重要里程碑,有助于统一高性能基础设施组件标准,加速科学计算与机器学习工作负载的创新进程。
