NERSC探索使用ClearML管理科学AI工作流,为下一代超算Doudna做准备
美国能源部科学办公室用户设施NERSC正将ClearML集成到其AI基础设施栈,用于管理Perlmutter和即将交付的Doudna超算上的科学AI工作流。该中心约32%的项目已涉及机器学习,传统批处理模式难以应对训练-仿真-实验耦合的工作负载。ClearML被用于工作流编排、多集群管理及实验跟踪,旨在提升12,000余名研究人员的AI开发效率与可重复性。
事件概述
位于劳伦斯伯克利国家实验室的NERSC(国家能源研究科学计算中心)是美国能源部科学办公室的核心高性能计算设施。其当前旗舰系统Perlmutter拥有7,168个NVIDIA A100 GPU,服务于约12,642名用户,支持1,303个项目,年存储约520 PB数据。下一代系统Doudna(NERSC-10)基于NVIDIA Vera Rubin平台,预计2026年底交付,性能将达Perlmutter的10倍以上。
核心挑战:AI工作负载的复杂性激增
传统HPC以批处理仿真为主,但NERSC的工作负载已发生根本变化:
- 使用PyTorch和TensorFlow的用户自2017年以来增长了30倍以上;
- 约32%的项目描述中包含“学习”关键词(2018年仅4%);
- 37%的受访用户已拥有用于科学生产的完整ML工作流。
AI for science工作流通常将训练、仿真和实验耦合为循环,需要超参数扫描、大规模模型训练,同时要求可观测性、可重现性及可溯源能力。对于拥有上万名跨领域研究人员的机构,如何让科学家无需成为基础设施专家就能高效运行现代AI工作流是核心痛点。
NERSC对ClearML的探索与应用
NERSC数据与AI服务负责人Steven Farrell指出,他们需要编排跨HPC环境(包括Slurm管理的资源、大规模作业数组、LLM推理与代理工作流)以及异构系统(如Perlmutter和美国科学云AmSC)的AI工作负载。ClearML被纳入软件栈,作为实现以下目标的关键组件:
- 工作流编排与自动化:管理多步骤AI管道,涵盖数据预处理、训练、评估和部署。
- 多集群管理:统一调度Perlmutter、Doudna及AmSC等不同计算资源。
- 实验跟踪与可重复性:记录超参数、代码版本、模型指标,确保科学结果可验证。
- 智能资源分配:根据工作负载需求动态分配GPU,提升资源利用率。
NERSC计划在Doudna上实现五大先进工作流能力:智能资源分配、AI原生支持、工作流可移植性、超HPC能力(如LLM服务)和无缝工作流集成,ClearML正是该技术栈的一部分。
值得关注
这一案例显示了国家级科研设施在AI时代的管理模式转型——从“提供计算”转向“提供AI就绪的工作流平台”。ClearML作为开源MLOps平台,在HPC领域的落地为其它大型科研中心(如欧洲的Jülich、日本的东京大学等)提供了参考。Doudna的交付(2027年早期用户访问)将检验该集成方案在实际科学工作负载上的表现。
