NERSC探索使用ClearML管理科学AI工作流，为下一代超算Doudna做准备

2026/06/12 04:56阅读量 2

美国能源部科学办公室用户设施NERSC正将ClearML集成到其AI基础设施栈，用于管理Perlmutter和即将交付的Doudna超算上的科学AI工作流。该中心约32%的项目已涉及机器学习，传统批处理模式难以应对训练-仿真-实验耦合的工作负载。ClearML被用于工作流编排、多集群管理及实验跟踪，旨在提升12,000余名研究人员的AI开发效率与可重复性。

事件概述

位于劳伦斯伯克利国家实验室的NERSC（国家能源研究科学计算中心）是美国能源部科学办公室的核心高性能计算设施。其当前旗舰系统Perlmutter拥有7,168个NVIDIA A100 GPU，服务于约12,642名用户，支持1,303个项目，年存储约520 PB数据。下一代系统Doudna（NERSC-10）基于NVIDIA Vera Rubin平台，预计2026年底交付，性能将达Perlmutter的10倍以上。

核心挑战：AI工作负载的复杂性激增

传统HPC以批处理仿真为主，但NERSC的工作负载已发生根本变化：

使用PyTorch和TensorFlow的用户自2017年以来增长了30倍以上；
约32%的项目描述中包含“学习”关键词（2018年仅4%）；
37%的受访用户已拥有用于科学生产的完整ML工作流。

AI for science工作流通常将训练、仿真和实验耦合为循环，需要超参数扫描、大规模模型训练，同时要求可观测性、可重现性及可溯源能力。对于拥有上万名跨领域研究人员的机构，如何让科学家无需成为基础设施专家就能高效运行现代AI工作流是核心痛点。

NERSC对ClearML的探索与应用

NERSC数据与AI服务负责人Steven Farrell指出，他们需要编排跨HPC环境（包括Slurm管理的资源、大规模作业数组、LLM推理与代理工作流）以及异构系统（如Perlmutter和美国科学云AmSC）的AI工作负载。ClearML被纳入软件栈，作为实现以下目标的关键组件：

工作流编排与自动化：管理多步骤AI管道，涵盖数据预处理、训练、评估和部署。
多集群管理：统一调度Perlmutter、Doudna及AmSC等不同计算资源。
实验跟踪与可重复性：记录超参数、代码版本、模型指标，确保科学结果可验证。
智能资源分配：根据工作负载需求动态分配GPU，提升资源利用率。

NERSC计划在Doudna上实现五大先进工作流能力：智能资源分配、AI原生支持、工作流可移植性、超HPC能力（如LLM服务）和无缝工作流集成，ClearML正是该技术栈的一部分。

值得关注

这一案例显示了国家级科研设施在AI时代的管理模式转型——从“提供计算”转向“提供AI就绪的工作流平台”。ClearML作为开源MLOps平台，在HPC领域的落地为其它大型科研中心（如欧洲的Jülich、日本的东京大学等）提供了参考。Doudna的交付（2027年早期用户访问）将检验该集成方案在实际科学工作负载上的表现。

阅读原文详情

事件概述

核心挑战：AI工作负载的复杂性激增

NERSC对ClearML的探索与应用

值得关注

准备好启动您的定制项目了吗？