蚂蚁吴伟详解GPU训推一体调度:如何逼近硬件与SLO的双重天花板

2026/06/24 11:40阅读量 2

蚂蚁集团技术负责人吴伟接受采访,阐述GPU训练与推理统一池化调度的技术方案、国产芯片适配现状及挑战,并指出软件优化存在硬件与SLO双重天花板,后期仍需扩容。

事件概述

蚂蚁集团AI基础架构负责人吴伟在对话中系统介绍了训推一体池化调度的实践,包括GPU与CPU结构性差异、训练推理合池的潮汐利用、国产芯片生态短板以及优化天花板等问题。

核心信息

  • GPU结构性稀缺:大模型时代训练需千卡级gang调度,且存在网络拓扑与节点内部差异;推理则需分布式并行模式(TP、PP等)及KV Cache分配,与CPU同构管理完全不同。
  • 训推合池动因:外部英伟达限购导致资源受限,内部发现训练与推理集群各自有空闲时段(推理夜间周末低谷、训练随研发节奏潮汐),打通可提升整体利用率。
  • 三层优化策略
    1. 软件栈打平(OS、CUDA驱动、管控统一)
    2. 精细资源管理:高优任务(预训练、在线推理)保SLO,低优任务用弹性配额超卖空闲资源
    3. 抢占回收机制:基于Checkpoint时机智能排序,降低算力损耗
  • 国产芯片现状:推理场景已能规模化生产,但训练生态差距明显。单卡算力(FLOPS)接近英伟达,全链路适配、算子优化、运行稳定性仍是短板。精度对齐(与英伟达baseline对比)消耗大量人力。
  • 适配工作量:国产芯片适配需额外精度对齐排查,即使自动化工具有限仍依赖人工经验。企业需提前构建端到端评测能力(功能、性能、精度、稳定性)。
  • 优化天花板:硬件本身与业务SLO(TTFT/TPOT)构成双重上限。推理引擎优化只能趋近硬件极限,集群级方案(合池、Auto Scaling、快速抢占)才能逼近SLO天花板。

值得关注

吴伟指出训推一体不适用于两类场景:业务快速迭代初期(干扰大)及单一技术栈公司(无混部需求),且不差钱的团队可暂缓此类优化。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。