蚂蚁吴伟详解GPU训推一体调度：如何逼近硬件与SLO的双重天花板

2026/06/24 11:40阅读量 2

蚂蚁集团技术负责人吴伟接受采访，阐述GPU训练与推理统一池化调度的技术方案、国产芯片适配现状及挑战，并指出软件优化存在硬件与SLO双重天花板，后期仍需扩容。

蚂蚁集团AI基础架构负责人吴伟在对话中系统介绍了训推一体池化调度的实践，包括GPU与CPU结构性差异、训练推理合池的潮汐利用、国产芯片生态短板以及优化天花板等问题。

GPU结构性稀缺：大模型时代训练需千卡级gang调度，且存在网络拓扑与节点内部差异；推理则需分布式并行模式（TP、PP等）及KV Cache分配，与CPU同构管理完全不同。
训推合池动因：外部英伟达限购导致资源受限，内部发现训练与推理集群各自有空闲时段（推理夜间周末低谷、训练随研发节奏潮汐），打通可提升整体利用率。
三层优化策略：
1. 软件栈打平（OS、CUDA驱动、管控统一）
2. 精细资源管理：高优任务（预训练、在线推理）保SLO，低优任务用弹性配额超卖空闲资源
3. 抢占回收机制：基于Checkpoint时机智能排序，降低算力损耗
国产芯片现状：推理场景已能规模化生产，但训练生态差距明显。单卡算力（FLOPS）接近英伟达，全链路适配、算子优化、运行稳定性仍是短板。精度对齐（与英伟达baseline对比）消耗大量人力。
适配工作量：国产芯片适配需额外精度对齐排查，即使自动化工具有限仍依赖人工经验。企业需提前构建端到端评测能力（功能、性能、精度、稳定性）。
优化天花板：硬件本身与业务SLO（TTFT/TPOT）构成双重上限。推理引擎优化只能趋近硬件极限，集群级方案（合池、Auto Scaling、快速抢占）才能逼近SLO天花板。

吴伟指出训推一体不适用于两类场景：业务快速迭代初期（干扰大）及单一技术栈公司（无混部需求），且不差钱的团队可暂缓此类优化。

准备好启动您的定制项目了吗？