万卡集群利用率不足20%：TaaS平台如何破解算力“空转”困局

2026/03/30 10:46阅读量 36

面对国内智算集群综合利用率不足20%、高端资源闲置严重的结构性困境，趋境科技于2026年3月27日中关村论坛期间发布ATaaS平台，旨在重构Token生产效率。该平台通过异构推理、存算协同及智能调度等核心技术，实现日均万亿级稳态Token产出，并将GPU开销降低90%。行业共识正从单纯比拼算力规模转向以Token生产为核心指标的综合效能竞争，推动基础设施向“Token工厂”演进。

事件概述

2026年3月27日，在2026中关村论坛期间，趋境科技（Approaching.AI）正式发布全新一代AI推理平台——趋境ATaaS（Token as a Service）。该平台的推出旨在解决当前AI产业中算力投入与Token产出严重失衡的痛点，标志着行业竞争焦点从模型参数规模转向Token生产效率的综合衡量。

核心痛点：算力“空转”与结构性浪费

当前国内智算基础设施面临严峻的结构性困境，主要表现为：

资源配比失衡：Token生成过度绑定GPU，导致高端内存、集群SSD、IB互联等昂贵资源利用率不足10%，整机综合利用率低于20%。
软硬协同短板：硬件持续迭代但软件优化与分布式并行稳定性不足，导致超80%理论算力被浪费，粗放调度又造成隐形损耗超50%算力。
供需矛盾：随着智能体、AI Coding等应用爆发，Token消耗量呈百倍千倍级跃升，但服务供给端深陷亏损，大量智算资源长期低效空转。

技术突破：重构Token生产效率

趋境ATaaS平台以极致高效能Token生产为核心，通过四大底层技术优化打破瓶颈：

异构推理2.0（“六合”）：深度融合CPU与GPU、国产及非国产异构算力，实现任务智能分流，将万卡级集群运营成本压降20%以上。
以存换算2.0（“月饼”）：利用超体量KV Cache缓存技术，将存储空间拓展百倍至千倍，最高实现90%缓存命中率，直接削减90%的GPU算力开销。
“双仪”虚实同构：依托算子级SLO仿真能力，完成算力资源智能预规划与动态调优，使万卡级集群硬件综合利用率实现数倍提升。
“万象”极致弹性：支持万亿参数大模型7秒极速拉起、动态配置变更及数百节点超大规模EP弹性调度，打通规模化量产壁垒。

关键成效：

可承载万级并发AI推理业务。
支撑集群实现日均万亿级稳态Token产出落地。
每单位算力和能耗投入转化为更稳定、可衡量的Token价值产出。

生态协同与行业标准

为弥合国产推理基础设施“可用”与“好用”之间的鸿沟，趋境ATaaS正推动产业链上下游的深度协同：

华为昇腾：双方展开全方位合作，部分项目中在昇腾AI集群上实现了2倍以上性能提升。
九源智能计算系统：打造全国产化方案，适配多款GPU，通过“九齿”编程语言及Mooncake推理加速系统与KTransformers框架联动。
并行科技：联合优化高质量Token生产成本，特定场景下集群性能提升50%，服务于智谱、Kimi、MiniMax、DeepSeek等头部大模型客户。
京东云：联合打造推理引擎，推动Mooncake开源生态发展。

行业共识

基于上述实践，行业各方形成三大共识：

软硬深度协同是释放国产算力潜能的关键，需通过系统级优化弥合硬件性能与业务需求差距。
生态统一与标准建设至关重要，需打破“百花齐放”带来的适配难题以实现规模化应用。
人才培养是产业根基，需通过开源社区和技术竞赛培育兼具理论与工程能力的AI Infra人才。

此次发布标志着AI基础设施发展正式从“数据中心”向“Token工厂”全面演进，首包响应时延（TTFT）、Token吞吐效率（TPS）与全域资源利用率成为新的核心考核维度。

阅读原文详情

事件概述

核心痛点：算力“空转”与结构性浪费

技术突破：重构Token生产效率

生态协同与行业标准

行业共识

准备好启动您的定制项目了吗？