万卡集群利用率不足20%:TaaS平台如何破解算力“空转”困局

2026/03/30 10:46阅读量 2

面对国内智算集群综合利用率不足20%、高端资源闲置严重的结构性困境,趋境科技于2026年3月27日中关村论坛期间发布ATaaS平台,旨在重构Token生产效率。该平台通过异构推理、存算协同及智能调度等核心技术,实现日均万亿级稳态Token产出,并将GPU开销降低90%。行业共识正从单纯比拼算力规模转向以Token生产为核心指标的综合效能竞争,推动基础设施向“Token工厂”演进。

事件概述

2026年3月27日,在2026中关村论坛期间,趋境科技(Approaching.AI)正式发布全新一代AI推理平台——趋境ATaaS(Token as a Service)。该平台的推出旨在解决当前AI产业中算力投入与Token产出严重失衡的痛点,标志着行业竞争焦点从模型参数规模转向Token生产效率的综合衡量。

核心痛点:算力“空转”与结构性浪费

当前国内智算基础设施面临严峻的结构性困境,主要表现为:

  • 资源配比失衡:Token生成过度绑定GPU,导致高端内存、集群SSD、IB互联等昂贵资源利用率不足10%,整机综合利用率低于20%。
  • 软硬协同短板:硬件持续迭代但软件优化与分布式并行稳定性不足,导致超80%理论算力被浪费,粗放调度又造成隐形损耗超50%算力。
  • 供需矛盾:随着智能体、AI Coding等应用爆发,Token消耗量呈百倍千倍级跃升,但服务供给端深陷亏损,大量智算资源长期低效空转。

技术突破:重构Token生产效率

趋境ATaaS平台以极致高效能Token生产为核心,通过四大底层技术优化打破瓶颈:

  1. 异构推理2.0(“六合”):深度融合CPU与GPU、国产及非国产异构算力,实现任务智能分流,将万卡级集群运营成本压降20%以上。
  2. 以存换算2.0(“月饼”):利用超体量KV Cache缓存技术,将存储空间拓展百倍至千倍,最高实现90%缓存命中率,直接削减90%的GPU算力开销。
  3. “双仪”虚实同构:依托算子级SLO仿真能力,完成算力资源智能预规划与动态调优,使万卡级集群硬件综合利用率实现数倍提升。
  4. “万象”极致弹性:支持万亿参数大模型7秒极速拉起、动态配置变更及数百节点超大规模EP弹性调度,打通规模化量产壁垒。

关键成效

  • 可承载万级并发AI推理业务。
  • 支撑集群实现日均万亿级稳态Token产出落地。
  • 每单位算力和能耗投入转化为更稳定、可衡量的Token价值产出。

生态协同与行业标准

为弥合国产推理基础设施“可用”与“好用”之间的鸿沟,趋境ATaaS正推动产业链上下游的深度协同:

  • 华为昇腾:双方展开全方位合作,部分项目中在昇腾AI集群上实现了2倍以上性能提升。
  • 九源智能计算系统:打造全国产化方案,适配多款GPU,通过“九齿”编程语言及Mooncake推理加速系统与KTransformers框架联动。
  • 并行科技:联合优化高质量Token生产成本,特定场景下集群性能提升50%,服务于智谱、Kimi、MiniMax、DeepSeek等头部大模型客户。
  • 京东云:联合打造推理引擎,推动Mooncake开源生态发展。

行业共识

基于上述实践,行业各方形成三大共识:

  1. 软硬深度协同是释放国产算力潜能的关键,需通过系统级优化弥合硬件性能与业务需求差距。
  2. 生态统一与标准建设至关重要,需打破“百花齐放”带来的适配难题以实现规模化应用。
  3. 人才培养是产业根基,需通过开源社区和技术竞赛培育兼具理论与工程能力的AI Infra人才。

此次发布标志着AI基础设施发展正式从“数据中心”向“Token工厂”全面演进,首包响应时延(TTFT)、Token吞吐效率(TPS)与全域资源利用率成为新的核心考核维度。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。