趋境科技发布ATaaS：重构算力与Token产出效能曲线

2026/03/28 03:14阅读量 74

趋境科技正式发布ATaaS高效能AI Token生产服务平台，旨在解决硬件高投入与Token低产出的行业痛点。该平台通过异构推理、超体量KV Cache缓存、算子级SLO仿真及极致弹性四大核心技术，实现万卡集群运营成本压降20%以上及GPU算力开销削减90%。此举标志着AI基础设施竞争焦点从单纯规模扩张转向Token生产效率的综合衡量。

事件概述

近日，趋境科技（Approaching.AI）正式发布全新一代 AI 推理平台——趋境 ATaaS（Approaching.AI Token as a Service）。该平台定位为“全球领先的高效能 AI Token 生产服务平台”，旨在破解当前人工智能产业中算力采购、部署成本攀升与实际 Token 产出不匹配的行业困境。

随着应用形态向多智能体协作、长链路推理扩展，Token 需求激增，但传统智算集群存在资源利用率低、软硬件迭代失衡等问题。ATaaS 的推出标志着行业关注点从“数据中心”规模竞争转向“Token 工厂”的效率竞争。

核心痛点分析

当前 Token 生产面临四大产业瓶颈：

硬件负载分化：过度依赖 GPU，CPU、内存、SSD 等资源长期闲置，全系统硬件资源利用率不足 20%。
软硬件迭代失衡：芯片更新快但软件生态适配滞后，导致超过 80% 的理论算力无法充分利用。
算力配置失准：缺乏基于业务 SLO（服务等级目标）的精细化调度，粗放配额导致超 50% 的算力资源被隐形浪费。
架构演进失衡：开源组件拼接难以支撑大规模集群协同，原生架构对 KV Cache 等关键参数感知不足，引发性能下降和运维复杂度上升。

四大核心技术突破

趋境 ATaaS 依托四项自研技术重构 Token 生产效能曲线：

1. 六合：异构推理 2.0

技术原理：深度融合 CPU+GPU、国产与非国产算力，采用 PD（Prefill/Decode）分离技术，基于算子特征智能分流任务。
效能提升：CPU 承载低计算密度任务，国产算力卡处理高密度 Prefill，大显存显卡承载高访存 Decode。
成果：万卡级智算集群整体运营成本压降 20% 以上。

2. 月饼：以存换算 2.0

技术原理：全球首创超体量 KV Cache 缓存技术，通过架构重构将原本依赖昂贵显存的存储空间扩展百倍至千倍。
效能提升：形成近乎无限的缓存池，缓存命中率最高可达 90%。
成果：直接削减 90% 的 GPU 算力开销。

3. 双仪：虚实同构

技术原理：全球首创算子级 SLO 仿真，推演大模型 Token 生成全链路的吞吐、时延与访存表现。
效能提升：实现算力资源智能预规划与动态调优，围绕业务 SLO 分级需求精准切分异构算力配额。
成果：万卡级智算集群硬件综合资源利用率最高提升数倍。

4. 万象：极致弹性

技术原理：打通规模化量产壁垒，支持万亿参数大模型 7 秒快速拉起与动态配置变更，具备数百节点超大规模 EP 弹性调度能力。
成果：在落地初期推动某在线公司 AI 业务实现千卡集群吞吐翻倍提升。

行业意义

趋境 ATaaS 不仅拓展了推理基础设施的技术边界，更重新定义了 AI 基础设施的建设标准：

指标转变：从关注算力规模转向综合衡量 Token 响应延时（TTFT）、Token 吞吐（TPS）及资源利用效率。
价值转化：通过提升调度效率与优化推理过程，使每单位算力和能耗投入转化为数倍的 Token 价值产出，为国产算力提质增效提供标杆方案。

阅读原文详情