趋境科技发布ATaaS:重构算力与Token产出效能曲线
趋境科技正式发布ATaaS高效能AI Token生产服务平台,旨在解决硬件高投入与Token低产出的行业痛点。该平台通过异构推理、超体量KV Cache缓存、算子级SLO仿真及极致弹性四大核心技术,实现万卡集群运营成本压降20%以上及GPU算力开销削减90%。此举标志着AI基础设施竞争焦点从单纯规模扩张转向Token生产效率的综合衡量。
事件概述
近日,趋境科技(Approaching.AI)正式发布全新一代 AI 推理平台——趋境 ATaaS(Approaching.AI Token as a Service)。该平台定位为“全球领先的高效能 AI Token 生产服务平台”,旨在破解当前人工智能产业中算力采购、部署成本攀升与实际 Token 产出不匹配的行业困境。
随着应用形态向多智能体协作、长链路推理扩展,Token 需求激增,但传统智算集群存在资源利用率低、软硬件迭代失衡等问题。ATaaS 的推出标志着行业关注点从“数据中心”规模竞争转向“Token 工厂”的效率竞争。
核心痛点分析
当前 Token 生产面临四大产业瓶颈:
- 硬件负载分化:过度依赖 GPU,CPU、内存、SSD 等资源长期闲置,全系统硬件资源利用率不足 20%。
- 软硬件迭代失衡:芯片更新快但软件生态适配滞后,导致超过 80% 的理论算力无法充分利用。
- 算力配置失准:缺乏基于业务 SLO(服务等级目标)的精细化调度,粗放配额导致超 50% 的算力资源被隐形浪费。
- 架构演进失衡:开源组件拼接难以支撑大规模集群协同,原生架构对 KV Cache 等关键参数感知不足,引发性能下降和运维复杂度上升。
四大核心技术突破
趋境 ATaaS 依托四项自研技术重构 Token 生产效能曲线:
1. 六合:异构推理 2.0
- 技术原理:深度融合 CPU+GPU、国产与非国产算力,采用 PD(Prefill/Decode)分离技术,基于算子特征智能分流任务。
- 效能提升:CPU 承载低计算密度任务,国产算力卡处理高密度 Prefill,大显存显卡承载高访存 Decode。
- 成果:万卡级智算集群整体运营成本压降 20% 以上。
2. 月饼:以存换算 2.0
- 技术原理:全球首创超体量 KV Cache 缓存技术,通过架构重构将原本依赖昂贵显存的存储空间扩展百倍至千倍。
- 效能提升:形成近乎无限的缓存池,缓存命中率最高可达 90%。
- 成果:直接削减 90% 的 GPU 算力开销。
3. 双仪:虚实同构
- 技术原理:全球首创算子级 SLO 仿真,推演大模型 Token 生成全链路的吞吐、时延与访存表现。
- 效能提升:实现算力资源智能预规划与动态调优,围绕业务 SLO 分级需求精准切分异构算力配额。
- 成果:万卡级智算集群硬件综合资源利用率最高提升数倍。
4. 万象:极致弹性
- 技术原理:打通规模化量产壁垒,支持万亿参数大模型 7 秒快速拉起与动态配置变更,具备数百节点超大规模 EP 弹性调度能力。
- 成果:在落地初期推动某在线公司 AI 业务实现千卡集群吞吐翻倍提升。
行业意义
趋境 ATaaS 不仅拓展了推理基础设施的技术边界,更重新定义了 AI 基础设施的建设标准:
- 指标转变:从关注算力规模转向综合衡量 Token 响应延时(TTFT)、Token 吞吐(TPS)及资源利用效率。
- 价值转化:通过提升调度效率与优化推理过程,使每单位算力和能耗投入转化为数倍的 Token 价值产出,为国产算力提质增效提供标杆方案。
