清华系团队打造“智能算力电网”:大模型Token成本降低40%
2026/05/29 10:47阅读量 3
是石科技脱胎于国家超算无锡中心,自主研发并行优化技术,构建全域异构算力池与国产TOKEN调优工厂。通过推理优化将吞吐量提升30%-50%,单位Token成本降低40%,并提供99.9%高可用服务,旨在解决国产算力闲置与落地难问题。
事件概述
是石科技(成立于2021年,由国家超级计算无锡中心核心团队联合组建,创始人闫博文为清华大学计算机系博士后)自主研发并行优化技术,将高性能计算与人工智能深度融合,打造“国产TOKEN调优工厂”,目标是将异构算力转化为标准化、低成本的Token产能。
核心信息
- 异构算力全域整合:搭建覆盖NVIDIA GPU、昇腾、昆仑芯、天数、太初、瀚博等国产芯片的资源池,通过智能调度与弹性扩缩容统一纳管,类似“智能电网”——企业无需关心具体算力来源,插上插头即可获取匹配的算力。团队已完成框架适配、算子兼容、通信优化等全链路优化。
- 推理优化技术:从算子、内存、调度、解码全维度革新,包括CUDA Kernel算子级优化、PagedAttention、Continuous Batching、混合精度推理、FlashAttention、推测解码、KV Cache管理、模型并行(TP/PP)等。实测在同等算力下,吞吐量提升30%-50%,单位Token成本降低40%,并有效控制延迟抖动。
- 高可用保障:构建多Provider互补与容灾体系(资源互补、技术互补、区域互补),自动Fallback故障切换,实现99.9%高可用性。类似飞机引擎多冗余设计,故障时0.1秒内自动切换,用户无感知。
值得关注
当前国产AI算力替代加速,是石科技选择不做算力转租平台,而是通过标准化、可量产的Token产能降低企业AI落地门槛,目标建成中国最大、技术最先进的国产TOKEN调优工厂,推动国产算力生态规模化、高质量发展。
