Google 发布 TurboQuant：极坐标压缩算法大幅降低大模型内存占用

2026/03/29 19:05阅读量 32

Google 研究院推出名为 TurboQuant 的 AI 压缩算法，通过将向量从 XYZ 笛卡尔坐标转换为极坐标系（半径与方向），显著减小了大模型的键值缓存大小。早期测试显示，该算法在部分场景下实现了 8 倍性能提升，并将内存占用降至原来的六分之一，且未造成精度损失。该技术有望降低 AI 运行成本并推动更复杂模型的发展，但短期内对降低硬件内存价格影响有限。

事件概述

Google 研究院发布了新型压缩算法 TurboQuant，旨在解决大语言模型（LLM）中键值缓存（Key-Value Cache）占用过大的问题。该算法被描述为一种“数字查找表”，用于减少推理过程中的重复计算。

核心原理

大模型通过向量映射来模拟语义理解，传统上这些向量使用 XYZ 三维笛卡尔坐标编码。TurboQuant 的创新在于将向量转换至极坐标系，仅保留两类关键信息：

半径（Radius）：代表核心数据强度。
方向（Direction）：代表数据含义。

这种转换简化了空间表达。例如，原需描述为“向东走 3 个街区，向北走 4 个街区”的向量，在极坐标下可简化为“沿 37 度方向走 5 个街区”，从而大幅节省存储空间和计算资源。

性能表现

根据 Google 的早期测试结果，TurboQuant 在特定任务中展现出以下优势：

性能提升：最高实现 8 倍 的速度提升。
内存优化：内存占用减少至原来的 1/6。
精度保持：模型输出质量未出现明显损失。

行业影响

成本与模型演进：该算法有助于显著降低 AI 模型的运行成本和内存需求，可能促使业界开发更复杂的模型架构。
硬件市场：尽管降低了单模型的资源消耗，但由于可能推动更高复杂度模型的出现，预计短期内对通用内存硬件价格的下降推动作用有限。

参考资料

阅读原文详情

事件概述

核心原理

性能表现

行业影响

参考资料

准备好启动您的定制项目了吗？