Google 发布 TurboQuant:极坐标压缩算法大幅降低大模型内存占用
Google 研究院推出名为 TurboQuant 的 AI 压缩算法,通过将向量从 XYZ 笛卡尔坐标转换为极坐标系(半径与方向),显著减小了大模型的键值缓存大小。早期测试显示,该算法在部分场景下实现了 8 倍性能提升,并将内存占用降至原来的六分之一,且未造成精度损失。该技术有望降低 AI 运行成本并推动更复杂模型的发展,但短期内对降低硬件内存价格影响有限。
事件概述
Google 研究院发布了新型压缩算法 TurboQuant,旨在解决大语言模型(LLM)中键值缓存(Key-Value Cache)占用过大的问题。该算法被描述为一种“数字查找表”,用于减少推理过程中的重复计算。
核心原理
大模型通过向量映射来模拟语义理解,传统上这些向量使用 XYZ 三维笛卡尔坐标编码。TurboQuant 的创新在于将向量转换至极坐标系,仅保留两类关键信息:
- 半径(Radius):代表核心数据强度。
- 方向(Direction):代表数据含义。
这种转换简化了空间表达。例如,原需描述为“向东走 3 个街区,向北走 4 个街区”的向量,在极坐标下可简化为“沿 37 度方向走 5 个街区”,从而大幅节省存储空间和计算资源。
性能表现
根据 Google 的早期测试结果,TurboQuant 在特定任务中展现出以下优势:
- 性能提升:最高实现 8 倍 的速度提升。
- 内存优化:内存占用减少至原来的 1/6。
- 精度保持:模型输出质量未出现明显损失。
行业影响
- 成本与模型演进:该算法有助于显著降低 AI 模型的运行成本和内存需求,可能促使业界开发更复杂的模型架构。
- 硬件市场:尽管降低了单模型的资源消耗,但由于可能推动更高复杂度模型的出现,预计短期内对通用内存硬件价格的下降推动作用有限。
