RaBitQ作者回应谷歌TurboQuant争议:向量量化已达理论最优,存储需求将转向硬件扩张
针对谷歌TurboQuant算法引发的学术不端争议,RaBitQ两位作者龙程与高健扬指出该论文存在隐瞒借鉴、贬低先行研究及不公平对比等问题。RaBitQ凭借理论上的最优误差界和无需校准数据的特性,已被Meta、微软等20余家企业采用,成为向量压缩的主流方案。作者强调向量量化技术已接近瓶颈,未来存储增长将主要依赖硬件扩容而非算法突破。
事件背景:TurboQuant学术争议与RaBitQ的回应
2026年3月25日,Google Research官方博客发布学术论文TurboQuant,宣称可将大模型KV Cache内存占用减少6倍,引发市场波动。随后,该算法陷入学术不端风波,被指涉嫌隐瞒核心技术借鉴、错误贬低先行研究以及在实验中采用极度不公平的硬件对比。
作为被质疑方的RaBitQ团队(由新加坡南洋理工大学副教授龙程与苏黎世联邦理工学院博士后高健扬领衔),在事件发酵前已多次尝试沟通:
- 2025年5月:主动联系TurboQuant团队,要求修正论文事实性错误。
- 2025年11月:通过官方渠道联系ICLR 2026程序委员会主席(PC Chairs)。
- 2026年3月:再次请求进行正式的学术道德审查。
在收到TurboQuant第一作者Amir Zandieh强硬回复(拒绝立即更正,仅承诺会议后修改)且未获其他作者(包括谷歌副总裁Vahab Mirrokni)回应后,RaBitQ团队选择公开发声并揭露相关细节。
RaBitQ核心技术与优势
1. 理论保障与最优误差
RaBitQ的核心创新在于利用随机旋转(Johnson-Lindenstrauss变换)结合高维空间特殊性质,实现了向量量化的理论最优误差界。与传统的乘积量化(PQ)或标量量化不同,RaBitQ能在相同压缩率下提供“最坏情况”下的误差保证,解决了工业界对算法泛化性和安全性的担忧。
2. 层次化检索机制
RaBitQ支持二阶段计算范式:
- 先使用极低精度(如1-bit)进行快速估算,若结果满足条件则直接终止。
- 仅在必要时引入更多比特(如4-bit)进行增量计算。
这种机制显著提升了检索效率,是此前算法无法实现的。
3. 实现简单与强泛化性
- 实现简洁:内部操作仅涉及随机旋转和网格取整,易于与CPU并行特性兼容。
- 数据无关:算法不依赖特定数据集假设,因此在多种业务场景和数据分布上表现稳定。
行业应用与演进现状
广泛部署
截至目前,RaBitQ已被全球超过20家互联网大厂和数据库厂商引入,包括:Meta、Apple、微软、字节跳动、腾讯、阿里、蚂蚁集团等。开源生态中,Milvus、VectorChord、Elasticsearch、OpenSearch等系统也已集成该技术。
从向量搜索到KV Cache
虽然RaBitQ最初面向向量数据库(RAG、推荐系统等),但其通用性使其在大模型领域展现出巨大潜力:
- 权重压缩 vs KV Cache:大模型权重相对静态,适合离线量化;而KV Cache动态性强,每个查询产生新数据。RaBitQ无需校准数据即可直接应用于KV Cache量化,适配在线场景。
- 工程落地:团队已重构代码并开源RaBitQ Library,集成了更高效的旋转算法和针对现代GPU/CPU的优化实现,便于企业快速部署。
未来展望:算法瓶颈与硬件依赖
软件层面的天花板
高健扬指出,RaBitQ在相同误差下已达到向量量化的理论极限(最优压缩率)。这意味着在软件层面,向量量化技术已触及天花板,难以通过算法进一步大幅降低存储开销。
硬件驱动的增长
由于算法优化空间有限,未来存储需求的增长将不得不依赖硬件扩容。作者预测:
- 向量量化技术的进步不会减少存储需求,反而因性能提升带动应用场景扩展,增加总存储压力。
- 未来KV Cache管理可能呈现多级存储趋势(内存、硬盘、远程存储),类似传统数据库架构。
后续研究方向
团队计划继续探索:
- 向量数据库深化:结合图索引、IVF倒排索引,以及混合向量搜索、流式场景等新形态。
- 跨领域拓展:将RaBitQ应用于大模型权重量化及其他机器学习基础设施环节。
- 软硬协同:与英伟达合作,基于RaBitQ的索引正进入其cuVS向量检索库的预审阶段。
- RaBitQ (1-bit): https://arxiv.org/pdf/2405.12497
- RaBitQ (multi-bit): https://arxiv.org/pdf/2409.09913
- RaBitQ Library: https://github.com/VectorDB-NTU/RaBitQ-Library
