谷歌的TurboQuant AI压缩算法可以将LLM内存使用量降低6倍

引言：谷歌最新提出的TurboQuant算法，通过将高维向量从直角坐标映射至极坐标体系，配合创新的误差校正机制，在保持模型精度的前提下将键值缓存压缩至3比特，实现6倍内存节省与8倍推理加速。

即便不熟悉生成式AI的技术细节，多数人也知道这类模型极为消耗内存——当前内存条的高昂价格便是明证。针对这一痛点，谷歌研究院近日发布TurboQuant压缩算法，能在不损失模型精度的前提下，将大语言模型的内存占用降低6倍，同时实现8倍速度提升。

TurboQuant AI压缩算法

该算法的核心突破在于重构了被称为“键值缓存”的关键模块。这个如同“数字草稿本”的组件负责存储模型已处理过的信息，避免重复计算。由于大语言模型本质是通过高维向量构建语义关联，每个向量可能包含数百至数千个嵌入维度，当处理长文本或复杂数据集时，缓存规模会急剧膨胀，形成性能瓶颈。传统应对方案是降低计算精度（即量化），但这往往导致输出质量下降。

TurboQuant通过两步走实现精准压缩。第一步采用独创的PolarQuant系统，将传统笛卡尔坐标系下的向量转换为极坐标表示。这好比将“向东3街区、向北4街区”的复杂导航指令简化为“沿37度方向行进5街区”——通过将向量拆解为核心强度（半径）与语义方向（角度）两个要素，既压缩了存储空间，又规避了耗时的数据标准化流程。第二步则针对极坐标转换产生的残余误差，引入Quantized Johnson-Lindenstrauss（QJL）技术。该方法为模型添加1比特误差修正层，将每个向量简化为+1/-1的二进制标识，在保留关键关联信息的同时提升注意力机制的精确度。

在实验验证阶段，谷歌使用Gemma和Mistral开源模型，在长文本基准测试中证实：TurboQuant可将键值缓存压缩至3比特，在保持完美下游任务表现的同时，使H100加速器上的注意力计算速度较32位未量化版本提升8倍。更关键的是，该算法无需额外训练即可直接应用于现有模型。

这项技术的落地将产生双重影响：一方面直接降低AI模型的运营成本与内存需求，另一方面释放的硬件资源可支撑更复杂的模型架构。对于受限于功耗与散热问题的移动设备而言，这种无需云端协同的本地压缩方案，或将真正实现高质量AI服务的端侧落地。当前研究团队已在预印本平台公开技术细节，为行业提供了可快速部署的优化路径。

思为交互