Google的TurboQuant将AI模型压缩6倍性能不打折

引言：键值缓存是大型语言模型推理的关键，但其高内存占用限制了AI部署。Google新推出的TurboQuant算法在保持完美结果的前提下，通过极坐标转换将缓存压缩至3位，内存减少6倍，计算速度提升8倍。这项无需额外训练的技术有望大幅降低AI运行成本，并推动高性能模型在移动设备等资源受限场景中的落地。

Google has unveiled TurboQuant, an innovative compression technique that significantly reduces the m

键值缓存存储了推理过程中需要的重要信息，避免重复计算，对于大型语言模型的运行至关重要。然而，这些缓存消耗大量内存资源，限制了AI模型的部署方式和场景。与其他会牺牲输出质量的压缩方法不同，TurboQuant在显著减少内存占用的同时保持了完美的结果。

该系统通过两步流程工作。Google开发了PolarQuant来处理高质量压缩，将传统的笛卡尔向量坐标转换为极坐标。在标准AI模型中，向量使用XYZ坐标编码，但PolarQuant将它们转换为圆环上的半径（代表核心数据强度）和方向（表示数据的语义含义）。

Google提供了一个启发性的现实类比：传统编码可能给出”向东走3个街区，向北走4个街区”的方向，而极坐标方法则简单地说”沿37度方向走5个街区”。这种数学转换需要更少的存储空间，并消除了系统原本需要执行的昂贵的数据归一化步骤。

结果不言自明。Google在Gemma和Mistral开放模型上，通过一套长上下文基准测试对这种新算法压缩进行了测试。TurboQuant在所有测试中都实现了完美的下游结果，同时将键值缓存的内存使用量减少了六倍。该算法可以将缓存量化为仅3位，无需额外训练，即可立即应用于现有模型。此外，使用4位TurboQuant计算注意力分数比在Nvidia H100加速器上运行32位未量化键快八倍。

这对AI部署的影响意义重大。如果广泛实施，TurboQuant可以使AI模型的运行成本降低，内存需求减少。或者，公司可以利用新释放的内存来运行更复杂的模型或同时服务更多用户。很可能的结果是两种方法的结合。

移动AI应用将特别受益。由于智能手机面临固有的硬件限制，TurboQuant这样的压缩技术可以显著提高设备端AI输出的质量，而无需用户将数据发送到云端处理。这对于注重隐私的用户和低延迟至关重要的场景来说，是一个有意义的进步。

这一突破表明，通过创新的算法方法，在AI基础设施中仍然可以实现显著的效率提升，可能会在不同计算资源的设备上普及强大的AI能力。

文章来源：网络