谷歌的TurboQuant AI压缩算法可以将LLM内存使用量降低6倍

谷歌研究团队推出TurboQuant压缩算法,通过结合PolarQuant坐标转换与QJL误差校正,将大语言模型的键值缓存压缩至3比特,实现6倍内存缩减与8倍性能提升,且不损失模型精度。该技术无需额外训练即可适配现有模型,有望降低AI部署成本,尤其可推动移动端复杂模型的本地化运行。

继续阅读谷歌的TurboQuant AI压缩算法可以将LLM内存使用量降低6倍