算法技术归档 - 思为交互

谷歌的TurboQuant AI压缩算法可以将LLM内存使用量降低6倍

谷歌研究团队推出TurboQuant压缩算法，通过结合PolarQuant坐标转换与QJL误差校正，将大语言模型的键值缓存压缩至3比特，实现6倍内存缩减与8倍性能提升，且不损失模型精度。该技术无需额外训练即可适配现有模型，有望降低AI部署成本，尤其可推动移动端复杂模型的本地化运行。