You are currently viewing 谷歌的TurboQuant AI压缩算法可以将LLM内存使用量降低6倍

谷歌的TurboQuant AI压缩算法可以将LLM内存使用量降低6倍

引言:谷歌最新提出的TurboQuant算法,通过将高维向量从直角坐标映射至极坐标体系,配合创新的误差校正机制,在保持模型精度的前提下将键值缓存压缩至3比特,实现6倍内存节省与8倍推理加速。

即便不熟悉生成式AI的技术细节,多数人也知道这类模型极为消耗内存——当前内存条的高昂价格便是明证。针对这一痛点,谷歌研究院近日发布TurboQuant压缩算法,能在不损失模型精度的前提下,将大语言模型的内存占用降低6倍,同时实现8倍速度提升。

TurboQuant AI压缩算法

该算法的核心突破在于重构了被称为“键值缓存”的关键模块。这个如同“数字草稿本”的组件负责存储模型已处理过的信息,避免重复计算。由于大语言模型本质是通过高维向量构建语义关联,每个向量可能包含数百至数千个嵌入维度,当处理长文本或复杂数据集时,缓存规模会急剧膨胀,形成性能瓶颈。传统应对方案是降低计算精度(即量化),但这往往导致输出质量下降。

TurboQuant通过两步走实现精准压缩。第一步采用独创的PolarQuant系统,将传统笛卡尔坐标系下的向量转换为极坐标表示。这好比将“向东3街区、向北4街区”的复杂导航指令简化为“沿37度方向行进5街区”——通过将向量拆解为核心强度(半径)与语义方向(角度)两个要素,既压缩了存储空间,又规避了耗时的数据标准化流程。第二步则针对极坐标转换产生的残余误差,引入Quantized Johnson-Lindenstrauss(QJL)技术。该方法为模型添加1比特误差修正层,将每个向量简化为+1/-1的二进制标识,在保留关键关联信息的同时提升注意力机制的精确度。

在实验验证阶段,谷歌使用Gemma和Mistral开源模型,在长文本基准测试中证实:TurboQuant可将键值缓存压缩至3比特,在保持完美下游任务表现的同时,使H100加速器上的注意力计算速度较32位未量化版本提升8倍。更关键的是,该算法无需额外训练即可直接应用于现有模型。

这项技术的落地将产生双重影响:一方面直接降低AI模型的运营成本与内存需求,另一方面释放的硬件资源可支撑更复杂的模型架构。对于受限于功耗与散热问题的移动设备而言,这种无需云端协同的本地压缩方案,或将真正实现高质量AI服务的端侧落地。当前研究团队已在预印本平台公开技术细节,为行业提供了可快速部署的优化路径。

思为交互

思为交互科技

思为交互科技是一家“从云到端”的新型物联网及工业4.0技术公司,可以为各类生产制造型企业提供从硬件到云端全套的解决方案。我公司Galileo OS数据基座融合AI大模型、数据中台、物联网等技术,推动制造业工厂数字化转型。从数字化车间到智能工厂,全面覆盖安全、生产、质量、设备管理等业务。

声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:sales@idmakers.cn删除,任何个人或组织,需要转载可以自行与原作者联系。