Google的TurboQuant将AI模型压缩6倍性能不打折
Google推出TurboQuant算法,通过极坐标转换将键值缓存压缩至3位,内存占用减少6倍,在Gemma等模型上实现无损压缩且无需额外训练。4位模式下注意力计算速度较32位提升8倍。该技术可降低AI部署成本、释放内存以支持更复杂模型或更多用户,尤其利好移动端设备端AI,兼顾隐私与低延迟需求,推动高性能AI在资源受限设备上的普及。
Google推出TurboQuant算法,通过极坐标转换将键值缓存压缩至3位,内存占用减少6倍,在Gemma等模型上实现无损压缩且无需额外训练。4位模式下注意力计算速度较32位提升8倍。该技术可降低AI部署成本、释放内存以支持更复杂模型或更多用户,尤其利好移动端设备端AI,兼顾隐私与低延迟需求,推动高性能AI在资源受限设备上的普及。
谷歌发布了Gemini 3.1 Flash Live,这是一款专为实时对话设计的新型人工智能音频模型。该技术正在谷歌搜索、Gemini和开发者工具中逐步推出,旨在消除传统AI语音系统中常见的延迟和不自然语调问题,可能使机器声音与人类声音难以区分。