谷歌一篇论文干崩内存股!KV缓存压缩6倍,美光西数闪迪集体跳水
谷歌向内存开战,直接让存储巨头们集体失眠
3月26日消息,谷歌研究院发布TurboQuant压缩算法,可将AI推理中的KV缓存压缩至少6倍,精度零损失
。在H100显卡上实现8倍速度提升。这将使本地AI推理能力大幅提升,支持更大的上下文窗口,并在各类设备上减轻内存压力。论文将在ICLR 2026正式亮相。
KV缓存是大模型生成文本时,每生成一个新词都要“回顾”之前所有词的信息。为避免重复计算,模型会把每一层产生的Key和Value向量临时存起来,形成一张“速查表”。这张表随对话长度线性膨胀——上下文从4K扩展到128K时,KV缓存消耗的显存往往反超模型参数本身,成为推理阶段最大的内存瓶颈。
TurboQuant用两步解决这个问题:先用极坐标量化(PolarQuant)把传统XYZ坐标换成“距离+角度”的极坐标描述,省掉归一化常数开销;再用1比特误差校正(QJL)抹平压缩残留的系统性偏差。全程无需微调和训练数据,直接将KV缓存压至3比特,实现无损压缩。
消息公布后,美股存储芯片板块集体下挫:美光科技跌4%,西部数据跌4.4%,闪迪跌6.5%。A股存储芯片股同样走低,兆易创新、佰维存储跌超5%。Cloudflare CEO评价这是“谷歌的DeepSeek时刻”。
网友反应两极分化。有人调侃:“内存股崩了,内存价格能不能也崩一崩?”也有人冷静指出:“压缩算法存在多年,训练环节不受影响,内存价格一时半会恐怕下不来。”还有开发者开始复现论文:“在RTX 4090上2-bit跑Gemma 3 4B,输出与未压缩版逐字符一致。”更有网友惊呼:“这不就是HBO美剧《硅谷》里的Pied Piper吗?”剧中虚构创业公司的核心技术就是一种近乎无损的极限压缩算法。
英伟达同场会议也将推出KVTC压缩算法,可实现20倍压缩,精度损失不到1个百分点。两种技术路线同期亮相,KV缓存优化正从研究课题走向生产级基础设施。