谷歌一篇论文干崩内存股！KV缓存压缩6倍，美光西数闪迪集体跳水

谷歌向内存开战，直接让存储巨头们集体失眠
3月26日消息，谷歌研究院发布TurboQuant压缩算法，可将AI推理中的KV缓存压缩至少6倍，精度零损失
。在H100显卡上实现8倍速度提升。这将使本地AI推理能力大幅提升，支持更大的上下文窗口，并在各类设备上减轻内存压力。论文将在ICLR 2026正式亮相。

KV缓存是大模型生成文本时，每生成一个新词都要“回顾”之前所有词的信息。为避免重复计算，模型会把每一层产生的Key和Value向量临时存起来，形成一张“速查表”。这张表随对话长度线性膨胀——上下文从4K扩展到128K时，KV缓存消耗的显存往往反超模型参数本身，成为推理阶段最大的内存瓶颈。

TurboQuant用两步解决这个问题：先用极坐标量化（PolarQuant）把传统XYZ坐标换成“距离+角度”的极坐标描述，省掉归一化常数开销；再用1比特误差校正（QJL）抹平压缩残留的系统性偏差。全程无需微调和训练数据，直接将KV缓存压至3比特，实现无损压缩。

消息公布后，美股存储芯片板块集体下挫：美光科技跌4%，西部数据跌4.4%，闪迪跌6.5%。A股存储芯片股同样走低，兆易创新、佰维存储跌超5%。Cloudflare CEO评价这是“谷歌的DeepSeek时刻”。

网友反应两极分化。有人调侃：“内存股崩了，内存价格能不能也崩一崩？”也有人冷静指出：“压缩算法存在多年，训练环节不受影响，内存价格一时半会恐怕下不来。”还有开发者开始复现论文：“在RTX 4090上2-bit跑Gemma 3 4B，输出与未压缩版逐字符一致。”更有网友惊呼：“这不就是HBO美剧《硅谷》里的Pied Piper吗？”剧中虚构创业公司的核心技术就是一种近乎无损的极限压缩算法。

英伟达同场会议也将推出KVTC压缩算法，可实现20倍压缩，精度损失不到1个百分点。两种技术路线同期亮相，KV缓存优化正从研究课题走向生产级基础设施。

DC娱乐网

谷歌一篇论文干崩内存股！KV缓存压缩6倍，美光西数闪迪集体跳水

热门分类