[LG]《XQuant:BreakingtheMemoryWallfo

爱生活爱珂珂 2025-08-16 06:33:53

[LG]《XQuant: Breaking the Memory Wall for LLM Inference with KV Cache Rematerialization》A Tomar, C Hooper, M Lee, H Xi... [UC Berkeley & FuriosaAI] (2025)

XQuant：突破LLM推理的内存瓶颈，创新KV Cache重计算技术

• 现状挑战：LLM推理受限于KV Cache巨大的内存占用和带宽需求，随着GPU计算能力远超内存带宽，传统KV Cache缓存方式成为性能瓶颈。

• 核心创新：XQuant不再缓存Keys和Values，而是对每层输入激活X进行低位量化并缓存，推理时动态重计算KV，内存使用量相比传统KV缓存降低约2倍。

• 极致压缩：XQuant-CL利用Transformer残差流中层间输入激活X的高度相似性，压缩层间差异，实现10-12.5倍内存压缩，3-bit和2-bit量化下仅有极小困惑度（perplexity）损失（分别为0.01和0.1）。

• 支持GQA：针对Grouped Query Attention结构，采用SVD分解权重矩阵，在线下降维输入激活X，量化潜在空间，保持内存优势同时提升量化准确度。

• 性能优势：在Llama-2、Llama-3.1和Mistral-7B等多模型和数据集上，XQuant与XQuant-CL在相同内存预算下，显著优于当前最先进KV Cache量化方法（如KVQuant和KIVI*），并保持近FP16精度。

• 计算权衡：XQuant通过额外计算换取大幅内存节省，符合未来硬件计算能力远超内存带宽的发展趋势，支持更长上下文推理且加速整体推理速度。

• 深层洞察：输入激活X的量化比KV Cache更易实现低位量化，且层间差异量化利用残差流特性达到极致压缩，揭示Transformer架构中信息演进的渐进性质。

• 下游验证：LongBench、GSM8K等长上下文及复杂推理任务评测显示，XQuant系列方法在多任务表现上匹配或优于基线，证明其实际应用价值。

XQuant代表了在存算不平衡背景下，利用计算资源突破内存限制的前瞻性思路，为大规模语言模型推理带来新的效率革命。

了解详情🔗arxiv.org/abs/2508.10395

大规模语言模型模型压缩量化推理加速内存优化Transformer

0 阅读：0

爱生活爱珂珂

感谢大家的关注

作者最新文章

1

【[612星]ai_agents_az：AI Agents A-Z项目，提供了一

2

早！[太阳] 早安

3

晚安～ [月亮] 晚安

4

「人人能懂的AI前沿」不止于“怎么用”：AI运行的五大核心原理

5

【[452星]Menlo/Jan-nano：一款为深度研究任务量身打造的紧凑型4

6

【[176星]torch-profiling-tutorial：PyTorch模

7

【[364星]ranuts/document：一款基于OnlyOffice的本地

8

【[465星]surf.new：一个让AI像人类一样上网冲浪的实验平台。亮点：1

9

【[19星]sae：让稀疏自编码器（SAE）轻松融入任何模型的框架。它能解决模型

10

【[295星]Anna's MCP Server (and CLI Tool)：

热门分类

推荐热榜军事 NBA 体育社会明星八卦娱乐财经科技汽车历史国际游戏动漫公益搞笑商业互联网数码国际足球房产家居时尚科学探索职场育儿股票教育影视情感热点中国军情武器中国南海中国足球亚洲杯科比综合体育 CBA 投资楼市大咖秀外汇创业风口 SUV 豪车概念车优惠新能源美国欧洲朝日韩俄罗斯孕期街拍恋爱攻略婚姻正能量

科技TOP

1

8月8日，河南许昌一小伙，在闲鱼上5300买了一台苹果16pro，结果顺丰配发当

2

台积电创始人张忠谋在接受纽约时报专访时说：美国、荷兰、日本、韩国与台湾牢牢控制着

3

同事iphone13pro有几年了，说电池健康度只有70%了，一天到晚的就见他

4

手机圈来袭！9-10月新机扎堆亮相荣耀Magic8Pro主打超强AI，

5

要买荣耀400Pro的人一定要听劝！后悔可就来不及了，如果只是当做备用机千万

6

你的手机用几年啦？哎，手机坏了，我的华为mate30黑屏两天

7

小米空调的销量增长太恐怖了，很快就会超越董大姐的格力，照这趋势来看，明年有可能登

8

说好的首发呢？真是没想到，首个通过国家3C认证的骁龙8Elite2机型，既不是

9

我去荣耀专卖店看手机，看了荣耀X70，荣耀400、荣耀Power、Magic7等

10

5699的时候，你们说太贵5199的时候，你们又说贵4699的时候，有的人说

科技最新文章

1

小米空调的销量增长太恐怖了，很快就会超越董大姐的格力，照这趋势来看，明年有可能登

2

说好的首发呢？真是没想到，首个通过国家3C认证的骁龙8Elite2机型，既不是

3

台积电创始人张忠谋在接受纽约时报专访时说：美国、荷兰、日本、韩国与台湾牢牢控制着

4

很奇怪，我一直喜欢小屏手机，之前用过的华为Mate50，Mate50Pro，一

5

我手上这台荣耀X70是12G+512G的，上手几天了，算上之前帮亲戚看机时摸过的

6

一天内添置了两台华为手机，一个是给老公买的华为mate70，一台是给婆婆买的华为

7

你的手机用几年啦？哎，手机坏了，我的华为mate30黑屏两天

8

2699元起？华为nova15系列售价曝光，预计10月发布！

9

有点纠结？！如何选也呢？同为12+256G版本的华为Mate70Pro优享版和

10

原来苹果也知道，iPhone128gb不够用啊？看爆料说，iPhone1