先把两个问题拆开说:
1)正常大模型部署要多少资源;
2)为什么“天文数量一角”(指量化/压缩后)资源能少非常多。
一、大模型部署大概要多少资源(以 LLaMA 类为例,推理)
1. 按模型规模(FP16 / BF16,不量化)
- 7B(70亿参数)
- 显存:13–15GB 起步
- 单卡:RTX 4090 / A10 / A30(24GB) 可跑
- 内存:32GB+
- 13B
- 显存:26–30GB
- 单卡:A100 40GB 或 双24GB卡 并行
- 内存:64GB+
- 34B
- 显存:60–70GB
- 多卡:A100 40GB × 2~3 或 H100 80GB × 1~2
- 65B / 70B
- 显存:120–140GB
- 多卡:A100 80GB × 2~4 / H100 80GB × 2
- 175B(GPT-3 级别)
- 显存:350GB+
- 多机多卡:H100 80GB × 8~16 起步
一句话:每 1B 参数 ≈ 2GB FP16 显存(推理,不含 KV Cache)。
2. 训练 / 微调资源要大得多
- 全量预训练:比推理大 10 倍以上,需要上千张 H100 级别卡。
- 微调(LoRA/QLoRA):只需推理级显存 + 少量额外,7B/13B 单卡 24GB 就能做。
二、为什么“天文数量一角”(量化后)能省那么多资源
你说的“天文数量一角”,行业里就是:量化(Quantization)+ 压缩(蒸馏/剪枝),最常用的是 INT8 / INT4 量化。
1. 核心原因:精度砍半 → 显存直接减半
- FP16(16位浮点数):每个参数占 2 字节
- INT8(8位整数):每个参数占 1 字节 → 显存减半
- INT4(4位整数):每个参数占 0.5 字节 → 显存再减半(≈1/4)
举例(7B):
- FP16:约 13GB 显存
- INT8:约 6.5GB
- INT4:约 3–4GB → 一张普通消费卡(如 4060 8GB)都能跑
2. 量化原理(通俗版)
大模型参数本来是 -1.0~+1.0 的小数(FP16)。
量化就是:
1. 把权重范围统计出来(min~max)
2. 把这个区间切分成 256 份(INT8)/ 16 份(INT4)
3. 每个权重用一个整数编号表示,存储时只存整数
4. 推理时再“还原”成近似小数计算
结果:
- 体积/显存:INT8≈1/2,INT4≈1/4
- 速度:通常快 2–4 倍(整数运算比浮点快)
- 效果:好的量化(GPTQ/AWQ)损失很小,很多场景几乎感觉不出来
3. 除了量化,还有其他“瘦身”
- 蒸馏:用大模型“教”一个小模型,参数少很多、效果接近。
- 剪枝:删掉不重要的神经元/权重,参数减少 30–50%。
- MoE(混合专家):只激活一部分参数,平时只跑“一小部分大模型”。
三、直观对比(7B 为例)
- 原版 FP16:13GB 显存 → 要 4090/A10
- INT8 量化:6.5GB → 普通 3090/4060 能跑
- INT4 量化:3.5GB → 笔记本 8GB 显存都能跑
所以:原来要一屋子服务器的,量化后一台甚至一张卡就能扛,这就是“天文数量一角”的意思。