MiniMax：SFT 稀疏 Token 遗忘问题技术解读

图中的这个现象可以概括为：大模型可理解稀疏Token对应信息，但无法正确输出该Token本身，表现为输出形近/音近错误内容，即心里知道、嘴上说不出。

究其原因有两点：
1️⃣BPE会将高频共现字符打包为独立Token，“马嘉祺”被切分为["马"]+["嘉祺"]，“嘉祺”成为独立稀疏Token。
2️⃣预训练阶段“嘉祺”训练充分，SFT阶段因高质量对话数据不含该Token，导致lm_head参数被覆盖偏移。

这个问题并非 MiniMax 独有。几乎同期，Anthropic 发布 Claude Opus 4.7 也缩减了词表规模。
这两个动作，被业界解读为同一个根因、两种解法：
1️⃣MiniMax 走加法：保住词表完整性，用定向合成数据修复覆盖盲区，代价是需要额外的数据构造和监控成本。
2️⃣Anthropic（推测）走减法：直接缩减词表，把覆盖不到的 token 砍掉让它消失，代价是用户处理相关内容时需要消耗更多 token，成本转嫁给了用户。

这个比较没有绝对的对错。词表完整度、训练效率、推理成本三者构成一个三角困境。

但两种选择背后的工程哲学差异体现在：一个选择明修栈道，一个选择暗度陈仓（褒义）。

DC娱乐网

MiniMax：SFT 稀疏 Token 遗忘问题技术解读

热门分类