我半个月前发了一条笔记，讨论为什么大模型说不出“马嘉祺”名字的，当时那条笔记评论

我半个月前发了一条笔记，讨论为什么大模型说不出“马嘉祺”名字的，当时那条笔记评论区里，有很多朋友都对这个现象很有兴趣。

我给没看过那条笔记的朋友们简单概括一下。

起因是有粉丝测模型大模型的时候，发现AI虽然认识马嘉祺，但就是说不出“马嘉祺”三个字，输出名字的时候，只能给出一个发音相近的替代词。

后面这个问题的截图被广泛传开了，引来技术媒体跟进，不得不说，粉丝们这次可以说是直接化身成了科技圈最完美的“科普放大器”！一个挺硬核的、学术界研究了相当长时间的底层技术问题，第一次以这种完美破圈的方式进入了公众视野。

后面我就这个现象去翻了一下相关资料，发现有一家叫脸谱心智的中国创业公司，早在2025年的时候，就在顶级学术会议EMNLP上发了一篇论文，系统性地研究了这个问题。不过那个时候，这篇论文还没什么人关注。

然后在今年四月份，大模型巨头Anthropic悄悄改了Claude的分词器，改动方向居然和国内这家团队一年前的论文高度吻合。

1所以，这个问题为何一直存在？

我们要知道，大模型不是直接处理文字的，它需要先把文字切成一个个token，再对这些token进行学习和预测。

token可以是一个字、一个词、一个词根，比如“马嘉祺”里的“嘉祺”在某些模型大模型里会被合并成一个独立的token。

这个token在预训练阶段可以学得很好，模型在语义层面完全理解它指向谁。但到了后训练阶段，如果包含这个token的样本只有几条，问题就来了。

因为模型的训练是靠梯度更新驱动的，高频词每天都在被大量样本反复调整，低频词的参数却几乎没有被更新的机会。时间长了，高频词的梯度会持续“挤压”低频词对应的参数空间，低频token的生成能力就慢慢退化了。

结果就是，模型虽然在理解层面仍然“知道”这个词，但输出时就是说不出口。这背后其实是齐普夫定律（Zipf's Law）——语言里的词频分布极度不均，少量高频词占据了绝大多数使用频次，剩下的大多数词都是长尾低频词。

这也意味着，低频token退化是几乎每家做大模型的公司都会面临的处境，因为只要后训练数据覆盖不均，退化就必然存在，只是深浅程度的差别。

2这篇论文背后的公司叫脸谱心智，是一家2023年成立的上海AI创业公司，主营产品是基于LLM的二次元角色情感互动。

其实我之前对这家公司几乎没有什么印象，但他们在EMNLP主会上发的这篇论文SLoW（全称"Select Low-frequency Words"）是这个方向上最早的系统性研究之一。

这篇论文核心提出了一个叫“自动词典选择”的新任务，对应的解决方案是：在推理时识别出低频词，只为这些词提供词典辅助，精准补在最需要的地方。

类似于模型遇到低频词的时候，系统直接悄悄递一张小抄。

这个做法有几个值得注意的地方。首先，它完全不需要额外训练，即插即用，部署成本极低，任何已有的大模型都可以直接用。

其次，效果在FLORES数据集覆盖的100种语言上都得到了验证，不只是英文，连很多小语种也有明显改善。

而且，他们还有个反直觉的发现：在机器翻译任务里，只为低频词提供词典辅助，在很多语言上的翻译效果反而超过了给全部词都提供词典的版本。

原因是，低频词是模型的盲区，补信息有增量价值。高频词模型本来就熟悉，再补反而可能引入干扰。这确实是一种极具智慧的“减法思维”。

3今年4月16日，Anthropic发布了Claude Opus 4.7。这次发布有一个细节：这是Claude系列第一次更换分词器。

Anthropic官方写明，新tokenizer对相同文本会产生约1到1.35倍的token数量。这不是个小变化，因为意味着用户处理同样内容要花更多钱。

OpenRouter做了一个基于超过百万请求的切换对比分析，结论是切到4.7之后，实际成本增加了12%到27%。对于长提示词，新tokenizer产生的原生token比旧版多出三成以上。

Anthropic显然清楚这个代价，但他们选择承担就足以说明问题的严重性。他们从词表里移除或合并了那些低频、容易退化的token。

新tokenizer的特点是只会让token数量增加不会减少，基本等于说他们删掉了一批东西。CJK文本（中日韩）几乎不受影响这一点也能佐证，这次改动主要针对英文词表里的低频长尾部分。

这个方向，跟脸谱心智一年前SLoW论文的核心思路是一致的完全不谋而合的：都是识别出低频、退化的部分，然后把它处理掉或绕开，而不是试图用更多数据填满它。

4在今年四月，脸谱心智还发布了另一篇论文，叫Adam's Law，已被ACL 2026收录。这篇论文把频率问题从单词层面拉到了句子层面。

SLoW研究的是单个低频词，而Adam's Law的发现是：模型对整段文本的处理同样受频率影响，它系统性地偏好训练语料里高频出现的文本模式，不管是在推理还是微调阶段都是如此。

效果非常显著，这篇论文在开源社区也获得了相当高的关注度。但目前为止，产业界在句子级别还没有对应的工程落地。

但按照这个框架的逻辑，Zipf定律不只作用于单词，语言里高频出现的句式、段落结构、表达模式，同样遵循类似的分布规律。

模型不只在输出低频词时会退化，它对低频文本模式的处理能力同样是系统性偏弱的。词表层面的减法，清理的是冰山露出水面的部分，水面以下的那块还在。

但最让我觉得有意思的是，学术发现、工程落地、公众认知，这三件事发生的顺序和速度完全不同，比如脸谱心智的研究比Anthropic的落地早了将近一年。这也直接打破了过去很多人认为“中国AI只能做套壳和应用层跟随”的固有偏见。

或许有时候，学术上的先行往往来自于某个具体的、痛到不得不解决的应用场景。而技术的方向判断，有时候比它被注意到的时间，早很多。

DC娱乐网