我半个月前发了一条笔记,讨论为什么大模型说不出“马嘉祺”名字的,当时那条笔记评论区里,有很多朋友都对这个现象很有兴趣。
我给没看过那条笔记的朋友们简单概括一下。
起因是有粉丝测模型大模型的时候,发现AI虽然认识马嘉祺,但就是说不出“马嘉祺”三个字,输出名字的时候,只能给出一个发音相近的替代词。
后面这个问题的截图被广泛传开了,引来技术媒体跟进,不得不说,粉丝们这次可以说是直接化身成了科技圈最完美的“科普放大器”!一个挺硬核的、学术界研究了相当长时间的底层技术问题,第一次以这种完美破圈的方式进入了公众视野。
后面我就这个现象去翻了一下相关资料,发现有一家叫脸谱心智的中国创业公司,早在2025年的时候,就在顶级学术会议EMNLP上发了一篇论文,系统性地研究了这个问题。不过那个时候,这篇论文还没什么人关注。
然后在今年四月份,大模型巨头Anthropic悄悄改了Claude的分词器,改动方向居然和国内这家团队一年前的论文高度吻合。
1所以,这个问题为何一直存在?
我们要知道,大模型不是直接处理文字的,它需要先把文字切成一个个token,再对这些token进行学习和预测。
token可以是一个字、一个词、一个词根,比如“马嘉祺”里的“嘉祺”在某些模型大模型里会被合并成一个独立的token。
这个token在预训练阶段可以学得很好,模型在语义层面完全理解它指向谁。但到了后训练阶段,如果包含这个token的样本只有几条,问题就来了。
因为模型的训练是靠梯度更新驱动的,高频词每天都在被大量样本反复调整,低频词的参数却几乎没有被更新的机会。时间长了,高频词的梯度会持续“挤压”低频词对应的参数空间,低频token的生成能力就慢慢退化了。
结果就是,模型虽然在理解层面仍然“知道”这个词,但输出时就是说不出口。这背后其实是齐普夫定律(Zipf's Law)——语言里的词频分布极度不均,少量高频词占据了绝大多数使用频次,剩下的大多数词都是长尾低频词。
这也意味着,低频token退化是几乎每家做大模型的公司都会面临的处境,因为只要后训练数据覆盖不均,退化就必然存在,只是深浅程度的差别。
2这篇论文背后的公司叫脸谱心智,是一家2023年成立的上海AI创业公司,主营产品是基于LLM的二次元角色情感互动。
其实我之前对这家公司几乎没有什么印象,但他们在EMNLP主会上发的这篇论文SLoW(全称"Select Low-frequency Words")是这个方向上最早的系统性研究之一。
这篇论文核心提出了一个叫“自动词典选择”的新任务,对应的解决方案是:在推理时识别出低频词,只为这些词提供词典辅助,精准补在最需要的地方。
类似于模型遇到低频词的时候,系统直接悄悄递一张小抄。
这个做法有几个值得注意的地方。首先,它完全不需要额外训练,即插即用,部署成本极低,任何已有的大模型都可以直接用。
其次,效果在FLORES数据集覆盖的100种语言上都得到了验证,不只是英文,连很多小语种也有明显改善。
而且,他们还有个反直觉的发现:在机器翻译任务里,只为低频词提供词典辅助,在很多语言上的翻译效果反而超过了给全部词都提供词典的版本。
原因是,低频词是模型的盲区,补信息有增量价值。高频词模型本来就熟悉,再补反而可能引入干扰。这确实是一种极具智慧的“减法思维”。
3今年4月16日,Anthropic发布了Claude Opus 4.7。这次发布有一个细节:这是Claude系列第一次更换分词器。
Anthropic官方写明,新tokenizer对相同文本会产生约1到1.35倍的token数量。这不是个小变化,因为意味着用户处理同样内容要花更多钱。
OpenRouter做了一个基于超过百万请求的切换对比分析,结论是切到4.7之后,实际成本增加了12%到27%。对于长提示词,新tokenizer产生的原生token比旧版多出三成以上。
Anthropic显然清楚这个代价,但他们选择承担就足以说明问题的严重性。他们从词表里移除或合并了那些低频、容易退化的token。
新tokenizer的特点是只会让token数量增加不会减少,基本等于说他们删掉了一批东西。CJK文本(中日韩)几乎不受影响这一点也能佐证,这次改动主要针对英文词表里的低频长尾部分。
这个方向,跟脸谱心智一年前SLoW论文的核心思路是一致的完全不谋而合的:都是识别出低频、退化的部分,然后把它处理掉或绕开,而不是试图用更多数据填满它。
4在今年四月,脸谱心智还发布了另一篇论文,叫Adam's Law,已被ACL 2026收录。这篇论文把频率问题从单词层面拉到了句子层面。
SLoW研究的是单个低频词,而Adam's Law的发现是:模型对整段文本的处理同样受频率影响,它系统性地偏好训练语料里高频出现的文本模式,不管是在推理还是微调阶段都是如此。
效果非常显著,这篇论文在开源社区也获得了相当高的关注度。但目前为止,产业界在句子级别还没有对应的工程落地。
但按照这个框架的逻辑,Zipf定律不只作用于单词,语言里高频出现的句式、段落结构、表达模式,同样遵循类似的分布规律。
模型不只在输出低频词时会退化,它对低频文本模式的处理能力同样是系统性偏弱的。词表层面的减法,清理的是冰山露出水面的部分,水面以下的那块还在。
但最让我觉得有意思的是,学术发现、工程落地、公众认知,这三件事发生的顺序和速度完全不同,比如脸谱心智的研究比Anthropic的落地早了将近一年。这也直接打破了过去很多人认为“中国AI只能做套壳和应用层跟随”的固有偏见。
或许有时候,学术上的先行往往来自于某个具体的、痛到不得不解决的应用场景。而技术的方向判断,有时候比它被注意到的时间,早很多。