刚才的例子就是说，其实对于推理引擎，如果词表已经定了，就应该用最大贪婪匹配，而不

刚才的例子就是说，其实对于推理引擎，如果词表已经定了，就应该用最大贪婪匹配，而不要用其它算法。

因为词表确定了，推理成本就已经确定了，大词表的代价已经付出了。这时候，如果不采取贪婪匹配，实际上就亏了。因为即使分词不准确，AI也是一样能理解的，并不会产生歧义。分词器本质上只是压缩工具，不是语义工具。

所以，分词器尽力用最短的tokens序列去输入就是最佳算法。