刚才的例子就是说,其实对于推理引擎,如果词表已经定了,就应该用最大贪婪匹配,而不要用其它算法。
因为词表确定了,推理成本就已经确定了,大词表的代价已经付出了。这时候,如果不采取贪婪匹配,实际上就亏了。因为即使分词不准确,AI也是一样能理解的,并不会产生歧义。分词器本质上只是压缩工具,不是语义工具。
所以,分词器尽力用最短的tokens序列去输入就是最佳算法。
"南京市长江大桥“,分词成”南京""市""长江""大桥“,不如分成”南京“”市长“”江大桥“,因为后者少一个tokens。分词根本不必考虑语义的准确性。