DC娱乐网

聊聊“token”的中文官方译名“词元”,我个人感觉定这个译名的老师水平是很高的

聊聊“token”的中文官方译名“词元”,我个人感觉定这个译名的老师水平是很高的。

首先我们引入一个概念:语言学中,语言的最小的音义结合体叫“语素”,是不是很难理解。我们可以举例,比如说“乒乓球”里有几个语素?两个。因为单独乒、乓两字本身只占音位但是不构成独立的语义,乒乓拆分后失去了原义,所以但乒乓和球两个语素是即便单独拆分都有其自己的音义和语义,所以他们是两个语素。

说这么多可能有点绕,但你只要这么理解就行:“token”其实就是ai领域里的“语素”,它本身也是构成ai语言的最小语义单位。在ai的理解里,因为它本身的语言学体系由人类建构,所以它的语言体系是高度拟合人类语言体系的。因此,对于ai来说,乒乓球也可以理解为两个语素单位所以占位两个“token”,这样的计费模式对于中文来说是比较友好的。

最后谈谈“词元”这个译名,首先它基本表达清楚了类“语素”的最小定位,让大家能理解ai的运作模式;其次,词元这个词虽然不完全贴合音义和表征义,比如说我们一直认为接近完美的译名:引擎“engine”就是信达雅的典范。在不可能完全贴合音义的时候我还是强调我们的翻译应该首先让更多人理解表意系统,也就是说它首先要符合我们对语言的认知体系。如果我们强行以音译定译名,比如说大家开玩笑的“偷啃”,那么最后我们的语言系统会逐步“片假名化”,出现诸如“鲁棒性”这种让人摸不着头脑也啼笑皆非的译名。

词元的这个译名其实是真的从各种意义上证明了现代汉语系统的超前和领先,几千年的文化霸权真不是空穴来风。