看到一篇论文,题目吸引人:《Large Language Models Do Not Always Need Readable Language》
题目非常大白话:《大模型不总是需要人类可读的语言》。
如果读者不是人,而是另一个大模型,那信息未必要写成完整的人话。AI 之间可以用类似“文言文、速记、电报、压缩文、符号、emoji、跨语言混写”的方式交流。人类读起来很费劲,但模型仍然能理解。
论文把这种表示叫 BabelTele。好处很直接:压缩上下文、减少Tokens消耗、降低多智能体通信和。
也就是说,AI之间通过“文言文”来交流的效率很高,只不过人类这种文明可能就看不懂了!竹简贵,所以文言文精炼;Tokens贵,所以BabelTele省钱。真有意思!
我一下想到了小米前段时间的 OneVL 论文:《OneVL: One-Step Latent Reasoning and Planning with Vision-Language Explanation》。
乍一看,二者有点像:都是在说,AI 不一定非要用人类可读语言来表达中间过程。但仔细对比,其实不太一样。
第一,表示形式不同。BabelTele 仍然是离散文本,只是人类很难读;OneVL 是 latent tokens,本质上更接近潜空间里的向量思考。
第二,目标不同。BabelTele 主要是压缩语言和上下文,让模型之间通信更省;OneVL 是压缩驾驶推理过程,让自动驾驶模型不用一步步显式 CoT,也能快速做规划。
第三,人类能不能强行读。BabelTele 虽然难读,但毕竟还在文本表面,人类可以硬啃;OneVL 默认不可读,需要语言解码器把内部推理“翻译”成人类解释。
第四,是否需要训练。BabelTele 可以通过 prompt 诱导出来,不一定训练新模型;OneVL 则需要专门训练,用语言解码器和视觉世界模型解码器双监督,把“为什么这么开”和“未来世界怎么变”都压进潜空间。
所以核心差异是:BabelTele 是压缩语言。OneVL 是压缩思考。前者像 AI 之间发电报,后者像驾驶模型在脑内形成直觉。
微博不好传pdf,我就把论文原文放在知识星球“抗博的朋友圈”了。

