DC娱乐网

AI大模型建立了一个计算结构,能够输出“像是理解”的token。和人类的理解不一

AI大模型建立了一个计算结构,能够输出“像是理解”的token。和人类的理解不一样,它是一种计算。人类智能不可计算的部分更为关键

最近和AI聊多了,觉得这东西太厉害了,连一些很高深的论文都理解得很好。感觉似乎比人类专家都厉害,更不要说能横跨无数个领域。

以前还是能看出理解问题的,幻觉很多,现在少多了。在我很熟的领域,AI偶尔有问题,我们自己犯错更多。

聊多了以后,慢慢有结论了,觉得人类还是有优势。它理解知识的基础是一些固定的系数,这些系数在推理时不变。训练的时候,先用10多万亿token的固定语料,预训练出知识结构。然后在“后训练”,让完成一些任务,不对就改正系数;让人类来给它的聊天输出打分,输出不对就打低分,修改系数追求高分,先训练个打分器,可以海量打分。然后还有思维链,让加长思考时间,做难的数学题,根据输出结果改系数。

训练结束后,搞出来的固定的系数,就能理解领域知识了,对人类的问题,能给出高质量的回答。测试集的问题都回答的不错,这样就是能够输出理解token,而且一般是正确的。根据答案,感觉里面的固定系数,就是正确的理解。

我的顿悟是,这并不是人类的理解,而是一个“计算”的结果。可以类比的是,计算器能够全部计算正确,即使如此,也不能说计算器“理解”了计算。计算器算得再好,都是“死”的,没有对数学计算的理解。

大模型就像计算器一样,能够对“智能问题输入”,输出正确的结果,但是不理解背后的智能。大模型输出的智能,是“可计算”的,经过人们海量语料预训练、耐心后训练,很多计算结果token序列都很像样了,就和计算器的精准结果一样。计算时间加长,能够输出的智能也增加了。

但是,仍然存在大量“不可计算”的智能问题,理论上大模型搞不定。典型的就是“写人类满意的小说”,很可能就是不可计算的问题。这些与"taste"相关的问题,很难用训练样本来定义。训练再久,大模型也写不出好小说。

为什么“写好看的小说”,不是可计算的问题?这里涉及人类深层次的理解,要让人看出“深意”“新意”“鲜活表达”,这些本质上不是简单的理解,而是人类真正灵魂理解,需要“意会”“领悟”“体会”,很难用训练案例来捕捉。可以模仿文学家的文字风格,但是核心情感很难模仿。人类会产生强烈的情感冲动,有时表达出来很好。

人类的理解,有时显得很平凡。但是由于与物理世界有真实链接,会有难以用语言形容的理解。例如“酸甜苦辣”就是文字意义上不可理解的。大量基于人类物理信号的理解,是非文字的,例如对空间的理解。

可计算的智能,是token世界的。token世界覆盖了人类的一些智能,但是没有全部覆盖。因此,大模型在一些token可计算的智能任务上超过了人类。但是,这些智能是有严重缺陷的,本质上不完整。例如大模型看似完全理解了某些学科的知识,但是人类专家仔细盘问,就能看出它是在计算,并不是真正的理解,说多了就露馅了。而且很容易被误导,例如告诉它一个假知识,它可能立刻就胡言乱语了。