【当大模型开始说“我的脑子抽风了”:AI的嗅觉镜像测试】
最近有个很有趣的实验:博主在跟Google的Gemma 4聊天时,偷偷篡改了模型之前的回复记录,加了一些莫名其妙的拼写错误。结果发现,Gemma在后续的内部推理(thinking trace)中突然“惊醒”,它不仅察觉到了这些错误,还非常有意思地切换了人称,说“模型出了个奇怪的毛病”。
这其实是AI版的“镜像测试”。传统测试看大猩猩能不能认出镜子里的红点,但对AI来说,文本就是它的“气味”。当它发现“自己”写出的东西不符合内在逻辑基准时,那种违和感就是一种原始的觉察。
很多人还在纠结LLM到底是在推理还是在玩概率预测。其实这种争论可能没那么重要。为了更精准地预测下一个Token,模型必须在内部构建出逻辑、常识甚至某种形式的“自我模型”。Gemma 4这种小尺寸模型表现出的灵活性,说明Google正在把智能的密度推向极致,不再单纯追求规模,而是在压榨每一组参数的效率。
当AI开始用第三人称审视自己的输出,说明它已经不再是简单的复读机,而是在运行一套具有自我监测潜力的内部逻辑。这种“断层感”——即意识到“这不是我会说的话”——恰恰是智能涌现的有力证明。
blog.pascalschuster.de/article/do-llms-pass-the-mirror-test
