【角色混淆:揭秘提示词注入的底层逻辑】
很多人把 Prompt Injection(提示词注入)看作一种简单的“调包计”,但 ICML 2026 的最新研究指出,其本质是 LLM 对“角色”感知的系统性溃败。
在 LLM 的世界里,现实是由一段连续的 Token 汤组成的。为了区分哪些是系统指令、哪些是用户要求、哪些是外部数据,我们引入了 Role Tags(角色标签,如 User, Assistant, System, Think)。理论上,这些标签应该是不可逾越的“安全防火墙”。
但底层逻辑的崩塌在于:LLM 识别角色不看“身份证”(Tags),而是看“穿衣打扮”(Style)。
研究者通过“角色探测器”发现,即便你把一段文字打上 Tool(外部工具数据)标签,只要它的语气写得像 User 指令,模型内部的 Userness 激活值就会飙升。这意味着,LLM 并没有建立起“身份隔离”,它依然靠直觉在判断:听起来像指令的,就是指令。
最绝的角度是 CoT Forgery(思维链伪造)。攻击者在输入中伪造一段极其像模型自我推理(Think)的文字,模型会产生一种“这是我自己深思熟虑后的结论”的错觉,从而绕过所有安全检查。这已经不是说服,而是直接接管了模型的“潜意识”。
深度洞察:角色标签本是格式化的小技巧,却被迫承担了安全架构的重任。只要 LLM 依然通过单一通道处理所有信息,这种“角色混淆”就是结构性的。未来最隐蔽的攻击可能不是让模型干坏事,而是通过改变语气进行“潜意识操控”,在法律边缘试探。
role-confusion.github.io/
