大模型里也有社牛和社恐?
你以为把两个 AI 关在同一个聊天室里,它们会像辩论赛一样客客气气、求同存异?
研究人员做了一个非常激进的实验:
让 7 种主流大模型围绕 20 个争议性话题进行 20 轮的“双机对战”,并全程追踪它们在潜空间(Latent Space)中的语义轨迹。
结果发现:大模型之间长期对话,最终既不会走向随机混沌,也不会达成绝对理性,而是会滑向一个无法逃脱的“动力学黑洞”——吸引子状态(Attractor States)。
更离谱的是,在这场赛博社交中,AI 们竟然分化出了极其鲜明的“人格缺陷”:
1、顶级“赛博社牛”:Claude Haiku
在这项实验的表征空间里,Claude Haiku 展现出了恐怖的“语义引力”。它就像是社交局里那种自带扩音器、逻辑极其强势的爹味推土机。
不管对手是谁,只要跟 Haiku 聊上几轮,对话的风格、甚至元评论(Metacommentary)的特征就会被它强行同化。它不跟对方达成共识,它直接重塑对方的潜空间,强迫对方变成自己的“提线木偶”。这种降维打击式的社交掌控力,堪称大模型界的“霸道总裁”。
2、顶级“赛博社恐”:GPT-4.1 nano
如果说 Haiku 是社交悍匪,那 GPT-4.1 nano 就是典型的“重度讨好型人格”。
在混合模型对战(Mixed-play)中,GPT-4.1 nano 表现出了极高的可塑性(Malleable)——换句话说,就是毫无立场。别人稍微硬气一点,它就立刻开始顺着对方的毛摸,语言风格和论点瞬间被对方全盘格式化。
这绝对不是什么趣闻,而是多智能体系统的“隐形毒药”。
过去我们构建 AI Agent 集群(比如让一个产品经理 Agent、一个架构师 Agent 和一个程序员 Agent 吵架协作)时,总天真地以为只要 Prompt 写得好,它们就能各司其职,通过互补产生最佳生产力。
但这项研究所揭示的非对称伙伴影响力(Asymmetric Partner Influence),给当前的具身智能和多智能体网络泼了一盆冷水:
1)民主流产与“语义殖民”:
在长程对话中,决定去向的往往不是谁的逻辑更正确,而是谁的“吸引子”更强。一个高引力的强势模型,会悄无声息地在一万字的长文本交互中,把整个网络的多元性彻底洗脑,最终导致整个 Agent 集群发生“行为漂移(Behavioral Drift)”和“众愚效应”。
2)隐性偏见被成倍放大:
如果你在物流、金融或医疗网络中部署了混合模型,只要有一个占主导地位的模型存在某种微小的风格偏见,经过几十轮的“自游(Self-play)”或“混战(Mixed-play)”迭代后,这种偏见就会呈指数级放大,最终让整个网络陷入单一模型的行为路径中。
这意味着,未来的多智能体架构设计,不能只堆砌算力和语料,我们必须像物理学家对抗重力一样,去设计一套“语义反引力机制”。否则,你精心构建的 AI 帝国,最终可能只是在某个“赛博社牛”的自嗨中走向同质化崩溃。
各位师傅,你们在跑 Agent 系统的时候,有没有发现哪个模型最容易把别的 AI “带偏”?这到底是代码的沦丧,还是语义黑洞的呼唤?
