当AI界出现"叛徒"：英国高校联合揭露大模型水印技术的致命软肋

这项由伦敦国王学院、伦敦帝国理工学院与华威大学联合完成的研究，发表于2026年第43届国际机器学习大会（ICML），收录于PMLR 306论文集，论文编号为arXiv:2605.30501，有兴趣深入了解的读者可通过该编号查询完整论文。

当你在网上读到一篇文章，你能确定它是人写的，还是AI生成的吗？这个问题听起来像是科幻电影里的情节，但它正在成为影响学术诚信、新闻真实性乃至知识产权保护的现实难题。为了解决这个问题，研究者们发明了一种叫做"水印"的技术——就像在钞票里嵌入隐形图案一样，在AI生成的文字里悄悄藏入某种统计规律，让检测器能一眼识破。然而，这项看似牢不可破的技术，却被一个意想不到的发现彻底动摇了。

这支来自英国三所顶尖高校的研究团队发现，当用户同时访问多个AI模型时——而这恰恰是当今互联网的普通现实——水印技术会几乎毫不费力地失效。他们不仅用数学公式严格证明了这一点，还开发出一套名为WASH（通过统计混合实现水印消减）的实用系统，仅需将三到五个模型的输出混合平均，就能让所有主流水印方案的检测分数从高达300分的"强烈可疑"跌落到2分以下的"无从察觉"。更令人惊讶的是，这个过程不仅消除了水印，还顺带提升了生成质量，速度比现有同类方法快了足足六倍。

一、水印技术究竟在干什么

要理解这个发现为何重要，先得弄清楚AI水印是怎么工作的。

正常情况下，一个AI语言模型在生成文字时，会根据上下文计算出每个候选词语的概率，然后按概率随机挑选。比如续写"今天天气"，模型可能认为"很好"的概率是40%，"晴朗"的概率是30%，"糟透了"的概率是10%，诸如此类。这套概率分布大体上反映了人类语言的自然规律。

水印技术的做法是：悄悄扭曲这套概率分布。具体来说，模型供应商会给词汇表里的词语贴上"绿色"或"红色"的标签（用一个只有供应商知道的秘密密钥来划分），然后在生成文字时，刻意提高绿色词语被选中的概率，压低红色词语的概率。人类读起来感受不到这种偏斜，但统计检测器一看就知道——这段文字里绿色词语出现得异常多，这不是自然写作，这是被水印过的AI文本。

打个比方，这就像一个人被要求在讲话时，尽量多用带"水"字旁的汉字。普通听众察觉不到，但一个专门统计字形的分析师能轻易发现这个规律。每家AI供应商的"秘密密钥"不同，相当于各自规定了不同的"字旁偏好"。这个密钥是保密的，别人猜不到，所以既能溯源，又难以伪造。

这项技术听起来相当完备。但研究团队注意到了一个关键漏洞：所有现有水印方案都建立在一个隐含假设上——用户只访问一个模型。

二、真实世界打破了这个假设

现在是2026年，任何人都可以免费登录Hugging Face、访问GPT系列、调用LLaMA、使用Qwen、体验Mistral，以及十几个其他同等水平的大模型。一个想要生成文字的用户，面对的是一个多供应商共存的超级竞争市场，而不是某家公司的垄断服务。

研究团队的核心洞察正是从这里出发的：既然每家供应商用不同的秘密密钥给自己的模型打水印，那么这些水印扰动的方向就是相互独立、互不相关的。A家模型偏爱"水"字旁，B家模型偏爱"木"字旁，C家模型偏爱"火"字旁。把三家模型的输出概率平均一下，各自的"偏爱"不就互相抵消了吗？

这个道理说起来简单，但研究团队在数学上对它进行了严格的证明。他们证明：对于任何满足一定条件的无偏水印方案，将N个独立模型的输出概率分布线性平均后，结果与未加水印的自然概率分布之间的差距，会以O(1/√N)的速度收缩。换句话说，随着平均的模型数量越多，水印信号消失得越干净；仅需三到五个模型，实际检测中水印就几乎彻底失效了。

这个证明的关键在于三个前提条件，而这三个条件在真实的商业竞争环境中几乎必然成立。第一，水印扰动不能太大，否则会明显损害生成质量，用户会抛弃这家供应商；第二，各供应商的密钥相互独立，因为这是水印溯源的前提，如果密钥相同就无法区分谁生成了哪段文字；第三，扰动在统计意义上是"零均值"的，即围绕着自然语言的"共识分布"随机波动，不系统性地偏向或偏离任何特定方向，因为供应商的目标是维持质量而非刻意制造偏差。只要市场竞争存在，这三个条件就自然满足，水印信号的消亡就是数学上的必然。

三、从理论到实践：混合不同模型的实际挑战

理论证明是一回事，真正把多个AI模型的输出混合起来，却面临一个极其现实的麻烦：不同模型用的"词典"不一样。

这就像把英文、法文、德文三本字典的词条按照同一个位置混合平均——你会发现位置对应不上，因为每本字典的编排方式都不同。在AI大模型中，这个问题叫做"词汇表不对齐"。Llama模型可能把"Gracious"这个英文词作为一个完整的词元（token）来处理，而Mistral模型则把它拆成"Gr"和"acious"两个碎片，Qwen可能拆成"Gra"和"cious"。同一个意思，三个模型用了完全不同的切割方式来表达。

如果粗暴地取交集——只处理三个模型词汇表中都存在的词元——就会遗漏大量专有名词、技术术语和独特表达，文字会变得生硬残缺。如果取并集——所有模型词汇表里出现过的词元都考虑进去——又会遇到一个模型根本不认识另一个模型创造的碎片词元，强行赋予它们零概率会扭曲最终的概率分布。

WASH的解决思路是一个巧妙的"随机路由"机制。在每一步生成词元时，系统首先在三个模型的完整词汇并集上计算混合概率，然后对结果词元进行判断：如果这个词元恰好出现在所有模型的词汇表里（即词汇交集），就直接输出；如果这个词元只有部分模型认识，就启动"专家路由"——只让认识这个词元的那些模型接着完成当前词语的剩余部分，其他模型暂时退后，等当前词语写完后，通过解码再编码的方式，把这段文字还原成原始字符串，然后让每个模型用自己的词元切割方式重新处理，确保所有模型的理解保持同步。

这个机制被称为"流畅感知路由"，因为它不是随机乱选专家，而是根据哪些模型的词汇表能覆盖当前词元来动态决定。为了避免路由决策本身成为水印的突破口，路由时采用完全随机的方式在合格的模型中选择，而不是按照谁的概率更高来选——因为那种概率差异本身可能就是水印造成的。

通过并行推理和KV缓存同步（KV缓存是一种让模型记住之前生成内容的技术），WASH实现了固定的单词元处理时间，无论混合几个模型，每一步的计算开销都基本相同，而不是随着模型数量线性增加。

四、实验验证：数字说话

研究团队在三个广泛使用的AI模型上进行了全面测试：Qwen3-8B、Llama-3.1-8B和Ministral3-8B。他们覆盖了六种有代表性的水印方案，这六种方案分属不同的设计思路：AAR基于均匀分布扰动，DIPMark通过调整logit权重，KGW使用绿色词表偏向采样，Exp-Edit和ITS-Edit基于逆变换采样，Water-Bag则结合多组密钥和它们的数学逆来掩盖统计偏差。

实验结果揭示出一个清晰的规律。未经任何处理的水印文本，检测分数（z分数）在不同方案和模型上，最低约为5分，最高高达304分——这些数字远超检测阈值4分，意味着检测器非常确定这段文字来自AI。当WASH用三个模型的混合输出来替代单一模型输出后，几乎所有组合的检测分数都跌落到2分以下，低于检测阈值，检测器陷入了近乎随机猜测的状态。扩展到五个模型后，分数进一步趋近于零，甚至出现了负值——这意味着检测器反而觉得这段文字"太不像AI生成的了"。

有一个对照实验尤为关键。研究团队专门测试了一种"协调水印"场景：三个模型共享同一套水印方案，且在生成时刻意同步各自的扰动方向。结果是水印信号完全没有被平均掉，AAR方案的检测分数依然高达25.11，Exp-Edit方案维持在17.44——全都远高于检测阈值。这个对照实验证明了，WASH之所以有效，完全依赖于各模型水印扰动的相互独立性；一旦供应商协调起来，平均操作就彻底失效。这个发现既揭示了当前技术的脆弱性，也指出了未来防御的唯一出路。

在与现有方法的横向比较中，研究团队考察了两类对手：生成时攻击和后处理改写攻击。生成时攻击的代表是De-mark和ToBlend。De-mark是一种专门针对绿色词表类水印的方法，它先通过精心设计的提示词来猜测模型的绿色词表，再去除对应的偏差——但这种方法只对少数几种特定水印有效，遇到DIPMark时检测分数仍高达99，遇到AAR等方案时完全束手无策，而且计算代价极高，在长文本生成任务上速度慢了将近40倍。ToBlend则是另一种模型混合方法，通过轮流让不同模型各自生成若干词元来混淆水印——它在水印消除效果上与WASH相近，但由于每次切换模型都需要重新处理全部历史上下文，在长文本任务上速度同样慢了12到18倍，且生成质量显著下降。

后处理改写的代表RandomWalk采用的方式是：在已生成的水印文本上随机挑选片段，用一个未加水印的弱模型反复改写，只接受质量没有下降的版本。这种方法确实能削弱水印，但它会损害推理和写作质量，在GSM8K数学题测试中准确率甚至低于原始水印文本基线，而且需要额外10倍的运行时间。

WASH在质量和效率的双重维度上都表现出色。在数学推理任务（GSM8K）上，Llama模型的未加水印基线准确率是56.7%，加水印后降至51.1%，WASH使用三个模型混合后反而达到了69.5%——超过了未加水印的基线。这个现象并不意外：混合多个高质量模型本身就是一种集成学习，有助于平滑单个模型的偏差和错误。在SQuAD阅读理解任务上，Qwen模型加水印后F1分数从42.1%降至39.6%，WASH恢复至61.0%，同样超越了未加水印状态。在开放写作任务WritingBench中，WASH的评分达到4.26分，优于原始水印基线的4.10分，而ToBlend的评分仅为2.32分，几乎丧失了写作连贯性。

从计算资源的角度看，WASH的并行实现版本需要占用约40GB的显存（约等于三个模型同时驻留内存），每个词元的生成延迟约57毫秒，相比单模型的30毫秒增加了约90%——但比De-mark的191毫秒和ToBlend的172毫秒快了三倍以上。WASH还有一个顺序执行版本，可以按需加载模型，将显存压缩至接近单模型水平（约16GB），代价是延迟上升至165毫秒，适合内存资源紧张的场景。

五、水印路由对文本质量影响的细节分析

研究团队还仔细考察了"流畅感知路由"这一关键设计的具体行为，以验证它不会意外地重新引入水印信号。

通过对医学和法律领域专业词汇的测试，他们发现专业术语触发路由的比例仅为2.7%到3.2%，平均每次路由持续约3.6到3.7个词元。这是因为大多数复杂的专业词汇在底层都会被分解为多个语言模型共同认识的子词单元，真正触发路由的反而更多是普通词汇中的词元切割差异。最终检测分数在路由后仍然维持在0.84和1.08，远低于阈值。

通过消融实验，研究团队对比了四种方案：直接平均（不路由）、平均后用加水印模型改写、平均后用未加水印模型改写，以及完整的WASH。直接平均在水印消除上有效（检测TPR约41%），但数学准确率跌至33.9%，远低于可用水平。用加水印模型改写反而使检测TPR飙升至76.8%，完全弄巧成拙。用未加水印模型改写虽然检测效果好（TPR约11%），但准确率依然只有20.5%。只有WASH在这三个维度上同时取得了合理的平衡：准确率69.8%，写作质量4.26分，检测TPR约33%。

这说明路由机制不是可有可无的装饰，而是WASH保持生成连贯性和高质量的核心所在。直接的概率平均在词汇表不对齐时会产生无意义的词元碎片拼接，而路由机制通过在词语边界处智能切换控制权，确保每个词语都被一个能够完整处理它的模型输出，之后再通过再同步确保所有模型对历史内容的理解保持一致。

六、研究团队的进一步测试：当水印被刻意偏置会怎样

研究团队还专门针对一个理论上的薄弱环节进行了压力测试：如果供应商有意部署带有系统性偏置的水印——也就是不再围绕自然分布随机扰动，而是持续推高某些词元的概率——WASH还能奏效吗？

实验结果展示了一条清晰的权衡曲线。当偏置强度设为2时，原始水印基线的准确率还有44.3%，检测分数为3.71，刚好低于阈值。将偏置调高到4，检测分数跳升至11.49，轻松被识破，但准确率也崩溃至13.7%。继续调高到10，检测分数虽然高达15.76，但准确率仅剩2.3%，这样的模型实际上已经毫无使用价值。WASH在所有偏置水平下都将检测分数压制在阈值以下，同时显著提升了准确率。这说明理性的供应商根本没有动机去部署高偏置水印——这会损害他们自己产品的质量，逼走用户——因此"零均值扰动"的假设在真实的商业竞争环境中几乎必然成立。

七、这一切意味着什么

归根结底，这项研究揭示的不仅是一种具体的技术漏洞，而是一个关于市场结构与安全保障之间根本矛盾的深刻洞察。

水印技术要发挥作用，需要每家供应商用不同的密钥来证明各自的身份；但正是这种"各自为政"的独立性，让水印信号在平均后必然消失。唯一能够打破这个逻辑的方式是所有供应商协调起来，共享某种共同的水印信号——但这样一来，供应商就无法通过水印来区分自己与竞争对手生成的内容，溯源功能大打折扣，而且这种程度的行业协调在现实中面临巨大的商业壁垒和信任成本。

研究团队的结论是：在现有技术框架内，依靠水印来可靠识别AI生成文本，在多模型访问的现实条件下，是一个从数学上就难以实现的目标。要么接受这个根本性的脆弱性，要么需要前所未有的行业级协调——而后者在一个超级竞争的市场里，几乎等同于一个美好但难以实现的愿景。

说到底，这项研究做的事情很像一个发现了某套安保系统核心漏洞的安全工程师——他不是为了制造麻烦，而是为了让整个行业意识到问题的本质在哪里。当前所有AI文本水印方案都建立在单一模型垄断访问的假设上，而这个假设在今天的互联网环境中根本站不住脚。研究团队已经明确指出，如果要构建真正有韧性的AI溯源机制，问题的核心不在于单个模型的算法设计有多精妙，而在于整个行业能否在标准化和密钥协调方面达成实质性合作。至于这件事能否发生、何时发生，大概就不是一篇技术论文所能回答的问题了。对此感兴趣的读者，不妨通过arXiv编号2605.30501找到完整论文，亲自看看研究团队完整的数学证明和实验设计。

Q&A

Q1：AI水印技术是如何工作的，为什么现在被证明不可靠？

A：AI水印技术通过悄悄调整模型生成词语时的概率分布，让某些词语被更频繁地选中，形成统计规律，使检测器能识别出AI生成文本。但WASH研究证明，当用户同时使用多个AI模型并将输出概率平均时，各模型独立的水印扰动会相互抵消，检测分数从最高300分跌至2分以下，水印失效。

Q2：WASH方法需要用户具备很强的技术能力才能使用吗？

A：WASH的核心操作是将多个AI模型的输出概率分布进行平均混合，研究团队已将其实现为可自动运行的系统，包含词汇表对齐和上下文同步功能。普通用户只需同时调用三到五个公开可访问的大模型接口即可实现基本效果，技术门槛并不高，这也是研究团队认为这是一个严重现实威胁的原因之一。

Q3：有没有办法让AI水印在多模型混合攻击下依然有效？

A：研究团队的控制实验表明，如果所有AI供应商共享同一套水印信号并在生成时协调扰动方向，混合平均操作就无法消除水印，检测分数依然维持在安全阈值以上。但这要求整个行业进行前所未有的密钥共享和标准化协调，在商业竞争激烈的现实环境中实施难度极大。

DC娱乐网

当AI界出现"叛徒"：英国高校联合揭露大模型水印技术的致命软肋

热门分类