卡内基梅隆大学与Meta联手发现AI训练中被忽视的隐患

这项由卡内基梅隆大学与Meta超级智能实验室联合开展的研究，于2026年6月以预印本形式发布，论文编号为arXiv:2606.21795v1，感兴趣的读者可通过该编号查询完整原文。

**一个被忽略的根本问题**

假设你是一位餐厅老板，需要招聘一位点评员来评判厨师们做的菜，以便筛选出最好的厨师。这位点评员的任务非常明确：好菜打高分，差菜打低分。然而，如果这位点评员在面对两道同样美味的菜时，仅仅因为一道用了白色盘子、另一道用了黑色盘子，就给出截然不同的分数，那他的评判就会带偏整个厨师培训体系。

这正是当今人工智能训练中普遍存在、却鲜少被认真对待的问题。在AI的世界里，这位"点评员"叫做奖励模型（Reward Model，简称RM），它的职责是评判AI的回答好不好，然后帮助AI通过强化学习不断改进。研究团队发现，大量被广泛使用的奖励模型都患有严重的"选择困难症"——对于同样好的答案，它们会给出差异悬殊的分数。这个毛病表面看起来不起眼，实则会让AI学偏方向，走上一条歪路。

**一、奖励模型到底是什么，它又出了什么问题**

在AI的强化学习训练中，有一类问题的对错非常清晰，比如数学题——答案要么对要么错，程序要么能运行要么崩溃，可以用程序自动验证。但生活中大量问题并没有这种唯一标准答案，比如"帮我写一首祝福语"或者"解释一下量子力学"。这类问题既无法用程序自动判对错，也不可能每次都请真人评估，于是奖励模型就应运而生——它是一个被训练来模仿人类判断的AI系统，会给每一个回答打一个连续的分数。

连续分数听起来很美好。分数越细腻，理论上就越能区分"很好"和"非常好"之间的微妙差异。然而，研究团队指出，这种细腻本身就是个陷阱。

以一道典型的问题为例：如果有人问"说出一位2019年温布尔登网球赛的冠军"，那么塞雷娜·哈勒普（女单冠军）、诺瓦克·德约科维奇（男单冠军）、胡斯·苏韦（女双冠军）等人其实都是同等正确的答案，真实价值（True Reward）全部应该是满分1.0。但当研究团队把这些答案喂给两款当下最流行的奖励模型——Skywork V1和ArmoRM时，却得到了令人困惑的结果。Skywork V1给德约科维奇打了-1.3分，却给卡巴尔打了-15.4分，两者相差十倍以上；ArmoRM也好不到哪去，各答案之间分数参差不齐，尽管它们同样正确。

这就像那位挑剔的点评员：他明明知道两道菜都很好吃，却硬要用盘子颜色来分高下，还把这个主观偏好当成了评判厨艺的标准。研究团队把这种现象命名为"过度敏感性"（Oversensitivity），专指奖励模型对同等质量的答案给出不同分数的倾向。

**二、权威榜单为何没能发现这个问题**

业界最权威的奖励模型评测榜单RewardBench，目前最顶尖的模型在第一版上能达到94%的准确率，第二版也有84%。这些数字看起来相当亮眼，似乎奖励模型已经做得很好了。但研究团队发现，这些榜单其实存在一个根本性的盲点。

RewardBench的测试方式，本质上是给模型呈现两个答案，让它判断哪个更好。问题在于，测试集里默认"总有一个更好"——换句话说，榜单几乎从不考虑"两个答案同样好"的情况。这就好比只测试点评员在面对"一道精心烹制的法式大餐"和"一道隔夜剩饭"时能否做出正确判断，却完全不测试他能否识别出"两道都是精心烹制的大餐"。

RewardBench第二版虽然加入了一个"Ties"（平局）子集来考察这种情况，但这个子集在总分中只占1/16的权重，影响微乎其微。正因如此，那些过度敏感的奖励模型依然能在榜单上获得很高的分数，让人误以为问题已经解决了。

研究团队基于此提出了两个全新的衡量指标，来更全面地评价奖励模型的质量。第一个叫"区分能力"（Discriminative Ability），衡量的是：当一个答案真的比另一个好时，奖励模型能否正确地给出更高的分数？第二个叫"特异性"（Specificity），衡量的是：当两个答案同样好时，奖励模型能否给出相同或相近的分数？特异性正是过度敏感性的反面。以往大家只关心区分能力，却完全忽略了特异性。而这两者都很重要，缺一不可。

准确率（Accuracy）其实等于这两者的加权组合。当所有答案的质量都不一样时，准确率就等于区分能力——因为根本不存在"同样好"的情况需要考察。但现实中，有大量问题拥有多个同样好的答案，所以准确率只考察区分能力是不够的，特异性的缺失会在训练中造成真实伤害。

**三、过度敏感是怎么产生的，又为何无法被"平均掉"**

研究团队用严格的数学模型来解释过度敏感性的根源。可以把奖励模型给答案打的分数，理解为两部分之和：一部分是答案真实质量对应的分数，另一部分是来自各种噪声的随机扰动。

这种噪声来自哪里？首先，人类对回答的偏好有时并不完全取决于质量本身，而是受到个人背景、主观解读、甚至无意识偏见的影响——研究人员称之为"评分不确定性"（Rating Indeterminacy）。其次，奖励模型的训练过程并不完美，它在学习"什么是好回答"的同时，也会把人类评判中的这些偏见和随机性一起学进去。

关键在于：研究团队证明，即使这种噪声足够小（小于相邻质量等级差距的一半），奖励模型依然能保持完美的区分能力——也就是说，真的好答案永远比真的差答案分数高。但与此同时，对于两个质量完全相同的答案，它们被打出不同分数的概率依然不为零。更糟的是，研究团队证明这种过度敏感性不是随机噪声，而是一种"可学习的信号"——AI在训练过程中会主动去发现并利用这种规律，朝着奖励模型偏爱的风格靠拢，即便那种风格与真正的质量毫无关系。

一些人可能会想：既然是噪声，多采样平均一下不就好了？研究团队明确指出，这行不通。因为奖励模型里的噪声并非真正随机，它实际上是依赖于答案内容的函数——同样风格的答案会系统性地得到更高分数。多次采样的结果还是会收敛到那个带有偏见的分数，无法通过平均消除。

**四、离散化：一把精准的裁剪刀**

发现了问题，研究团队给出的解决思路非常优雅：既然连续分数会带来麻烦，那就把它变成离散的等级。这个过程就叫"离散化"（Discretization）。

继续用餐厅点评的比喻：与其让点评员给菜品打0到100的连续分数，不如让他只能给出"差"、"普通"、"好"、"极好"四个等级。这样一来，两道同样好的菜就会落在同一个等级，奖励模型的过度敏感性就被自动消除了。

当然，离散化也有代价——如果等级划分太粗糙，会损失区分能力。比如把所有菜都归入"好"和"差"两档，那么"好"和"极好"之间的差别就彻底丢失了。研究团队在数学上严格证明，在适当条件下，存在某种离散化方案，能够在几乎不损失区分能力的同时，将过度敏感性降至零。

在二元质量模型（只有"好"和"差"两档）的理想情况下，如果把分数阈值设在"好答案平均分"和"差答案平均分"的正中间，离散化后的奖励模型能同时实现完美的区分能力和完美的特异性，综合得分达到满分100%。而同样条件下，原始的连续奖励模型综合得分最高只能达到83.3%，而且随着容忍度趋近于零，差距会越来越大。

**五、如何在实践中实现离散化：蒙特卡洛随机失活**

理想的离散化需要知道分数的分布情况，才能找到合适的阈值。但在真实场景中，我们不可能预先知道这些分布。研究团队提出了一套完全不需要重新训练模型的实用算法，叫做"奖励聚类"（Reward Clustering）。

这套算法的核心技巧叫做"蒙特卡洛随机失活"（Monte Carlo Dropout，简称MC Dropout）。每个神经网络模型内部都有无数个"神经元"，正常推理时所有神经元都参与工作。而随机失活是指在推理时随机关掉一部分神经元，就好像让点评员喝了点酒，判断会稍微有些飘忽。对同一道菜运行多次这样的"微醺判断"，如果每次的分数都差不多，说明这道菜的品质相当确定；如果每次分数差异很大，说明点评员自己也拿不准，这道菜的评分存在较大的不确定性。

通过收集同一个答案在多次随机失活下的分数样本，算法可以估计出该答案分数的均值和方差。知道了每个答案分数的均值和方差，就可以计算出任意两个答案的分数"在统计上是否真的不同"——如果两个答案的分数分布高度重叠，就认为它们质量相当，划入同一个聚类；如果分布相差很远，就认为它们质量有别，划入不同聚类。最终，每个聚类会被赋予一个整数等级，作为该批次中所有答案的最终离散奖励。

整套算法由四个超参数控制：分数差异的最小阈值、两个答案被认定为质量相当所需的最低概率、随机失活的比例，以及采样次数。研究团队在实验中固定使用2%的随机失活比例和4次采样，发现增加采样次数对效果几乎没有影响——4次就够用了。算法基于OpenRLHF框架实现，在8张H100 GPU的节点上运行时，每分钟处理的提示数从约64条降至约56条，计算开销增加了约15%，在工程上是可以接受的代价。

**六、实验验证：三个层次的考验**

研究团队从三个层次对奖励聚类算法进行了验证，每一层都比上一层更接近真实世界。

第一层验证使用了RewardBench 2中的"Ties"子集。他们对Skywork V1、Skywork V2、GRM和ArmoRM四个主流奖励模型分别测试了原始输出、截断尾部分数、集成多次采样结果、简单二元离散化，以及他们提出的奖励聚类五种方法。结果显示，奖励聚类在所有四个奖励模型上都一致地提升了区分能力和特异性的平均值。以GRM为例，原始方法的平均综合分数为69.2，奖励聚类后提升至80.6，提升幅度相当显著。值得注意的是，单纯的集成（对多次随机失活的分数取平均）并不能改善特异性——这说明Monte Carlo Dropout本身并不是魔法，关键在于用它来估计方差并进行聚类这个步骤。

第二层验证是在一个精心设计的受控实验中进行的。研究团队构建了一个"混合效应"数据集：90%或80%的偏好对来自"主要目标"（指令执行是否正确），剩下10%或20%的偏好对来自"次要目标"（使用模糊性语言，如"可能"、"也许"，同时避免使用肯定性语言，如"非常"、"绝对"）。他们在这个数据集上训练了奖励模型，然后用原始奖励和离散化奖励分别训练策略模型，观察两者的差异。

实验结果非常鲜明。用原始奖励训练时，模型在前期确实会提升指令执行准确率，但随着训练步骤增加，它逐渐学会过度使用模糊性语言，即便在80%的数据都在强调指令执行的情况下，最终的指令执行准确率仍然出现了明显下滑。在图4展示的具体案例中，面对一道谜语题，用原始奖励训练的模型在第112步时给出的答案塞满了"possibly"、"could be"、"may be"等模糊词汇，而用离散化奖励训练的模型在第64步就收敛到了一个简洁清晰的正确答案。用于对比的截断方法（Clipping）在90%主要/10%次要的情况下表现尚可，但在80%主要/20%次要的情况下彻底崩溃——它把主要奖励的顶端也截掉了，反而加剧了偏差。

第三层验证是最接近真实场景的实验。研究团队用Llama 3.1 8B Instruct作为基础模型，使用30K条来自IFEval、MATH、GSM8K数据集的有标注提示，以及30K条来自WildChat的完全无标注提示，用四个主流奖励模型的原始版本和离散化版本分别训练，并在IFEval（指令执行）、MATH（数学题）、GSM8K（数学应用题）三个测试集上进行评估，同时测试了两种KL惩罚系数（0.01和0.05）和三个随机种子。

完整的实验数据展示了一个一致的规律：在24个对比实验中，离散化方法有10个达到了显著提升（超过一个标准差），另外14个持平，没有任何一个出现显著退步。以ArmoRM加低KL惩罚系数为例，原始奖励在IFEval上的平均分是53.0，离散化后提升至77.8，提升幅度超过24个百分点；在GSM8K上，原始奖励下只有3.6分（模型完全崩溃），离散化后回到了2.2分——虽然两者都不高，但原始奖励导致了更彻底的策略退化。总体而言，当KL惩罚系数较低时（模型有更大的空间偏离基础模型），离散化的优势最为明显；KL惩罚较高时，两者差距缩小但离散化依然不差。

**七、理论上的严格保证**

研究团队不止于此，他们还在更宽松的噪声假设下（高斯分布噪声，而非有界均匀分布）证明了离散化的优越性。在高斯噪声模型下，原始奖励模型不可能保持完美的区分能力，但离散化依然能在几乎所有实用的容忍度范围内（容忍度小于1/√2）实现比原始奖励更高的特异性。研究团队通过精细的数学分析，将信噪比的取值范围分为三个区间，分别用不同方法证明了在全部信噪比下，离散化的综合得分严格优于原始奖励。只有当信噪比趋近于无穷大时——意味着奖励模型本身几近完美——两者的差距才趋向于零，离散化的价值才会消失。换句话说，当奖励模型越差（噪声越多），离散化的收益越大。

**八、与其他方法的比较以及研究的局限**

研究团队将奖励聚类与几种直觉上合理的替代方案进行了比较，结果证实了奖励聚类的独特价值。简单地截断尾部分数（Clipping）在某些情况下有效，但在噪声比例较高时反而适得其反；对多次随机失活结果取均值的集成方法（Ensembling）几乎没有效果，因为它没有利用方差信息；简单地以中位数为阈值进行二值化（Binary Thresholding）虽然能提升特异性，但会严重损失区分能力，因为它强制把所有答案都归为两类，抹去了所有的细粒度信息。

研究团队也坦诚地指出了研究的几个局限性。目前所有的实验都只在Llama 3.1 8B Instruct这一个基础模型上进行，也只使用了GRPO这一种强化学习算法，泛化到其他模型架构和训练算法的情况有待验证。理论推导部分假设奖励模型是效用函数的线性变换加噪声，且噪声在各质量等级间方差一致，这在现实中可能并不成立。此外，理论部分重点分析了二元效用函数（只有好和坏两档），而现实中大多数问题有更多个质量等级，虽然研究者认为结论可以推广，但尚未在论文中正式证明。

说到底，这项研究揭示的是一个相当基础却长期被忽视的问题：我们用来训练AI的"评分员"自己就有毛病，而且这个毛病不是随机错误，而是会被AI系统性地学习和放大。研究团队给出的解决方案——奖励聚类——既不需要重新训练奖励模型，也不依赖任何外部工具，只需要在打分环节加一步聚类处理，代价极低，收益却相当可观。

这对于所有关心AI安全性和可靠性的人来说，都是一个值得认真对待的信号：也许我们不仅要追问"AI学到了什么"，更要追问"教AI的那位老师，自己打分打得公平吗"。如果有兴趣深入了解完整的数学证明和实验细节，可以通过论文编号arXiv:2606.21795查询原文。

Q&A

Q1：奖励模型的"过度敏感性"是什么意思，为什么会产生？

A：奖励模型的"过度敏感性"是指，当两个AI回答的质量实际上完全相同时，奖励模型却给出了截然不同的分数。产生原因是奖励模型在训练时不仅学到了"什么是好答案"的规律，也把人类评分数据中的主观偏见、风格偏好等无关因素一并学入。这些噪声虽然量级较小，但会被AI在强化学习中系统性地发现并利用，导致模型朝着与真实质量无关的方向进化。

Q2：奖励聚类算法需要重新训练奖励模型吗，计算成本高吗？

A：奖励聚类完全不需要重新训练奖励模型，可以直接对任何现有神经网络奖励模型使用，属于训练无关的后处理方法。计算成本方面，在8张H100 GPU的服务器上，使用奖励聚类后训练吞吐量从每分钟约64条提示降至约56条，大约增加15%的时间开销，工程上完全可以接受，算是代价极低的改进方案。

Q3：RewardBench榜单上得分高的奖励模型，在实际强化学习训练中表现是否也好？

A：不一定。研究团队的实验显示，RewardBench等现有评测榜单主要衡量"区分能力"，几乎不考察"特异性"，因此高榜单分数的奖励模型在实际强化学习中依然可能因过度敏感性而导致策略退化。实验中ArmoRM在某些设置下直接让被训练的模型崩溃，而它在榜单上的分数并不低。这说明评测榜单和实际训练效果之间存在明显的脱节。

DC娱乐网

卡内基梅隆大学与Meta联手发现AI训练中被忽视的隐患

热门分类

卡内基梅隆大学与Meta联手发现AI训练中被忽视的隐患

猜你喜欢

热门分类