引用
[1] Li J , Lan Y , Guo J , et al. On the Relation between Quality-Diversity Evaluation and Distribution-Fitting Goal in Text Generation[J]. 2020.
摘要
文本生成模型的目标是确定文本的潜在真实概率分布。通常应用质量和多样性指标来进行绩效评估。然而,我们尚不清楚质量多样性评估能够反映分布目标的程度。在本文中,我们试图用理论方法揭示这种关系。我们证明,在某些条件下,质量和多样性的线性组合构成了生成分布和实际分布之间的差异度量。我们还发现常用的 BLEU/Self-BLEU 度量对不能匹配任何发散度量,因此我们提出了 CR/NRR 作为质量/多样性度量对的替代。
1 引言
文本生成是许多 NLP 应用程序的基本任务,如机器编写、机器翻译、图像捕获和对话系统 Li 等。文本生成模型的工作方法分为两种,第一种通过显式地对文本的概率分布进行建模,第二种隐式地学习一个将噪声数据映射到文本的生成器。两种方法都旨在生成具有给定文本数据相同分布的文本。
为了实现分布目标,通常将发散度量用作文本生成模型的训练目标。典型的选择包括最大似然估计(MLE)的 Kullback-Leibler 散度,以及通过对抗性训练的 Jensen-Shannon 散度或 Wasserstein 距离。然而,在评估过程中,基于散度的指标无法区分两种情况:产生不切实际文本的低质量案例,以及产生暗淡和重复文本的低多样性案例。因此,引入质量和多样性度量来帮助模型诊断,例如 BLEU 和 Self-BLEU。高生成质量要求模型生成真实的样本,即生成的样本没有语法或逻辑错误。高多样性要求模型生成不同的样本,即生成的样本重复几率很小,并且需要包含不同的独特模式。
尽管质量多样性指标广泛应用于文本生成模型的评估,但是这种评价与分布拟合目标之间的关系尚不清楚。在最近的研究中,似乎有一种默契的共识,即具有更高质量和更高多样性的模型也更好地适应真实的文本分布。然而,这种假设还有待验证。这是至关重要的,因为潜在的不相等可能导致误导性的评价结论。本文试图从理论的角度来回答无条件文本生成背景下的这一问题。
为了弥补分布拟合目标和质量多样性评价之间的差距,我们要求从分散最小化得到的最优解与质量多样性最大化得到的最优解保持一致。因此,我们首先给出了质量和多样性的一般定义。在此基础上,我们研究了质量和多样性同时最大化的多目标规划问题。我们证明了这个 MOP 问题存在一组 pareto 最优解,即在质量和多样性方面都不能超越的解。在当且仅当质量-多样性指标成对使用时的前提下,我们证明了真实分布属于这个 pareto 最优族。在这种情况下,质量和多样性的线性组合构成了生成分布和真实分布之间的散度度量。
真实文本样本明显优于手动构建的模型,即超过了 BLEU 和 Self-BLEU。因此,基于上述理论分析,我们进一步提出覆盖率和负重复率(NRR)作为替代。实验表明,CR/NRR 作为质量/多样性度量的表现良好,而 CR/NRR 的线性组合作为差异度量同样有不错的表现。
2相关工作
为了评估文本生成模型的性能,我们从不同的角度设计了许多评估指标。早期的神经文本生成模型使用 PPL 来展示语言模型对训练数据的处理能力,这是一个基于散度的度量,其在最近的工作中仍然被采用。PPL 的计算对于隐式模型来说可能很棘手,因此其他基于散度的度量也是实用的选择,例如核密度估计、字移动距离、MS-Jaccard 和 Frechet 距离。然而,发散度量为模型诊断提供的信息比较有限,并且可能与任务性能不太相关。因此,生成文本的质量和多样性被进一步认为是互补的度量,而这也是实际应用中的要求。
对于质量度量,评估与真值分布密切相关。如果没有明确给出真实分布,通常使用 BLEU 和 ROUGE,它们测量生成样本和一组参考真值样本之间的 n-gram 重叠。对于多样性指标,评估是在模型本身内部进行的。尽管质量多样性评价已得到广泛应用,但其与差异度量的关系仍不明确,这给评估结论带来了很大的不确定性。我们的工作将有助于在质量多样性和差异之间建立桥梁,并为选择合适的质量多样性指标提供指导
3质量和多样性的定义
在进行进一步分析之前,我们首先试图给出一个数学观点中质量和多样性的一般形式,尽管它可能不够全面,不足以涵盖所有可能的理解。
3.1质量和多样性的一般形式
文本数据通常是离散的,所以我们用以下符号表示。假设词汇表大小为|V|,最大长度为 L,那么文本数据的分布可以用大小为 N = |V|L 的分类分布来描述。我们将真实分布和生成的模型分布分别表示为 P (x) = (P1, P2,···,PN)和 Q(x) = (Q1, Q2,···,QN)。
一般来说,文本生成模型的质量度量了某种可能性,即生成的文本在人们看来是真实文本。由于真实概率 P (x)的值可以看作是反映文本 x 的现实程度,因此可以用某函数对 P (x)的期望来量化质量。例如,对数似然(LL)被用作质量度量,其中 LL(Q;P) = Ex ~ Q log P (x)。根据这一思想,我们提出了质量的一般形式,即 U(Q;P) = Ex ~ Qfu[P (x)],其中 fu 是 P (x)上的函数。
最后,我们提出质量和多样性指标的一般形式如下:
3.2质量和多样性的合理性
为了保证 U 和 V 是合理的质量和多样性度量,我们需要讨论 f 和 g 的条件。在不丧失一般性的前提下,我们首先假设 f 是可微的,g 是二次可微的。此外,合理的质量和多样性需要以下要求
1. 以更高的真实概率生成更多的样本会获得更高的整体质量;
2. 更平均地分配概率会产生更高的整体多样性。
从数学上讲,这两个要求可以形式化为以下两个性质:
然后我们可以通过以下定理得到 f 和 g 的条件:
定理一:
根据定理 1,对于 x∈(0,1/2,)f(x)必须是严格单调递增的,g(x)必须是严格凹的。为简单起见,我们只考虑 x∈(0,1)具有这种性质的 2 种情况,从而得到一个充分条件:
4质量多样性评估分析
在本节中,我们展示了质量多样性评价如何以及在多大程度上反映了分布拟合的目标。其核心思想是解决多目标规划(MOP)问题,该问题试图同时实现质量和多样性的最大化。我们给出了这个 MOP 问题的所有帕累托最优解的结构,它构成了帕累托边界。然后我们证明了当且仅当 f 和 g 根据给定的规则成对时,则真值分布在该边界上。在此条件下,质量和多样性的线性组合构成散度度量,即质量多样性评价足以反映分布拟合目标。
4.1MOP 问题
我们考虑以下 MOP 问题:
我们的目标是最大化质量和多样性,同时保持 Q 的合法分布。MOP 问题的最佳解决方案被称为 Pareto-optima,这意味着没有其他解决方案能够在所有项目中都始终击败它们。
我们将帕累托最优性的术语定义如下:
定义一:
直观地说,帕累托最优是一种解决方案,即没有一种分配能够达到比它更高的质量和更高的多样性。所有的帕累托优解构成了帕累托边界。帕累托边界可能会分解为一个解,从而导致全局最优,例如,如果 P 是一致的,唯一的最优解将是 Q∗= P。然而通常情况下,MOP 问题中的目标并不能一致地达到它们的最优,所以会有一组最优解决方案。因此,我们所关心的是非均匀 P 下的帕累托边界结构。
4.2Pareto 边界
我们通过给出以下定理来证明帕累托边界的结构:
定理二:
根据定理 2,不同的 ws 会导致不同的分布,因此我们可以将 w 的值改为从 o 到 B,得到一组质量和多样性不同的最优解。因此,对于非均匀 P,帕累托边界是一个分布族。
4.3 效应二:散度的关系
为了弥补分布拟合目标和质量多样性评价之间的差距,必须让差异最小化得到的最优解与质量多样性最大化得到的最优解保持一致。由于 Q = P 是发散最小的最优解,而上述 pareto 边界是质量和多样性最大的最优解集合,因此我们要求 Q = P 位于 pareto 边界。理论结果如下所示:
定理三:
我们发现,如果仔细选择质量和多样性度量,即 g 是仿射变换的积分,我们可以通过这两个度量的线性组合得到散度度量。
LL-SE 情况满足定理 3 中的条件。在这种特殊情况下,有 Ψ(Q) = (1/2)LL(Q) + (1/2) SE(Q),并且有:
由于这样的条件也是必要的,所以如果我们随意选择度量标准,那么真实分布就不太可能是帕累托最优分布。这意味着,将有一个分布实现比最优解有更高的质量和更高的多样性,这是不可能的。因此,如果定理 3 中的条件不满足,就不太可能使用质量和多样性的组合来度量散度。
在这里我们可以得出结论,用质量多样性评价的混合方法来反映分布分配的目标是足够的。但是,应该仔细选择特定的度量标准,以避免可能违反此类属性。假设严重违背了这一性质,即理论依据分布和 pareto 边界之间存在巨大的差距,那么一个完全符合真实分布的模型在质量和多样性方面都会被另一个模型显著地超越,从而得出误导性的结论。
5 优化的 IMC 攻击质量多样性指标的选择
现有的质量多样性指标是否足以反映分布目标还有待检验。对于满足上述定义的一般形式的度量,可以应用定理 3 直接得出结论。
然而,对于大多数有真实文本数据的场景,由于理论依据分布未知,包括 LL-SE 对,对于上述中质量多样性的一般形式的计算是很棘手的。因此,实用度量通常不属于这个框架,定理 3 不能直接应用。为了对这样的度量进行判断,我们建议考虑散度和质量-多样性度量对之间的兼容性。在使质量-多样性指标最大化的 MOP 问题下,当实际分布是 pareto 最优时,我们说一对质量-多样性指标是发散相容的。这种相容性是存在相应的散度度量(质量和多样性严格递减)的必要条件。
5.1 BLEU和Self-BLEU
BLEU 和 Self-BLEU 分别是质量和多样性评价的常用指标。直观地说,BLEU 测量生成文本的候选集和真实文本的参考集之间的 n-gram 重叠,而 Self-BLEU 是每个生成文本与其他作为参考的候选的平均 BLEU 分数。较高的 BLEU 分数意味着生成文本中的 n-grams 更有可能出现在真实文本中,因此 BLEU 可以用作质量度量。同样,Self-BLEU 得分高意味着生成的文本在 n-gram 方面彼此相似,因此 Negative Self-BLEU(简称 NSBLEU)可以作为多样性度量。
BLEU 在候选集 C 上的表达式为:
BLEU 的表达似乎不满足上述中定义的质量/多样性的一般形式。但在某些特殊情况下,一般形式仍然是满足的,在此基础上,我们提出了 BLEU-NSBLEU 不相容的一些症状。假设文本的长度都是 1,因此 M = 1, BP≡1。在本例中,BLEU 只包含一项,即 BLEU = p1。那么对于候选集 C 和参考集 R, BLEU 和 NSBLEU 对生成分布 Q 和实分布 P 的期望为
定理 3 中的条件满足于|R| = 1 和|C| = 2,即 f(x) = x 和 g(x) =-x2。然而,参考集|R|的大小通常远远大于 1,在这种情况下,BLEU-NSBLEU 度量对将是发散不相容的。
虽然上述分析是在一个特殊情况下进行的,但这样的结果意味着一般的 BLEU-NSBLEU 度量对可能存在不兼容性。我们将在之后的内容中通过实证方法证实这种不兼容性。
5.2建议的度量对
为避免在实际应用中可能产生的误导结论,我们建议使用多样性兼容的质量-多样性度量对。
因为真实概率 P (x)在 U(Q;P)的一般形式下,对于真实文本数据,大多数质量度量的计算都很棘手。唯一的例外是 f(x) = x,配对 g(x) = -x2。f 的线性性可以通过对真实数据进行抽样来避免 P (x)的显式形式,即 U(Q) = Ex∈P Q(x)。我们将相应的质量度量称为覆盖率(CR),将多样性度量称为负重复率(NRR)。即便如此,我们观察到在真实文本数据上估计 CR 和 NRR 时存在很大的差异。这主要是因为 N = |V|L 的文本空间非常大。因此,CR/NRR 的估计在文本空间中是非常不准确的。
因此,我们建议在 n-gram 空间而不是文本空间中计算 CR-NRR。从文本分布 Q 和 P 推导出 n-gram 分布 Qg 和 Pg,使得:
在 n-grams 空间中,用其他 f/g 函数计算度量对是一种可行方案。然而,像 LL-SE 这样的度量标准在真实文本数据上面临另一个平滑问题,即如果某些 n-grams 没有出现在候选集或参考集中,它们的值将趋于无穷大。因此,我们仍然建议将 CR-NRR 作为首选。
虽然有从文本空间到 n-gram 空间的转换,但 CR/NRR 仍然可以反映质量/多样性。CRn 度量度量了候选集合中 n-gram 出现在参考集合中的平均概率,因此它是质量的一个指标。同样,NRRn 度量一个 n-gram 在候选集上连续两个采样过程中再次出现的平均概率,所以它也是多样性的一个指标。
然后检验 CR-NRR 评价的发散相容性。首先,根据定理 3,CR-NRR 是 n-gram 空间中散度相容的分布。我们将相应的散度度量称为 CR-NRR 散度(CND)。
其次,CR-NRR 在文本空间中也是发散兼容的分布。假设 CR-NRR 评价下 Q = P 被 Q’支配,也就是说 Qg = Pg 也被 Q’g 支配。这就导致了与 n-gram 空间的兼容性之间的矛盾,所以文本空间的兼容性也是成立的。
CRNRR 除了具有发散性外,还具有易于获得的特点。它不需要显式的 P (x)或 Q(x)值,因此可以应用于类似于 BLEU-NSBLEU 的隐式模型。CR-NRR 算法的时间复杂度为 O(m + n),远低于 BLEU-NSBLEU 算法的 O(m·(m + n)),其中 m 和 n 分别表示候选集和参考集的大小。综上所述,我们建议在 n-gram 空间中使用 CR-NRR 来评价质量多样性,而不是使用 BLEU-NSBLEU。
6实验
在本节中,我们对 BLEUNSBLEU 进行了兼容性分析,并在合成数据和真实文本数据上与 CR-NRR 进行了比较。我们观察到一个现象,即通过一些人工构建的模型,ground truth 文本数据明显优于 BLEU 和 NSBLEU,从而表明 BLEU-NSBLEU 具有显著的发散不兼容。CR/NRR 分别代表质量/多样性评价,CND 代表差异评价。
为了测量不相容程度,我们计算质量差异(QDisc)和差异率(DRate):
直观上,我们试图找到一个在其多样性不低于真实分布的同时质量最好的模型。
6.1合成数据实验
我们首先在合成数据而不是真实文本数据上运行实验,以便获得所有指标的精确值。在此设置下,预先明确给出了生成的分布 Q 和真实分布 P 的信息,从而消除了抽样中可能存在的方差。合成的数据是长度为 L 的文本,使用伪词汇量 V。
如果已知帕累托边界的确切形式,QDisc 和 DRate 的计算可以通过简单的二叉搜索算法来实现。然而对于 BLEU-NSBLEU 度量对,由于定理 2 不能应用于这种情况,边界是未知的。因此,我们选择使用一种基于优化的方法来估计 QDisc。我们尝试使用带动量的随机梯度下降(SGD)来解决以下优化问题:
λ 是一个惩罚项,用来阻止散度低于实际分布 P 的情况。我们在实验中设 λ = 2.0。所以 QDisc = U(Q∗)U(P), DRate 中的分母也是通过这种基于优化的方法计算出来的。
对于候选集大小为 m,参考集大小为 n 的 BLEU 度量,其期望可以直接计算:
我们用 CN-n 和 BS-n 分别作为 CR-NRR 和 blue - nsbleu 的缩写。我们在表 1 中报告了 blue - nsbleu 的 QDisc 速率。我们可以看到,这种差异在某些情况下是显著的,例如,在 σ = 0.5 的数据上,BS-2 的 QDisc > 0.02 和 DRate = 9.41%。QDisc 的值为 0.02 意味着,当质量差距低于 0.02 时,我们不能肯定地说一个模型比另一个模型更好,这对于 BLEU 来说已经是一个明显的差距。我们也对 CR-NRR 进行了类似的实验。然而,没有观测到正下界,这与我们的理论是一致的。
表 1:BLEU-NSBLEU的 QDisc 速率
6.2合成数据实验
在不同的情况下,质量差异的重要性是不同的,因此我们关注的是真实文本数据的差异。
为了提供 QDisc 和 DRate 的估计,我们手工构建了一系列强模型。我们把经验分布 P˜ 以不同的比例截断成均匀的分布 M˜ 不,即 Q =(1-e)·P +e·M .在文本生成一个以概率 1-e 的随机文本参考集采样,否则以概率 e 随机标记、构造文本长度 L’的文本。我们尝试 L’= 5 和 L’= L,并报告具有较大 QDisc 值的情况。
Ref-Ratio 计算 QDisc 与质量差 e= 0.0 和= e0.2 之间的比率。L’ = 5 下,3-gram 情况下的 BLEU-NSBLUE 和 CR-NRR 的评价结果如图 2 所示。
图 1:3-gram情况下的 BLEU-NSBLUE和 CR-NRR 的评价结果
我们可以看到,真实数据接近 CR-NRR 曲线,而实际数据与 blue - nsbleu 曲线之间的差距要大得多。我们在表 2 中给出了 QDisc、DRate、Self-Ratio 和 Ref-Ratio 的值。BLEU-NSBLEU 显示出明显的不兼容性,QDisc 的值从 0.032 到 0.211 不等。如此巨大的 BLEU 差异在实际应用中是无法忍受的。因此,我们建议不要使用 BLEU-NSBLEU,以免得出误导结论。CR-NRR 也有较小的正差异,这是由于候选集和参考集的经验分布必然存在差异。但这种分布差异造成的差异一般要比 blue - nsbleu 小得多。我们还观察到 CR-NRR 的 DRate 随着 n-gram 变长而快速增长,因此我们建议使用 n-gram 较短的 CR-NRR,如 CN-2 或 CN-3。
接下来,我们将展示 CR/NRR/CND 在真实文本数据上的表现。我们将温度扫描应用于通过最大似然估计预训练的基于 rnn 的语言模型(RNNLM)。我们使用 Adam 优化器训练模型。随着温度 t 的增加,模型变得更接近均匀,质量下降而多样性增加,并且在 t = 1.0 附近取最小发散。结果如图 2 所示,我们可以看到 CR/NRR/CND 分别代表质量/多样性/差异,这显然符合我们的预期。因此,我们建议使用 CR-NRR 进行质量多样性评估。
图 2:CR/NRR/CND 在真实文本数据上的表现
7讨论
我们的上述结论主要是在无条件文本生成设置下得出的,然而,在条件文本生成设置下,质量多样性评估也受到了很大的关注,如对话系统、机器翻译和图像字幕。在本节中,我们简要讨论了条件文本生成设置下的质量多样性评估。
由于质量和多样性指标的形式化不同,我们的结论不能直接转移到条件文本生成设置。在这些设置下,在条件 c 下文本 x 的质量仍然被定义为单调地增加实条件概率 P (x|c)。因此,总体质量度量成为文本质量在 x 和 c 上的期望,这就是 BLEU 的情况。同时,多样性指标有两种不同的理解。一定义为不同 c 下条件模型分布 Q(x|c)的平均多样性,如 Pairwise-BLEU。另一种定义为边际模型分布 P Q(x) = P (c)Q(x|c)的多样性,如 Distinct。c 质量指标和多样性指标的形式化与我们在上述中提到的不同,可能会导致不同的结论,因此需要进一步分开分析。虽然这些分析在这里没有涉及,但我们的工作为未来的理论分析提供了一个范例,包括度量的定义,帕累托最优性分析,以及发散相容性判断。
另一个区别在于任务目标的角度。无条件文本生成的目标是设计出更好的文本分布的模型,而在条件文本生成中,更好的人的评价结果在大多数情况下被视为最终目标。因此,在这些情况下,主要的焦点将是设计更好地反映人的评价的指标,以及设计实现更好评价的培训目标。并对人的评价是否与发散相容进行了展望。我们认为这些是我们未来的工作。
8结论
本文从理论上分析了质量多样性评价与分布拟合目标之间的关系。我们证明了当使用适当配对的质量多样性度量时,即 g(x)是 f(x)的一个积分变换,质量和多样性的线性组合会构成生成的分布和真实分布之间的散度度量。对于实际使用的度量,我们发现常用的 BLEU 和 Self-BLEU 度量对不能反映分布拟合目标。作为替代,我们建议使用 CR-NRR 作为质量-多样性度量对。
致谢
本文由南京大学软件学院 2021 级硕士陈伟翻译转述,刘子夕审核。