
一组来自苹果和特拉维夫大学的研究人员找到了在不牺牲可懂度的前提下加速基于AI的文本转语音生成的方法。下面介绍他们是如何做到的。
一种有趣的新思路更快生成语音在一篇新论文《Principled Coarse-Grained Acceptance for Speculative Decoding in Speech》中,苹果研究员详细阐述了一种从文本生成语音的创新方法。
虽然目前已有多种文本转语音的实现方式,研究人员聚焦于自回归(autoregressive)文本转语音模型——这些模型一次生成一个语音token。
如果你曾查阅过大多数大型语言模型的工作原理,应该对自回归模型并不陌生,它们会根据之前的所有token来预测下一个token。
自回归语音生成的原理大体相同,只是这里的token代表的是音频片段,而非文字或字符。
这种方式虽然在从文本生成语音时效率较高,但也会形成处理瓶颈,正如苹果研究员所指出的
然而,对于生成声学token的语音LLM来说,严格的token匹配过于限制许多离散token在声学或语义上是可互换的,这降低了接受率,限制了加速空间。
换句话说,自回归语音模型往往过于严格,常常拒绝那些虽然足够好的预测,仅因为它们与模型期望的精确token不匹配。这会导致整体速度下降。
引入“原则性粗粒度”(PCG)简而言之,苹果的解决方案基于这样一个前提许多不同的token能产生几乎相同的声音。
基于此,苹果将发音相似的语音token分组,形成更灵活的验证步骤。
换言之,苹果的做法不再把每一种可能的声音视为完全独立,而是允许模型接受属于同一“声学相似”组的token。
实际上,PCG由两个模型组成一个较小的模型快速提出语音token,另一个更大的判断模型在接受之前检查这些token是否属于正确的声学组。

最终形成的框架将“投机解码”(Speculative Decoding, SD)的概念迁移到生成声学token的LLM上,从而在保证可懂度的前提下加速语音生成。
研究人员的实验显示,PCG将语音生成速度提升约40%,这在对比标准投机解码对语音模型几乎没有加速效果时尤为显著。

与此同时,PCG将词错误率维持在比以往专注速度的方案更低的水平,保持了说话人相似度,并在自然度评分上取得4.09(1–5的人类主观评分),优于之前的速度导向方法。
在一次压力测试(同组token替换的消融实验)中,研究人员将91.4%的语音token替换为同一声学组的备选token,音频仍保持良好,仅导致词错误率上升 +0.007,且说话人相似度下降 -0.027

虽然研究并未讨论其对苹果产品和平台的具体影响,但该方法有望用于未来需要在速度、质量与效率之间取得平衡的语音功能。
关键是,这一做法不需要对目标模型进行再训练,因为它是解码阶段的改动。换句话说,它可以在推理时直接应用于已有的语音模型,无需修改模型结构或重新训练。
此外,PCG只需约37 MB的额外内存用于存储声学相似组,资源需求极低,适合在内存受限的设备上部署。