AI语音：是福音还是威胁？

随着AI语音生成器的不断改进，它们带来了机遇和风险。本文将探讨这项技术如何改变从辅助功能到诈骗者作案手法的一切。

语音合成并非新鲜事

许多人工智能技术可以追溯到几十年前。但就语音而言，我们已经拥有了几个世纪的语音合成历史。

例如，1791年的论文《Mechanismus der menschlichen Sprache nebst der Beschreibung seiner sprechenden Maschine》记录了约翰·沃尔夫冈·冯·肯佩伦如何使用风箱来制造一个会说话的机器，作为他著名的自动机骗局“土耳其人”的一部分。

历史上最著名的合成语音之一是1983年电影《战争游戏》中的电脑WOPR。当然，这实际上并不是电脑合成的。

真正的文本到语音的电脑合成语音赋予了物理学家斯蒂芬·霍金他的声音。这是使用一台固定在他轮椅上的1986年台式电脑构建的。他从未将其更改为更现代的版本。他说：“我保留它是因为我没有听到我更喜欢的声音，而且我已经认同了它。”

语音合成芯片和软件也不是什么新鲜事物。20世纪80年代的TI 99/4在一些游戏卡带中就包含了语音合成功能。美泰公司在1982年就在其Intellivision游戏机上安装了Intellivoice。早期的Macintosh粉丝可能会记得Macintalk，尽管在那之前Apple II也有语音合成功能。

大多数这些实现，以及直到2010年代中期为止的实现，都使用基本的音素来创建语音。所有单词都可以分解成大约24个辅音和大约20个元音。这些声音被合成或录制，然后当需要“说出”一个单词时，音素按顺序组合并回放。

它有效，可靠，而且高效。只是听起来不像Alexa或Siri。

如今的AI语音

现在，随着人工智能技术的加入和更强大的处理能力，语音合成听起来可以像真实的声音。事实上，如今的AI语音生成可以创造出听起来像我们认识的人的声音，这可能是好事也可能是坏事。让我们来看看这两方面。

1. 语音诈骗

今年1月，一家语音服务电信供应商使用AI生成的听起来像乔·拜登总统的声音拨打了数千个欺诈性电话机器人电话。该声音告诉选民，如果他们在该州即将举行的初选中投票，他们将不被允许在11月的普选中投票。

2. 内容创作（以及更多语音诈骗）

这个过程被称为语音克隆，它既有实际应用，也有邪恶的应用。例如，视频编辑服务Descript具有复制你的声音的配音功能。然后，如果你对视频进行了编辑，它可以将你的声音配音到你的编辑内容上，这样你就不必回去重新录制你所做的任何更改。

3. 辅助功能

但这并非全是厄运和悲观。虽然核研究带来了炸弹，但它也为核医学铺平了道路，核医学已经帮助挽救了无数的生命。

正如那台古老的1986年电脑赋予了霍金教授他的声音一样，基于现代人工智能的语音生成正在帮助今天的病人。

4. 客户服务的语音代理

呼叫中心的人工智能是一个非常令人担忧的话题。事实上，呼叫中心这个话题本身就令人担忧。当你不得不通过“按1选择任何内容”的呼叫树时，你会有一种不人情味的感觉。等待另外40分钟才能联系到座席，这令人沮丧。

然后是与一位明显没有接受过培训或正在使用无法解决你的问题的脚本工作的座席打交道时的沮丧。当你和座席由于各自的口音或语言理解深度而无法理解彼此时，也会产生沮丧。

呼叫中心的人工智能可以提供帮助。我最近在需要解决一个技术问题时被转到了一个人工智能。我已经提交了一张帮助票——并等了一个星期才得到一个相当无用的回复。人工语音支持不可用。出于沮丧和一点点好奇，我最终决定点击“人工智能帮助”按钮。

事实证明，这是一个训练有素的人工智能，能够回答相当复杂的技术问题，并理解和实施我的帐户所需的配置更改。没有等待，我的问题在一个多星期里一直困扰着我，在大约15分钟内就解决了。

5. 智能助手

接下来是像Alexa、谷歌和Siri这样的智能助手。对于这些产品来说，语音基本上就是整个产品。Siri在2011年首次上市时，在它能做的事情方面令人惊叹。Alexa在2014年也令人印象深刻。

虽然这两种产品都得到了发展，但多年来改进一直是渐进式的。两者都增加了一定程度的脚本和家庭控制，但人工智能元素似乎停滞不前。

当然，语音助手的另一个突出功能是语音识别。这些设备有一系列麦克风，使它们不仅能够区分人声和背景噪音，还能够听到和处理人类语音，至少足以创建响应。

AI语音生成是如何工作的

幸运的是，大多数程序员不必从头开始开发自己的语音生成技术。大多数主要的云服务提供商都提供人工智能语音生成服务，这些服务作为应用程序中的微服务或API运行。这些包括谷歌云文本到语音、亚马逊Polly、微软的Azure人工智能语音、苹果的语音框架等等。

在功能方面，语音生成器从文本开始。该文本可能由人类作家或像ChatGPT这样的人工智能生成。然后，该文本输入将被转换为人类语言，这基本上是一组可以被人耳和麦克风听到的声波。

我们之前谈到了音素。人工智能处理生成的文本并进行语音分析，产生代表文本中单词的语音。

神经网络（处理信息模式的代码）使用深度学习模型来摄取和处理大量的人类语音数据集。从这些数百万个语音示例中，人工智能可以修改基本的单词声音，以反映语调、重音和节奏，使声音听起来更自然和整体。

一些人工智能语音生成器然后进一步个性化输出，调整音调和音调以代表不同的声音，甚至应用反映来自特定地区的语音的口音。目前，这超出了ChatGPT的智能手机应用程序的能力，但你可以要求Siri和Alexa使用不同的声音或来自不同地区的声音。

语音识别功能相反。它需要捕捉声音并将它们转换成文本，然后可以将其输入到一些处理技术中，如ChatGPT或Alexa的后端。与语音生成一样，云服务也提供语音识别功能。上面提到的微软和谷歌的文本到语音服务也具有语音识别功能。亚马逊在其亚马逊Transcribe服务中将语音识别与语音合成分开。

语音识别的第一阶段是声波分析。在这里，麦克风捕捉到的声波被转换成数字信号，大致相当于美化的WAV文件。

然后，该数字信号经过预处理阶段，去除背景噪音，并将任何可识别的音频分割成音素。人工智能还尝试执行特征提取，其中识别频率和音调。人工智能使用它来帮助澄清它认为是音素的声音。

接下来是模型匹配阶段，人工智能使用大型训练数据集将提取的声音片段与已知的语音模式进行匹配。然后，这些语音模式经过语言处理，人工智能将它能找到的所有数据汇总在一起，将声音转换成基于文本的单词和句子。它还使用语法模型来帮助仲裁有问题的发音，组成在语言上合理的句子。

然后，所有这些都被转换成文本，用作其他系统的输入或转录并显示在屏幕上。

DC生肖网

球千任谈科技