支持多达7000种语言！ToucanTTS：颠覆性的免费文本转语言工具

想象一下，你正在尝试学习一门小众的语言，或者你想听听某种语言的诗歌朗诵，却找不到合适的语音资源。这时，如果有一个工具能够将文本转化为语音，而且支持多达7000种语言，那会是多么方便的事情！近日，德国斯图加特大学自然语言处理研究所（IMS）推出的ToucanTTS正是这样一个颠覆性的工具。

我刚看到7000种语言有点懵，我从不知道地球上200多个国家竟然有这么多种语言。翻了一下ToucanTTS的语言列表才发现，它们定义的语言跟我们的理解不一样。在我们理解中，粤语、闽南语、四川话都是一种语言。而对欧美表音文字来说，发音不同就算另一种语言了。这7000多种语言其实是包括很多语言的方言，中文语音收录了超过10种国内的方言，大概有粤语、闽南、闽北、吴语等。开发者还别出心裁的将传统代表中文的zh改成cmn，将代表粤语的zhy改成yue，害我开始一顿好找。

这款工具最引人注目的特点无疑是其对7000多种语言的支持。这也是目前唯一能支持这么多种语音的TTS工具。这一特性使得它能够满足全球各地用户的多样化需求，无论是在教育领域、文学朗诵，还是多语言应用开发中，都展现出了巨大的潜力。

ToucanTTS还支持多说话人语音克隆。用户不仅可以克隆不同的说话风格，还能把几种语音集成到一个韵律音频中，这对于需要个性化语音的应用来说无疑是一个巨大的福音。在官方演示中，音频会自动拆分为单独的句子。然后，每个句子都被重新合成为具有完全相同韵律的语音，但声音可以选择。这允许定制任何现有的阅读语音，同时尽可能多地保留原始阅读内容。

除了强大的语言支持和多说话人功能外，ToucanTTS还提供了人机编辑功能。这意味着用户可以根据自己的需求和品味对合成语音进行微调，设计一个全新的说话者。这一功能在文学研究和诗歌朗诵作业中尤为实用。

ToucanTTS基于FastSpeech 2架构，并结合了 PortaSpeech 启发的基于流的标准化 PostNet 进行改进。这种架构不仅提升了语音合成的速度和质量，还增加了系统的稳定性。同时，这一工具包还包含一个训练有素的对齐器，使用音素发音表示和连接时序分类 (CTC) 技术，可用于各种目的，如语音数据对齐和精细调整。

值得一提的是，ToucanTTS还采用了独特的音素发音表征作为输入方式。这种方法使得系统能够充分利用多语言数据资源，从而大大提高了那些资源匮乏的语言的语音合成质量和可用性。

ToucanTTS在抱抱脸上发布了它的多语言TTS数据集，并且由于其开源性质，为开发者提供了一个灵活且功能强大的平台，能够进行进一步的二次开发与深度定制。开发者可以在此基础上开发出更多创新应用，通过结合不同领域的需求，构建出经济实用的解决方案。

ToucanTTS 是纯Python 和 PyTorch编写的，本地部署很方便。另外官网和抱抱脸上也有基本功能试用。

但是，我仅仅实测了一下中文普通话，发现其非常糟糕，完全是外国人说中文的表现，吐字不清，音调怪异。也许就是随便找的会点中文的外国人的发音做为语音训练素材，英文听起来就正常多了，虽然也没有感情，一股机器味。

总的来说，有小语种文本转语音的需求的朋友来说还是非常有用的，特别是对于开发者来说，还可以自己训练微调。

项目地址：

github.com/DigitalPhonetics/IMS-Toucan

官网：toucantts.com

DC娱乐网

支持多达7000种语言！ToucanTTS：颠覆性的免费文本转语言工具

热门分类