支持多达7000种语言!ToucanTTS:颠覆性的免费文本转语言工具

开心盖土 2024-06-26 14:20:41

想象一下,你正在尝试学习一门小众的语言,或者你想听听某种语言的诗歌朗诵,却找不到合适的语音资源。这时,如果有一个工具能够将文本转化为语音,而且支持多达7000种语言,那会是多么方便的事情!近日,德国斯图加特大学自然语言处理研究所(IMS)推出的ToucanTTS正是这样一个颠覆性的工具。

我刚看到7000种语言有点懵,我从不知道地球上200多个国家竟然有这么多种语言。翻了一下ToucanTTS的语言列表才发现,它们定义的语言跟我们的理解不一样。在我们理解中,粤语、闽南语、四川话都是一种语言。而对欧美表音文字来说,发音不同就算另一种语言了。这7000多种语言其实是包括很多语言的方言,中文语音收录了超过10种国内的方言,大概有粤语、闽南、闽北、吴语等。开发者还别出心裁的将传统代表中文的zh改成cmn,将代表粤语的zhy改成yue,害我开始一顿好找。

这款工具最引人注目的特点无疑是其对7000多种语言的支持。这也是目前唯一能支持这么多种语音的TTS工具。这一特性使得它能够满足全球各地用户的多样化需求,无论是在教育领域、文学朗诵,还是多语言应用开发中,都展现出了巨大的潜力。

ToucanTTS还支持多说话人语音克隆。用户不仅可以克隆不同的说话风格,还能把几种语音集成到一个韵律音频中,这对于需要个性化语音的应用来说无疑是一个巨大的福音。在官方演示中,音频会自动拆分为单独的句子。然后,每个句子都被重新合成为具有完全相同韵律的语音,但声音可以选择。这允许定制任何现有的阅读语音,同时尽可能多地保留原始阅读内容。

除了强大的语言支持和多说话人功能外,ToucanTTS还提供了人机编辑功能。这意味着用户可以根据自己的需求和品味对合成语音进行微调,设计一个全新的说话者。这一功能在文学研究和诗歌朗诵作业中尤为实用。

ToucanTTS基于FastSpeech 2架构,并结合了 PortaSpeech 启发的基于流的标准化 PostNet 进行改进。这种架构不仅提升了语音合成的速度和质量,还增加了系统的稳定性。同时,这一工具包还包含一个训练有素的对齐器,使用音素发音表示和连接时序分类 (CTC) 技术,可用于各种目的,如语音数据对齐和精细调整。

值得一提的是,ToucanTTS还采用了独特的音素发音表征作为输入方式。这种方法使得系统能够充分利用多语言数据资源,从而大大提高了那些资源匮乏的语言的语音合成质量和可用性。

ToucanTTS在抱抱脸上发布了它的多语言TTS数据集,并且由于其开源性质,为开发者提供了一个灵活且功能强大的平台,能够进行进一步的二次开发与深度定制。开发者可以在此基础上开发出更多创新应用,通过结合不同领域的需求,构建出经济实用的解决方案。

ToucanTTS 是纯Python 和 PyTorch编写的,本地部署很方便。另外官网和抱抱脸上也有基本功能试用。

但是,我仅仅实测了一下中文普通话,发现其非常糟糕,完全是外国人说中文的表现,吐字不清,音调怪异。也许就是随便找的会点中文的外国人的发音做为语音训练素材,英文听起来就正常多了,虽然也没有感情,一股机器味。

总的来说,有小语种文本转语音的需求的朋友来说还是非常有用的,特别是对于开发者来说,还可以自己训练微调。

项目地址:

github.com/DigitalPhonetics/IMS-Toucan

官网:toucantts.com

0 阅读:0

开心盖土

简介:感谢大家的关注