机器之能报道
编辑:杨文
这款新AI语音模型Fish Speech,模仿音色一绝。
近来,AI 语音赛道突然热闹起来。
一个多月前,一个号称「开源语音 TTS 天花板级别」的 ChatTTS 爆火。
火到什么程度呢?
仅三天时间就在 GitHub 狂揽 9.2k Star 量,还一度登顶 GitHub Trending 榜首并连续霸榜。
没多久,字节也推出一款类似项目 Seed-TTS,喊出的口号同样是「生成自然真实的语音」。
这几天,这一赛道又闯进新玩家 ——Fish Speech。
据悉,该模型经过 15 万小时的数据训练,已熟练掌握中英日三种语言,语音处理接近人类水平,对中文支持更是 ——
官方也甩出不少 demo——
中文句子:人间灯火倒映湖中,她的渴望让静水泛起涟漪。若代价只是孤独,那就让这份愿望肆意流淌。流入她所注视的世间,也流入她如湖水般澄澈的目光。
钟离,机器之能,15秒
视频链接:https://mp.weixin.qq.com/s/4T8b8RfK1X4tUVSeTI4gvw
英文句子:In the realm of advanced technology, the evolution of artificial intelligence stands as a monumental achievement. This dynamic field, constantly pushing the boundaries of what machines can do, has seen rapid growth and innovation. From deciphering complex data patterns to driving cars autonomously, AI's applications are vast and diverse.
说英文,机器之能,25秒
视频链接:https://mp.weixin.qq.com/s/4T8b8RfK1X4tUVSeTI4gvw
不少网友直呼:虽然有点电音,不过效果已经很不错了,语调也不会让人感到不适。
不过,也有网友提醒,这个项目虽开源但不可商用。
-1-
解说纪录片、说绕口令,它到底行不行?
Fish Speech 是一款开源文本转语音模型,由 Fish Audio 公司开发。据介绍,该模型仅有亿级参数,能够在个人设备上轻松运行和微调。
官网链接:https://fish.audio/zh-CN/text-to-speech/
其官网界面设计简洁,在「发现」一栏列表里有网友训练的各种声音,例如丁真、川普、雷军、邓紫棋、董宇辉、单田芳等,还有 AD 学姐、流萤等二次元声音。
接下来,我们就来实际测评下。
首先是另类解说《动物世界》。
前不久,有个 00 后博主 @维 C 动物园,以发疯的方式另类解说《动物世界》而出圈。
例如,在《鸮张跋扈》这一集中,博主以一分正经、两分清奇、三分幽默、四分莫名其妙的解说方式,介绍了一种叫做穴小鸮的动物。
视频链接:https://mp.weixin.qq.com/s/4T8b8RfK1X4tUVSeTI4gvw
我们就用 Fish speech 中的「纪录片旁白」这个声音,给这个有大病的文案生成一段配音。
绿螳螂其实非常可爱,可爱死了,嘎嘣脆,鸡肉味,但这一切都与美洲鹑无关,因为它也自身难保,黄腹隼表示真香。黄腹隼遍布于南美洲各地,它们的视力极好,能看到10厘米以外的事物,所以我们今天的主角,不是它。
穴小鸮(xiao),江湖人称鸮鲜肉,跟我表哥一样,身高不足 30 厘米,十分可爱。正所谓「虎落平阳被犬欺,鸮在野外不如鸡」,穴小鸮常因捕食能力太差,而被邻居嘲笑。但咱不气馁,既然找不到食物,就去找食物的食物。
我们又选用丁真、邓紫棋的声音来说绕口令。
视频链接:https://mp.weixin.qq.com/s/4T8b8RfK1X4tUVSeTI4gvw
让特朗普说英文绕口令。
If you understand, say "understand". If you don't understand, say "don't understand". But if you understand and say "don't understand", how do I understand that you understand. Understand?
Fish Speech英文绕口令,机器之能,14秒
试听链接:https://mp.weixin.qq.com/s/4T8b8RfK1X4tUVSeTI4gvw
还有单田芳说段子。
Fish speech 的模仿能力一绝,它可以模仿特定人物的音色、语调到以假乱真的程度,比如说单田芳、邓紫棋、特朗普。
不过,它也有一些瑕疵,例如有时候它不识字,「穴小鸮」胡读一通;不懂断句,会把完整的句子读得稀碎。此外,输入的文本一旦太长,它就罢工。
-2-
三款 TTS 模型大乱斗
除了使用现成的语音外,我们还可以自己构建语音。
操作也很 easy。只需点击网页上方的「构建声音」,即可跳转至新界面。然后上传封面、填写声音名称、输入音频即可。
其中,在输入音频这个环节,我们既可以上传现成的,也可以自己录制,不过它对时长有限制,最好在 30 秒左右。
例如,我们上传了一段徐志胜说脱口秀的音频。
来看一下效果:
李长庚最近有点烦。
他此刻骑在一只老鹤身上,在云雾里穿梭,想入了神。眼看快飞到启明殿,老鹤许是糊涂了,非但不减速,反而直直地撞了过去。李长庚回过神来,连连挥动拂尘,它才急急一拍双翅,歪歪斜斜地落在殿旁台阶上。
Fish Speech读小说,机器之能,23秒
音色和徐志胜不能说毫不相干,只能说一模一样,连口音都很像。
我们还让它与「开源语音 TTS 天花板级别」的 ChatTTS 、Seed-TTS 进行 PK。
中文文本 : 好呀,哈哈哈哈哈,喜欢笑的人运气都不会差哦,希望你每天笑口常开。
Fish Speech:
Fish Speech,机器之能,11秒
试听链接:https://mp.weixin.qq.com/s/4T8b8RfK1X4tUVSeTI4gvw
ChatTTS:
ChatTTS,机器之能,6秒
试听链接:https://mp.weixin.qq.com/s/4T8b8RfK1X4tUVSeTI4gvw
由于字节的 Seed-TTS 还无法亲自体验,所以我们就用了它的官方示例。
Seed-TTS,机器之能,6秒
这三款 TTS 模型各有千秋,如果非要给它们的实力排个序,Seed-TTS 的断句、语音语调最自然,其次就是 ChatTTS,Fish Speech 虽然还有所欠缺,但它赢在可自定义音色上。
链接 ——
https://fish.audio/zh-CN/text-to-speech/
https://github.com/fishaudio/fish-speech
https://chattts.com/
https://bytedancespeech.github.io/seedtts_tech_report/
https://github.com/BytedanceSpeech/seed-tts-eval