【ComfyUI迎来全能TTS节点：克隆任意人声只需5秒】阿里Qwen3-TTS

【ComfyUI迎来全能TTS节点：克隆任意人声只需5秒】阿里Qwen3-TTS模型终于有了完整的ComfyUI集成方案。这个名为FL Qwen3 TTS的节点包刚刚发布，功能覆盖之全面让人眼前一亮。三种语音生成模式各有千秋。声音克隆只需5到15秒的参考音频就能复刻目标音色，这对于想要保持一致人声风格的内容创作者来说相当实用。声音设计则走了一条更有趣的路子：用自然语言描述你想要的声音特质，比如"一个温暖的英式女声"，模型就能凭空创造出来。另外还预置了9位发言人，覆盖中英日韩四种语言，其中中文发言人甚至区分了普通话、北京话和四川话。支持的语言总共有10种：中文、英文、日文、韩文、德文、法文、俄文、葡萄牙文、西班牙文和意大利文。真正让这个节点包脱颖而出的是它内置的微调训练界面。准备好音频文件和对应的文本转录，配置好学习率和训练轮数，就能在实时仪表盘上看到损失曲线和训练进度。训练完成后的检查点可以直接用于推理生成。这种端到端的工作流设计，把原本需要在命令行和各种脚本之间来回切换的操作全部整合到了一个可视化界面中。技术细节方面，音频编解码使用12Hz的离散编码器，内置Whisper转录功能可以自动生成参考文本。硬件门槛不算太高，推理阶段CPU和Mac MPS都能跑，训练则建议配备12GB以上显存的N卡和32GB内存。通过ComfyUI Manager搜索"FL Qwen3 TTS"即可安装。github.com/filliptm/ComfyUI-FL-Qwen3TTS

DC娱乐网

【ComfyUI迎来全能TTS节点：克隆任意人声只需5秒】阿里Qwen3-TTS

热门分类