Boson AI推出约4B参数聊天原生TTS模型Higgs Audio v3，基

2026-06-05 10:04:10 智研未来科技

Boson AI推出约4B参数聊天原生TTS模型Higgs Audio v3，基于Qwen3-4B骨干，采用文本+音频token交错设计，专为流式语音代理优化。它支持句子未说完即开始合成、覆盖100种语言（单数字WER/CER）、短参考音频零样本跨语言声音克隆，以及20+内联控制token（情感、风格、韵律、音效）。通过SGLang-Omni框架实现多阶段高效serving（预处理→音频编码器→TTS引擎→vocoder），结合CUDA Graph、异步前瞻、批处理等优化，在单H100（bf16）上实现16并发时14.74 req/s，RTF仅0.262。