Boson AI推出约4B参数聊天原生TTS模型Higgs Audio v3,基于Qwen3-4B骨干,采用文本+音频token交错设计,专为流式语音代理优化。它支持句子未说完即开始合成、覆盖100种语言(单数字WER/CER)、短参考音频零样本跨语言声音克隆,以及20+内联控制token(情感、风格、韵律、音效)。通过SGLang-Omni框架实现多阶段高效serving(预处理→音频编码器→TTS引擎→vocoder),结合CUDA Graph、异步前瞻、批处理等优化,在单H100(bf16)上实现16并发时14.74 req/s,RTF仅0.262。
