揭秘 10秒生成 6分钟高质量音乐的 Stable Audio 3.0！ Sta

揭秘 10秒生成 6分钟高质量音乐的 Stable Audio 3.0！
Stability AI 公司近期宣布开源——Stable Audio 3.0，只需提供一段文字描述，10 秒便能快速生成一段长达 6 分钟的高质量音乐或者音效。无论是短视频剪辑、游戏开发，还是各类内容创作者，无需担心版权问题、可以自由定制旋律。
用户仅需输入自己的文字构思（即 "prompt"），便能将这些文字描述转化为符合要求的音乐或音效。
与旧版本相比，一次性可生成长达 6 分钟的完整音频段落，完全能够覆盖绝大多数主流视频、播客作品的配乐需求。
主流 AI 绘画集成工具 ComfyUI 中，选择 medium（中等）规格的模型。生成短促音效几乎是即时的，即使是生成长达 6 分钟的音乐文件，其核心采样时间也仅需 6 秒左右。
medium 版本模型在运行推理时，占用约 6GB 的显卡显存，对当前中高端家用或创作者显卡友好。
不足的是目前官方开放下载的版本是 small（小）和 medium（中）模型。 small 版本音质表现欠佳，medium 是目前的首选；效果最为顶级的 max（大）模型暂未对外开源。
生成的音乐在旋律和节奏上有时会听起来有些重复和单调；在模拟钢琴、吉他这类传统管弦乐器时，可能会出现音色“不纯净”，伴有杂音或者听起来不够和谐的问题。生成电子音乐的效果比较好。
生成长音频时，85 秒或者更长的解码时间远超之前的 6 秒采样时间。某些情况下可能会因为解码问题导致软件卡住。（不足之处）
有兴趣体验的开发者或创作者，可以按照以下步骤部署到本地（以 ComfyUI 为例）：
主模型：stable_audio_3_medium.safetensors 文本编码器：T5Gemma （用于理解文字提示）提示词优化器：Qwen3.5 （用于增强用户输入的提示词质量）文件放置：将以上模型文件放入 ComfyUI 管理器的指定模型文件夹内。启动生成：加载官方提供的专属工作流配置文件，然后在 ComfyUI 界面中输入想要的音乐描述，启动工作流即可生成并播放试听。
可以通过魔搭社区搜索下载
总的来说，虽然它在制作复杂的传统交响乐或完美无瑕的钢琴曲上有欠缺，但凭借生成速度和使用方式完全可以成为内容创作者的得力伙伴。对于预算有限的个人或小团队来说，可以尝试。
了解更多信息可以访问其官方网站：stability.ai/stable-audio

DC娱乐网

揭秘 10秒生成 6分钟高质量音乐的 Stable Audio 3.0！ Sta

热门分类