DC娱乐网

揭秘 10秒生成 6分钟高质量音乐的 Stable Audio 3.0! Sta

揭秘 10秒生成 6分钟高质量音乐的 Stable Audio 3.0!
Stability AI 公司近期宣布开源——Stable Audio 3.0,只需提供一段文字描述,10 秒便能快速生成一段长达 6 分钟的高质量音乐或者音效。无论是短视频剪辑、游戏开发,还是各类内容创作者,无需担心版权问题、可以自由定制旋律。
用户仅需输入自己的文字构思(即 "prompt"),便能将这些文字描述转化为符合要求的音乐或音效。
与旧版本相比,一次性可生成长达 6 分钟的完整音频段落,完全能够覆盖绝大多数主流视频、播客作品的配乐需求。
主流 AI 绘画集成工具 ComfyUI 中,选择 medium(中等) 规格的模型。生成短促音效几乎是即时的,即使是生成长达 6 分钟的音乐文件,其核心采样时间也仅需 6 秒左右。
medium 版本模型在运行推理时,占用约 6GB 的显卡显存,对当前中高端家用或创作者显卡友好。
不足的是目前官方开放下载的版本是 small(小) 和 medium(中) 模型。 small 版本音质表现欠佳,medium 是目前的首选;效果最为顶级的 max(大) 模型暂未对外开源。
生成的音乐在旋律和节奏上有时会听起来有些重复和单调;在模拟钢琴、吉他这类传统管弦乐器时,可能会出现音色“不纯净”,伴有杂音或者听起来不够和谐的问题。生成电子音乐的效果比较好。
生成长音频时,85 秒或者更长的解码时间远超之前的 6 秒采样时间。某些情况下可能会因为解码问题导致软件卡住。(不足之处)
有兴趣体验的开发者或创作者,可以按照以下步骤部署到本地(以 ComfyUI 为例):
主模型:stable_audio_3_medium.safetensors 文本编码器:T5Gemma (用于理解文字提示) 提示词优化器:Qwen3.5 (用于增强用户输入的提示词质量) 文件放置:将以上模型文件放入 ComfyUI 管理器的指定模型文件夹内。 启动生成:加载官方提供的专属工作流配置文件,然后在 ComfyUI 界面中输入想要的音乐描述,启动工作流即可生成并播放试听。
可以通过 魔搭社区搜索下载
总的来说,虽然它在制作复杂的传统交响乐或完美无瑕的钢琴曲上有欠缺,但凭借生成速度和使用方式完全可以成为内容创作者的得力伙伴。对于预算有限的个人或小团队来说,可以尝试。
了解更多信息可以访问其官方网站:stability.ai/stable-audio