AI音乐的功能持续提升,吸引了无数目光。自从 Suno AI推出能够生成"电台级"歌曲的Suno V3模型后,AI音乐生成领域实现了飞跃发展。但 Suno AI 仍然是闭源付费产品,难以被广大创作者获取。而刚刚,Stability AI发布了AI音乐模型 Stable Audio 2.0,令人印象深刻的功能直接对标 Suno AI。
稳定音频2.0的主要特点
1. 完整曲目
相比于Suno AI目前只能制作2分钟的歌曲,Stable Audio 2.0 最大的亮点是能够生成长达3分钟的曲目,包含结构化作品的前奏、展开和结尾部分,并融入立体声音效。这使其脱颖而出,能生成类似人工创作的连贯音乐曲目。
2.音频到音频的生成
除了文本到音频功能外,2.0版本还支持音频到音频生成。用户可上传自己的音频样本,并通过自然语言提示将其转化为不同风格,开辟无限创作可能。该功能让输出主题与项目风格高度一致。
3. 变奏和音效创作
该模型还加强了声音和音频效果的制作能力,从键盘的轻击到人群呼声,为音频项目注入更多临场感。
4. 风格迁移
Stable Audio 2.0引入风格迁移功能,可以让艺术家自定义创作的主题,符合其项目的特定风格和基调。此功能允许艺术家根据自己想要的审美定制音乐,创造真正独特的个性化声音。
技术细节
Stable Audio 2.0采用了潜在扩散模型架构,专为生成具有连贯结构的完整音轨而设计。
1.自动编码器
它采用新的高度压缩自动编码器压缩原始音频波形,在捕获和基础生成的同时压缩,并且过滤掉不太重要的细节。这样可以产生更加连贯和集中的音频,确保生成与原噪声一致的高质量结果。
2. Diffusion Transformer (DiT)
使用类似Stable Diffusion 3的扩散变压器(DiT)代替之前的U-Net,以更好地操纵长序列数据,并创建更准确的输入解释。
版权保护
Stability AI 还高度重视版权保护和公平补偿。该模型完全使用 AudioSparx 的800,000多个音频文件的授权数据集进行训练,所有艺术家均可选择"退出"模型训练。对于上传的音频,Stability AI与Audible Magic合作,利用其内容识别技术进行实时内容匹配,防止侵权行为。
如何访问Stable Audio 2.0
有别于付费的Suno V3,Stable Audio 2.0完全免费开源。普通用户可通过其网站stableaudio.com轻松尝试该模型,专业人士则可将API和SDK无缝集成到工作流程中。
虽然Stable Audio 2.0暂时只能生成曲目,还不能生成完整的歌曲,且质量上还无法完全媲美 Suno AI,但Stable Audio 2.0作为一个免费替代品的实用性已经初见成效。我们有理由相信,凭借其开放和透明理念,Stability AI将继续迭代升级,最终赶超闭源模型。