StablityAI发布StableAudio2.0,挑战Suno,推进AI音乐进入新时代

开心盖土 2024-04-08 03:46:55

AI音乐的功能持续提升,吸引了无数目光。自从 Suno AI推出能够生成"电台级"歌曲的Suno V3模型后,AI音乐生成领域实现了飞跃发展。但 Suno AI 仍然是闭源付费产品,难以被广大创作者获取。而刚刚,Stability AI发布了AI音乐模型 Stable Audio 2.0,令人印象深刻的功能直接对标 Suno AI。

稳定音频2.0的主要特点

1. 完整曲目

相比于Suno AI目前只能制作2分钟的歌曲,Stable Audio 2.0 最大的亮点是能够生成长达3分钟的曲目,包含结构化作品的前奏、展开和结尾部分,并融入立体声音效。这使其脱颖而出,能生成类似人工创作的连贯音乐曲目。

2.音频到音频的生成

除了文本到音频功能外,2.0版本还支持音频到音频生成。用户可上传自己的音频样本,并通过自然语言提示将其转化为不同风格,开辟无限创作可能。该功能让输出主题与项目风格高度一致。

3. 变奏和音效创作

该模型还加强了声音和音频效果的制作能力,从键盘的轻击到人群呼声,为音频项目注入更多临场感。

4. 风格迁移

Stable Audio 2.0引入风格迁移功能,可以让艺术家自定义创作的主题,符合其项目的特定风格和基调。此功能允许艺术家根据自己想要的审美定制音乐,创造真正独特的个性化声音。

技术细节

Stable Audio 2.0采用了潜在扩散模型架构,专为生成具有连贯结构的完整音轨而设计。

1.自动编码器

它采用新的高度压缩自动编码器压缩原始音频波形,在捕获和基础生成的同时压缩,并且过滤掉不太重要的细节。这样可以产生更加连贯和集中的音频,确保生成与原噪声一致的高质量结果。

2. Diffusion Transformer (DiT)

使用类似Stable Diffusion 3的扩散变压器(DiT)代替之前的U-Net,以更好地操纵长序列数据,并创建更准确的输入解释。

版权保护

Stability AI 还高度重视版权保护和公平补偿。该模型完全使用 AudioSparx 的800,000多个音频文件的授权数据集进行训练,所有艺术家均可选择"退出"模型训练。对于上传的音频,Stability AI与Audible Magic合作,利用其内容识别技术进行实时内容匹配,防止侵权行为。

如何访问Stable Audio 2.0

有别于付费的Suno V3,Stable Audio 2.0完全免费开源。普通用户可通过其网站stableaudio.com轻松尝试该模型,专业人士则可将API和SDK无缝集成到工作流程中。

虽然Stable Audio 2.0暂时只能生成曲目,还不能生成完整的歌曲,且质量上还无法完全媲美 Suno AI,但Stable Audio 2.0作为一个免费替代品的实用性已经初见成效。我们有理由相信,凭借其开放和透明理念,Stability AI将继续迭代升级,最终赶超闭源模型。

0 阅读:0

开心盖土

简介:感谢大家的关注