DC娱乐网

一条 Prompt 直出成片!豆包音频生成模型 1.0 上线,普通人也能做专业音

一条 Prompt 直出成片!豆包音频生成模型 1.0 上线,普通人也能做专业音频

平时喜欢折腾内容创作的朋友肯定深有体会:想做一期播客、剪一段有声书,或者给短视频配个带感的音频,往往卡在声音制作这一步。自己配音质感不够,找专业团队成本太高,分开录对白、找音效、配 BGM 再混音,一套流程下来大半天就没了。而在 6 月 23 日火山引擎 FORCE 原动力大会上,全新发布的豆包音频生成模型 1.0,直接把这个门槛打了下来。

作为本次大会五大模型升级中的重要一环,豆包音频生成模型 1.0(Doubao-Seed-Audio 1.0)主打的就是 “全链路一体化创作”—— 说白了,就是把过去需要多步完成的音频制作,全部压缩进一条 Prompt 里,输入文字描述就能直接出成品。对于普通创作者和内容爱好者来说,这几乎相当于把一个专业音频工作室揣进了电脑里。

最直观的升级,就是影视级音频全要素一体化生成。过去做一段能直接上线的成品音频,角色对白要单独录,环境音效要找素材库,背景音乐要挑版权曲,最后还要手动对齐时间轴、做多轨混音,不仅费时间,没点后期基础根本做不好。而这个模型直接把这些流程全打通了:你只要在指令里写清楚角色台词、情绪语气、背景音乐风格、环境氛围,甚至连笑声、叹息、方言口音这些细节都可以写进去,模型就能一次性生成完整的音频作品,输出就是能直接用的成片,省掉了剪辑、对齐、混音的全部后期工作。

举个例子,你想做一段两人口播的职场小故事,只要写清楚两个角色的人设、台词、情绪,再加上 “办公室背景音 + 轻快 BGM” 的要求,就能直接得到一段对话自然、音效完整的成品。不管是做有声剧、播客节目还是品牌音频,敲一段描述就能拿到可上线的内容,真正从 “单句配音工具” 变成了 “随身音频导演”。

针对长音频创作者最头疼的音色一致性问题,这款模型也给出了解决方案。做过长篇有声书、系列剧集的朋友都知道,分段生成的音频最容易 “串戏”—— 同一个角色,第一段和第十段听起来像两个人,只能逐段比对、反复修音,工作量特别大。豆包音频生成模型 1.0 实现了文生音频与参考音频的深度联动,目前单次支持 2 分钟音频创作,以此作为参考输入进行延长,就能在多次生成中保持角色音色高度统一,不用再反复调整参数修音,大幅降低了长音频内容的制作成本。

除此之外,它还支持 0 样本多模态创作。不用额外训练模型,也不用自己录参考音,只要用文字描述清楚想要的音色特点、表达风格,就能生成匹配的声音。而且模型还做到了音色和风格解耦,同一个声音可以适配不同情绪、不同场景,甚至能实现 “一声多角”,用同一款音色演绎不同的角色设定,做角色配音、剧情演绎的时候灵活度特别高。

目前火山方舟已经开启了这款模型的 API 邀测,个人用户直接去体验中心就能试用,还有 30 分钟的创作额度;后续它也会上线剪映、即梦、番茄等大家常用的产品,覆盖更多日常创作场景。
其实回头看这两年 AI 内容创作的发展,从文生图到文生视频,再到今天的全链路音频生成,技术一直在把专业创作的门槛往下拉。过去需要专业团队、昂贵设备才能做的事,现在普通人靠一条指令就能完成。对于所有喜欢创作的人来说,这大概就是最好的时代 —— 不用再被工具束缚,只管放心输出创意就好。