一条 Prompt 直出成片！豆包音频生成模型 1.0 上线，普通人也能做专业音

一条 Prompt 直出成片！豆包音频生成模型 1.0 上线，普通人也能做专业音频

平时喜欢折腾内容创作的朋友肯定深有体会：想做一期播客、剪一段有声书，或者给短视频配个带感的音频，往往卡在声音制作这一步。自己配音质感不够，找专业团队成本太高，分开录对白、找音效、配 BGM 再混音，一套流程下来大半天就没了。而在 6 月 23 日火山引擎 FORCE 原动力大会上，全新发布的豆包音频生成模型 1.0，直接把这个门槛打了下来。

作为本次大会五大模型升级中的重要一环，豆包音频生成模型 1.0（Doubao-Seed-Audio 1.0）主打的就是 “全链路一体化创作”—— 说白了，就是把过去需要多步完成的音频制作，全部压缩进一条 Prompt 里，输入文字描述就能直接出成品。对于普通创作者和内容爱好者来说，这几乎相当于把一个专业音频工作室揣进了电脑里。

最直观的升级，就是影视级音频全要素一体化生成。过去做一段能直接上线的成品音频，角色对白要单独录，环境音效要找素材库，背景音乐要挑版权曲，最后还要手动对齐时间轴、做多轨混音，不仅费时间，没点后期基础根本做不好。而这个模型直接把这些流程全打通了：你只要在指令里写清楚角色台词、情绪语气、背景音乐风格、环境氛围，甚至连笑声、叹息、方言口音这些细节都可以写进去，模型就能一次性生成完整的音频作品，输出就是能直接用的成片，省掉了剪辑、对齐、混音的全部后期工作。

举个例子，你想做一段两人口播的职场小故事，只要写清楚两个角色的人设、台词、情绪，再加上 “办公室背景音 + 轻快 BGM” 的要求，就能直接得到一段对话自然、音效完整的成品。不管是做有声剧、播客节目还是品牌音频，敲一段描述就能拿到可上线的内容，真正从 “单句配音工具” 变成了 “随身音频导演”。

针对长音频创作者最头疼的音色一致性问题，这款模型也给出了解决方案。做过长篇有声书、系列剧集的朋友都知道，分段生成的音频最容易 “串戏”—— 同一个角色，第一段和第十段听起来像两个人，只能逐段比对、反复修音，工作量特别大。豆包音频生成模型 1.0 实现了文生音频与参考音频的深度联动，目前单次支持 2 分钟音频创作，以此作为参考输入进行延长，就能在多次生成中保持角色音色高度统一，不用再反复调整参数修音，大幅降低了长音频内容的制作成本。

除此之外，它还支持 0 样本多模态创作。不用额外训练模型，也不用自己录参考音，只要用文字描述清楚想要的音色特点、表达风格，就能生成匹配的声音。而且模型还做到了音色和风格解耦，同一个声音可以适配不同情绪、不同场景，甚至能实现 “一声多角”，用同一款音色演绎不同的角色设定，做角色配音、剧情演绎的时候灵活度特别高。

目前火山方舟已经开启了这款模型的 API 邀测，个人用户直接去体验中心就能试用，还有 30 分钟的创作额度；后续它也会上线剪映、即梦、番茄等大家常用的产品，覆盖更多日常创作场景。
其实回头看这两年 AI 内容创作的发展，从文生图到文生视频，再到今天的全链路音频生成，技术一直在把专业创作的门槛往下拉。过去需要专业团队、昂贵设备才能做的事，现在普通人靠一条指令就能完成。对于所有喜欢创作的人来说，这大概就是最好的时代 —— 不用再被工具束缚，只管放心输出创意就好。

DC娱乐网

一条 Prompt 直出成片！豆包音频生成模型 1.0 上线，普通人也能做专业音

热门分类