火山引擎发布豆包音频生成模型1.0：一句话生成影视级音频，角色声音 10 分钟都不"串戏"

IP属地中国·北京 编辑：唐云泽 Chinaz 时间：2026-06-24 10:38:46

昨日，火山引擎正式发布豆包音频生成模型1.0（Doubao-Seed-Audio 1.0），支持将文本或音频任一模态作为输入，端到端生成完整音频作品。这款模型的核心突破在于：用一条Prompt就能搞定对白、音效、背景音乐的全要素生成，彻底告别人工多轨剪辑的传统工作流。
一句话变身"音频导演"，省去所有后期
过去，一段成片级音频作品意味着对白、音效、配乐逐条生成、手动对齐、多轨混音，流程繁琐且高度依赖后期技术能力。豆包音频生成模型1. 0 将这一切压缩进一条Prompt：用户可以在单条指令中同时定义多个角色的台词、语气和情绪节奏，嵌入笑声、叹息、停顿、方言口音等细节，背景音乐与环境音效同步生成，输出即成品。一位创作者敲下一段描述，就能直接收到可上线的有声剧、播客节目或品牌音频。
长音频不"串戏"，角色声音首尾如一
长音频创作中最令创作者头疼的难题，是前后一致性——角色在第 1 分钟和第 10 分钟听起来是否像同一个人。豆包音频生成模型1. 0 实现了文生音频与参考音频的深度联动，在长音频中保持音色高度统一，创作者无需逐段比对、反复修音。当前模型单次支持 2 分钟音频创作，并可通过多次延长功能在长程生成中保持音色一致，满足有声书、播客、长剧集等场景需求。
此外，模型还支持音色与风格的解耦控制，同一音色可适配不同情绪和语境，甚至实现"一声多角"——同一个声音在不同角色设定下呈现差异化表达，显著提升角色配音和创意音频生产的灵活性。目前火山方舟已开启API邀测，个人用户可在体验中心享有 30 分钟创作额度，豆包音频生成模型1. 0 也即将上线剪映、即梦、番茄等产品。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

iQOO 15/15 Ultra手机新一轮涨价，最高涨700元

马云名下云锋基金入股峥研软件

Omdia：2026年智能手机平均售价将涨21%至565美元

软银CEO孙正义回应AI泡沫论：这是对AI的侮辱

微信鸿蒙版App获8.0.19.16版本邀测升级，新增朋友圈好友状态显示等功能

即梦AI上线Seedance 2.0 VIP原生4K版本

全站最新

iQOO 15/15 Ultra手机新一轮涨价，最高涨700元

马云名下云锋基金入股峥研软件

Omdia：2026年智能手机平均售价将涨21%至565美元

软银CEO孙正义回应AI泡沫论：这是对AI的侮辱

热门推荐

英伟达突然不香了？GPU租赁价格持续回落……

胖东来转线上VS鲜啤店猛扩张，精酿步入岔路口

万亿智谱阴影下，中国互联网巨头们的“身份危机”

补税14亿，北大荒一年白干

美国AI狂飙，亚洲抢先吃饱

7亿收入、万亿市值，智谱值吗？

香水柠檬的“半生”：红了几年，还没真正长大

谁把智谱推上了万亿神坛？

单票价连涨3个月，顺丰不想送难挣钱的快递了

大疆影石打了一年，谁更焦虑？

2026年最大Biotech神话：一款II期药，261名员工，卖了109亿美元

从“工具人”到“悦己者”，中男消费的转折时刻

艺人独立风潮下，太合音乐赴港募资押宝AI：版权摊销侵蚀利润，16亿优先股悬顶

iQOO 15/15 Ultra手机新一轮涨价，最高涨700元

马云名下云锋基金入股峥研软件