![]()
编辑|杜伟、杨文
临近 2025 年末,视频生成赛道再次热闹了起来,多个新模型接连登场。
我们发现,在国内的头部厂商中,火山引擎的豆包系列视频生成模型已经很长时间没有大的版本更新了。距离前代 Seedance 1.0 pro 的问世已过去半年时间,这也让大家对其下一代 Seedance 1.5 的关注度越来越高。
![]()
![]()
究竟在蓄什么大招?在今天上午举办的火山引擎 2025 年冬季 FORCE 原动力大会上,最新一代豆包视频生成模型「Seedance 1.5 pro」正式亮相。
![]()
这一次,Seedance 1.5 pro做到了原生音画高精同步,覆盖环境音、动作音、合成音、乐器音、背景音乐及人声等全场景,音画同步率全球领先。与此同时,该模型能够更好地遵循复杂指令,支持更多外国语言与中文方言的自然对白,更精准地捕捉运动细节,叙事理解与连贯性更强,人物情绪与表情呈现也更加细腻。
在一系列新能力的加持下,Seedance 1.5 pro 在整体完成度、更细粒度的镜头控制与画面表现力上已经不可同日而语。
如下图所示,在视频能力评估中,Seedance 1.5 pro 在文本生成视频(T2V)的对齐度(Alignment)指标上取得领先,并在其他多项指标(T2V 的画面美感以及图像生成视频 I2V 的对齐度与运动)上位居前列。而在音频能力评估中,Seedance 1.5 pro 在生成质量、同步性、对齐度、表现力等多项指标上全方位超越 Veo 3.1 和 Kling 2.6。
![]()
目前,Seedance 1.5 pro 已经上线火山方舟体验中心,预计 12 月 23 日通过火山引擎为企业用户提供 API。个人用户则可以通过即梦网页版和豆包 App 使用。
![]()
链接:https://exp.volcengine.com/ark/vision?launch=seedance
接下来,我们就奉上一手实测。
一手实测:
能说 16 种方言,还能飙演技
很长一段时间里,AI 生成的视频都是「默片」,画面再精致,没有声音,观感上总觉得差口气。
直到谷歌 Veo3 率先打破僵局,掀起音画同步热潮,其他厂商也纷纷朝着这个方向发力。
字节也不例外。此次 Seedance 1.5 pro 最大更新就是原声音画同步,甚至更进一步,不仅实现一个视频中多人超自然对白、口型做到毫秒级精准对齐,还支持中文、方言、英文及小语种等多种语言。
就拿中文来说,除了普通话,它还可以轻松拿捏陕西话、四川话、东北话、台湾腔、闽南语、粤语等 16 种方言口音。
这几天,网友们对 GPT-5.2 的「怨气」很重,嫌它太平淡、安全过度、「把成年人当幼儿园小孩对待」。
既然大家这么不爽,我们决定整个花活儿,让 Sam Altman 用美式中文和陕西话吐槽下。
视频中,Altman 满脸嫌弃的小表情相当到位,眉毛微皱,嘴巴一撇,用蹩脚的中文吐出「GPT-5.2 不好用」几个字,末了还耸耸肩,一脸无奈。
后半段,Altman 陕西话说得贼地道、贼带劲,口音就是《武林外传》中佟掌柜那味儿。
![]()
提示词:Sam Altman 分别用美式中文和陕西话吐槽 GPT-5.2。
我们又加点难度,让它生成一个金发美女唱歌的视频。
画面几乎找不出什么破绽,女歌手表情投入,运镜也蛮讲究,妥妥 MV 质感。唱的歌呢,听词儿像是那首经典的《月亮代表我的心》,不用担心版权问题,因为没有一句歌词在原调上。
![]()
提示词:一位金发欧美美女在录音棚里对着麦克风唱中文歌。
前面还只是个人秀,多人多语言对白才是重头戏。
我们搞了个复杂提示词,里面涵盖镜头运动、人物表现、光影效果、音效层次、跨语言对话等等多个测评要素。
Seedance 1.5 pro 严格遵循文本描述,动态的手持拍摄效果,镜头转换丝滑。
男主持与美国游客一个说中文,一个说英文,口型完全对得上,连说话时的气口、调侃的语调都很自然。
![]()
提示词:一段动态的手持拍摄镜头跟随一位自信的男主持人穿梭在熙熙攘攘的街头。他手持麦克风,拦住一位美国游客,咧嘴一笑,问道:“你觉得 Seedance 是目前最好的视频生成模型吗?” 美国游客轻笑一声,回答道:“That depends — can it make me look better than real life?” 镜头缓缓拉近,附近的行人发出笑声,霓虹灯在雨后湿滑的人行道上闪烁。采用手持拍摄的松散跟踪镜头,景深较浅,将拍摄对象从模糊的城市运动背景中分离出来。霓虹灯招牌倒映在水坑和玻璃上,而路灯柔和的氛围光则突出了人们的脸庞。都市写实主义,色彩饱和度高,质感湿润,动感十足。画面清晰聚焦于人物表情。对话语气轻松自信,充满玩笑意味。环境音是汽车喇叭声、人群熙攘的交谈声、远处传来的音乐声、笑声。
同样的逻辑,我们还试了段相声。只需一句简单模糊的提示,模型自动脑补出完整的相声内容,一个捧哏,一个逗哏,一个普通话说得贼准,一个四川话说得贼溜。
![]()
提示词:两个年轻人在台上表演相声,一个用普通话说,一个用四川话说,台下时不时发出笑声。
前段时间,AI 生成 ASMR 视频非常火,在社交媒体上动辄就能获得上百万播放量。
这类视频主要是通过各种细微声音刺激,比如敲击声、耳语声等,触发人们的感官愉悦反应,帮助放松和入睡。
Seedance 在这方面表现也不错。比如让 ASMR 创作者敲键盘然后对着麦克风吹气说话,它生成的机械轴声、吹气声、说话声层次分明,音画配合的精准度,完全可以媲美谷歌的 Veo3.1。
![]()
提示词:asmr creator typing on a noisy keyboard and then looking up and blowing into the microphone as she talks .
演技这块,AI 也越来越「老戏骨」了。Seedance 1.5 pro 实现影视级叙事张力,整个短剧不成问题。
我们上传一张女生特写素颜照,分别输入提示词:生成女生开怀大笑的表情、愤怒的表情、悲伤的表情、疲惫的表情。
![]()
它生成的每种情绪都挺细腻,大笑时露出眼角纹,愤怒时眉头紧蹙、呼吸加重,悲伤时不自觉落泪,还有疲惫时深深的叹息,一看就是老打工人了。
![]()
这架势,以后演员的饭碗可能真悬了。
在赛车等强调速度动态、或者战争这类大场面处理上,Seedance 1.5 Pro 丝毫不打怵。
比如它生成的红白相间 F1 赛车在城市赛道上疾驰,运动幅度大,但流畅且有张力。画面自带 80 年代胶片颗粒感,动态模糊处理得极好,那种速度带来的视觉冲击力,还真有老式赛车纪录片的感觉。
![]()
提示词:镜头高高掠过阳光普照的摩纳哥悬崖,几乎与直升机的飞行高度相当。下方,一辆红白相间的 20 世纪 80 年代一级方程式赛车疾驰在城市赛道上,闪亮的漆面和澎湃的动力令人目眩神迷。镜头展现出一幅由柔和色调的建筑、狭窄的弯道以及远处波光粼粼的地中海构成的精美画卷。赛车的速度与精准度令人惊叹 —— 它的身影在发夹弯和隧道阴影中翩翩起舞,不时被明亮的阳光轻抚。影片的画面质感粗粝而真实:自然的动态模糊、柔和的胶片颗粒以及阳光照射下的高光,仿佛重现了老式 35 毫米赛车纪录片的风采。
战争场景中,手持镜头的剧烈晃动呼应了士兵的奔跑,爆炸声、脚步声、喘息声混在一起,紧迫感扑面而来。
![]()
提示词:一战战场上的电影场景,一名英国士兵在泥泞的地面上全速奔跑,迫击炮弹在附近爆炸,扬起尘土和硝烟。镜头以手持拍摄的方式横向跟随他,略微晃动,与他的动作相呼应,营造出紧迫感。爆炸隆隆作响,炮弹呼啸而过,碎片飞溅,冲击波席卷整个场景,营造出一种紧张而真实的氛围。
还有下面的 FPS 追逐戏,这种复杂动态场景对 AI 来说其实挺有挑战的,既要保证画面连贯性,又要处理好多层次的运动元素,还得兼顾环境音效和视觉冲击力。
从生成结果来看,手持摄像机的晃动、树枝飞掠、引擎轰鸣、奔跑的呼吸声、脚步声,它都捕捉得很精准自然,没有逻辑崩坏和僵硬感。
![]()
提示词:First-person shaky handheld camera: The viewer runs at full speed through a dense jungle, chasing a man on a speeding motorbike ahead. Branches whip past the camera, leaves crunch underfoot, and the roar of the engine echoes through the trees. Light flickers through the canopy as the pursuit intensifies. cinematic action footage
最后,我们看看它在商业广告上的潜力。
该模型挺擅长处理复杂空间变化,箱体开启、汽车显现、展厅元素组装,轻轻松松给特斯拉「拍」了个概念大片,最难得的是它能严格遵循这么长的复杂提示词,把极简风格、科技感、品牌调性这些抽象概念都精准还原出来。
![]()
提示词:电影级镜头,一个极简风格、带有特斯拉品牌标识的箱体以魔法般的方式开启,展现出一辆已完整成型的特斯拉汽车,同时其周围瞬间组装出一个流线型、特斯拉主题的展厅。画面中不出现任何文字。电影感,固定广角镜头,在关键变化节点进行细微的变焦推进;可控的高科技灯光氛围,从昏暗逐渐过渡到明亮、干净;空旷的未来感空间,逐步转变为极简风格的特斯拉展厅,元素包括带有发光缝隙的特斯拉品牌箱体、特斯拉汽车(如 Model 3 / Model Y / Cybertruck)、充电桩、极简展示面板、流线型展厅家具、环境氛围灯光元素;箱体面板顺滑、安静地收回,车辆显现;展厅元素精准且迅速地升起、展开并完成组装;结尾画面干净、纯粹、极具吸引力的特斯拉展厅,汽车作为画面中心。
测下来整体感觉,Seedance 1.5 pro 生成效果还是稳定靠谱的。
用过 AI 视频生成的朋友都知道,输入同样的提示词,往往需要生成多次,才能在一堆崩坏的画面里挑出一个能用的,这也就是所谓的「抽卡」。
在 Seedance 1.5 Pro 测试中,它表现出极高的指令遵循度,基本不需要反复「抽卡」,甚至我们还发现,往往第一次生成的视频效果就是最佳的,后续为了追求更好而反复重试的版本,反而在自然度和逻辑性上不如初版。
总之,对于日常内容创作、轻量级商业广告以及 AI 短剧制作,Seedance 1.5 Pro 完全够用。
Seedance 1.5 pro:
原生音视频联合生成的更优解
在上述多个场景的实测中,Seedance 1.5 pro 在多语言与方言适配、运动表现力、镜头调度、整体视听一致性等多个关键维度上的表现给我们留下了深刻的印象。
这让我们更加好奇,相较于前代 Seedance 1.0 pro,新版本在底层能力上实现了哪些实质性的突破?
作为字节跳动豆包大模型团队(以下简称团队)的最新视频生成基础模型,Seedance 1.5 Pro 在架构层面即原生支持音视频联合生成,包括文本到音视频生成和基于图像引导的音视频生成。
![]()
技术报告地址:https://arxiv.org/pdf/2512.13507
在实现过程中,Seedance 1.5 pro 融合了几项关键技术创新,包括统一的多模态联合生成架构、全面的音视频数据框架、精细化的后训练优化策略和高效的推理加速方案,从而在架构范式、数据工程、训练策略与系统效率等层面形成了系统性优化。我们接下来一一来看。
首先在框架层面,团队提出了一种基于 MMDiT 架构的统一建模框架,这是实现原生音视频联合生成的重要基础。
该框架支持跨模态的深度交互,确保视觉与听觉信号实现时间维度上的精准同步以及语义层面的高度一致。另外通过在大规模混合模态数据集上进行多任务预训练,模型在不同类型的下游任务中展现出良好的泛化能力,包括文本生成音视频、图像生成音视频以及单模态的视频生成。
其次在数据层面,团队构建了一套面向高质量音视频生成的整体数据框架。
该框架涵盖了多阶段数据筛选与清洗、先进的数据标注系统以及可规模化的基础设施。这套数据 pipeline 以实现音画一致、运动表现力和基于课程学习的数据调度为核心目标,配套的数据标注系统能够为音视频模态提供丰富、专业水准的描述。同时,整个框架依托高效的工程架构,针对大规模数据处理进行了深度优化。
接着在后训练阶段,团队在高质量音视频数据集上进行了监督微调(SFT),并引入了为音视频场景定制的基于人类反馈的强化学习(RLHF)算法。
具体来讲,团队利用多维度奖励模型有效提升了文本到视频和图像到视频生成任务的整体表现,在运动质量、视觉美感和音频保真度等方面收获了明显进步。同时,针对 RLHF 训练流程进行了专门的工程优化,使得整体训练速度提升近三倍。
最后在推理阶段,团队进一步优化多阶段蒸馏框架,显著降低了生成过程中所需要的函数评估次数(NFE)。同时结合量化、并行计算等推理基础设施层面的优化,在保持模型性能的前提下,实现了 10 倍 + 的端到端推理加速。
下图为 Seedance 1.5 pro 的整体训推流程,其中通过「联合预训练 + SFT+RLHF」学习音视频生成能力,并在推理阶段以「统一文本条件」驱动音视频联合生成与精修,进而输出高质量、强同步、高可控的音视频内容。
![]()
这一系列技术突破带来了音视频生成能力的代际提升,为 Seedance 1.5 pro 在多项核心生成任务中的领先表现奠定了基础。
下图 3 和图 4 分别展示了 Seedance 1.5 pro 与前代 Seedance 1.0 pro、其他竞品模型在 T2V 和 I2V 任务中的性能比较结果。在 T2V 生成任务中,Seedance 1.5 Pro 在指令遵循(对齐度)指标上取得了领先表现,在画面美感、运动质量等指标上也展现出较强竞争力。在 I2V 任务中,Seedance 1.5 Pro 同样保持了稳定而突出的整体表现。
![]()
![]()
可以说,从 Seedance 1.0 pro 到 1.5 pro,最大的技术进步不在于单点能力的增强,而是完成了从视频生成模型到原生音视频联合生成基础模型的跃迁。
此次 Seedance 1.5 pro 的亮眼表现,正是自 2024 年初以 Sora 为代表的产品级模型亮相以来,视频生成领域快速演进的一个缩影。在不到两年的时间里,视频生成技术便从学界的研究热点迅速走入大众视野,成为普通人也能直观感受和使用的创作工具。
几乎每一次重磅模型的发布,都在刷新人们对「AI 视频可以进化到什么程度」的认知,并带来超出预期的体验。
如今,从生成时长、主体物理一致性到音画同步、镜头连续性,一个个技术难点被攻克;加上首尾帧约束、参考角色、分镜控制等更多样玩法的出现,视频生成早已迈过「人类直觉可接受」的阶段,而开始真正迈向「创作级、生产级」阶段。借助 AI 视频创作工具,几个人甚至单人小团队就可以完成过去需要影视工作室才能完成的视频内容。
作为推动该领域技术进步与玩法拓展的重要参与者,火山引擎 Seedance 系列视频生成模型虽然问世时间不长,但一直是业界关注的焦点之一。1.5 pro 在补全模型能力的同时,加快了体系化竞争的步伐。新版本在可玩性、实用性上显著提升,持续缩小模型输出与真实视频制作需求之间的差距。另外,通过 API 对外开放,为模型能力的规模化调用与工程化落地提供稳定的基础设施支持。
目前,Seedance 1.5 pro 正在多样化的视频生成场景释放巨大的应用潜力,尤其是多镜头视频生成的实际生产。这意味着,该模型在更能满足日常创意表达需求之外,逐步向支撑专业级视频内容创作转变。
在即将到来的 2026 年,业界对视频生成领域有着更高的期待。马斯克曾表示其希望旗下大模型 Grok 能在明年年底前产出至少能看的电影,到 2027 年能制作出真正好看的电影。
![]()
我们无法准确地判断马斯克的设想是否能如期实现,但可以预见的是,在未来的视频生产体系中,包括 Seedance 1.5 pro 在内的视频生成大模型将以更加成熟的方式参与从创意生成到内容制作的全过程,它们的使用比重有望继续提升,承担的角色也会更加重要。
文中视频链接:
https://mp.weixin.qq.com/s/JvdQi0vAbDJj0_4Ysvk52w





京公网安备 11011402013531号