不儿，这谁还能看出是AI演的视频啊

IP属地中国·北京 量子位 时间：2025-12-18 18:25:17

金磊发自凹非寺
量子位 | 公众号 QbitAI
这一次，我真的分不清视频到底是不是AI生成的了。
来，咱们先来看一下这段演技飙升的视频片段：

视频地址：https://mp.weixin.qq.com/s/_jOBSONTopASkhpZcxVitg
Prompt：女子泣不成声，说台词：“江辰……你一定要活着回来，好吗？……答应我”。女子边说话边将右手抬起抚摸男子的脸。背景音乐伤感。影视级。
这台词、这演技、这眼神、这口型，不说是AI生成的，一般人绝对会以为是哪个电影里的片段。
但重点还不是效果的逼真——
因为这10s的片段，人物对白配音、视频背景音乐和音效，统统都是通过上面的Prompt一锅出的。
这就是刚刚火山引擎在FORCE原动力大会上推出的最新豆包视频生成模型Seedance 1.5 Pro。
主打的就是音画高精同步，一镜入戏。

就这个功能一出，打造一个有趣好玩的小短片，那真是分分钟的事情了。
例如我们以这位AI女主角为原型：

然后就可以用Seedance 1.5 Pro搞一个“川剧”——《至辣园》：

视频地址：https://mp.weixin.qq.com/s/_jOBSONTopASkhpZcxVitg
从这两个实测案例中，我们不难看出，这次豆包视频生成模型Seedance 1.5 Pro整体亮点可以总结为：
音画高精度同步：不论是背景音乐、音效还是人物对话，都能按照剧情发展保持高度一致。支持多人多方言：原生支持如四川话、粤语、上海话、台湾腔等多种方言，并且精准捕捉方言独特的韵律和情感张力。影视级效果：不论是视觉、叙事张力、镜头语言，都已经达到了真假难辨的程度。语义理解更强：对于镜头叙事的理解更加准确，有利于专业级内容的创作；同时，抽卡率也更低了。
目前，Seedance 1.5 Pro已经上线即梦AI和豆包APP和火山方舟体验中心，大家都可以去体验哦~
企业用户自12月23日起，也可以在火山引擎使用该模型API。
那么接下来，我们就通过进一步、多角度的实测，来考验一下Seedance 1.5 Pro的水平。
不仅好看，还挺好用
AI视频生成到底够不够真，其实最主要需要关注的就是音画会不会出现bug、够不够一致性，运镜是否够专业，以及涉及到方言等内容时，是否能够精准表达等。
因此，接下来的进一步实测，我们就主要围绕这几个维度来展开。
音画够同步：不会穿帮的那种
我们以即梦为例，Seedance 1.5 Pro生成视频的操作方式是首尾帧的方式

在这个测试中，我们先上传这张图片：

然后附上这么一句Prompt：
缓缓拉远，镜头带轻微震颤，指尖微蜷（隐带杀势），衣服随风飘动。表情眼睑半垂又骤抬。随后，急速推近面部特写，嘴角扯出极淡的冷笑，压迫感满满，并且冰冷蔑视地说话：“凭你也敢挑衅我的权威！”
来看下生成的效果：

视频地址：https://mp.weixin.qq.com/s/_jOBSONTopASkhpZcxVitg
不难看出，Seedance 1.5 Pro完全get到了Prompt要表达的核心要素，并且音画同步得非常精准，是有点电影里东方不败的气场了。
同样的方法，我们再来一句这样的Prompt：
黑客帝国风格的发布会。纯黑背景，只有一束顶光。穿着黑色高领衫的科技狂人，手里把玩着一枚小小的 AI Pin，他举起AI pin，用冷静且极具煽动力的男声：“For the last decade, our smartest devices have demanded our eyes. ……” 缓慢推镜头（Dolly In），直到AI Pin 占据整个画面。

视频地址：
https://mp.weixin.qq.com/s/_jOBSONTopASkhpZcxVitg
周润发百万级运镜也能复刻
AI视频生成的另一个要素便是运镜的效果了。
在这次实测中，我们就来实测一下Seedance 1.5 Pro是否可以复刻前不久周润发在MAMA颁奖典礼中的名场面——百万级运镜。
我们的首帧和尾帧分别是：

复刻周润发百万运镜的Prompt是这样的：
西装男子从舞台深处一直往前走，镜头从远推近到人物的面部，镜头环绕切到人物背面，再慢慢往远处推。

视频地址：https://mp.weixin.qq.com/s/_jOBSONTopASkhpZcxVitg
嗯，是有那个feel了~
多个人、多语言，统统都能hold住
正如我们刚才提到的，Seedance 1.5 Pro现在可以支持多个人、多个方言“一锅出”，现在你需要做的就是告诉她“谁，说了什么”。
例如下面的Prompt：
画面中的3个角色对话的情节：首先右边熊猫用憨厚的四川话说：“我来自中国四川。” 然后左边的小男孩用西班牙语说：“Yo soy de España”。接着右边的熊猫用憨厚的四川话问：“为什么我们说着不一样的语言，却能对话呢？”最后中间的小女孩用可爱、开心的音色，微笑着说英语：“Because the AI world is full of magic!” 女孩说完后，停顿一下，3个角色相互看着彼此，开心的笑了起来。全程缓慢的环绕运镜。奇幻的背景音乐。

视频地址：https://mp.weixin.qq.com/s/_jOBSONTopASkhpZcxVitg
从上述多个深度实测来看，Seedance 1.5 Pro确实是做到了音画精准同步、影视级镜头和理解、支持多人对话和方言。
总体体验下来，方便、快，或许就是最直接的感受了，只要不是过于复杂的场景，基本都是“一条过”。
不过目前Seedance 1.5 Pro还不支持参考图生成的方式，不然在操作上会更加灵活。
但除此之外，火山引擎总裁谭待今天在现场还剧透了一个即将推出的新功能——Draft样片。
这个功能要解决的还是AI视频生成中的一个老大难的问题：抽卡。
简单来说，就是在真正出成片之前，你可以先生成一个低分辨率的草稿版视频，用来快速试效果、调方向；同时还能把画面里的关键元素先锁住，确保和最终成片在内容上高度一致。
这样每一次修改，反馈都更明确，也更可控，基本能做到“你看到的，就是最后会得到的”。
按照官方给出的数据，Draft样片能把整体创作效率提升约65%，同时减少60%无效创作成本。
技术底牌也公开了
在AI视频生成领域，过去我们常说声画两张皮，也就是视频归视频，音频归音频，后期强行缝合。
但Seedance 1.5 pro之所以能做到一镜入戏，核心在于它把视觉和听觉从底层逻辑上进行了彻底的同构。
从技术角度来看，主要包含四个方面的工作创新。

△Seedance 1.5 pro 训推框架图
首先是原生音视频联合生成架构。
不同于传统的串联式架构（先视频后音频），Seedance 1.5 pro 采用了一套基于 MMDiT（Multi-Modal Diffusion Transformer）的原生联合生成框架。
它建立了一个双分支的DiT架构，通过深度跨模态信息交互机制，让视觉流和听觉流在潜在空间（Latent Space）里实时通信。
这意味着，当模型生成角色说话的口型时，它同时就在计算对应的音频波形。这种“双向奔赴”的架构，从底层消灭了音画不同步的违和感。
其次是高质量音视频数据框架。
火山方舟团队设计了一个极其复杂的多阶段数据Pipeline。他们不仅筛选了数以亿计的高清视频，还特别注重音视频的一致性配比。
通过自动化标注系统，为视频注入了丰富的视觉描述和匹配的音频语义信息。这套框架不仅能识别“一个男人在说话”，还能精确标注出“四川话、憨厚音色、带有环境回声”等极具细节的特征，为模型打下了深厚的数据底子。
还有一套精细化的后训练优化流程。
为了让生成的视频更有灵性，团队在预训练之外，引入了针对音视频场景定制的RLHF（人类反馈强化学习）算法。通过建立多维度的奖励模型（Reward Model），从视觉美感、运动连贯性、音频保真度以及最重要的音画匹配度进行全方位调优。
一言蔽之，就是反复磨练它在微表情、运镜张力以及声音情感表达上的处理能力。
最后就是高效推理加速技术。
视频生成一向是巨烧算力的任务，但Seedance 1.5 pro在落地体验上玩了一把大的。
通过多阶段蒸馏技术和高效推理加速框架，团队成功将推理速度提升了 10倍以上。
这意味着专业创作者在即梦或豆包上点击生成，不再需要漫长的进度条折磨，真正实现了所见即所得。
从实验和评测结果上来看，也是印证了上述四项技术创新的正确性。

在针对视频与音频能力的综合评测中，Seedance 1.5 pro 在审美（Aesthetics）、运动质量（Motion）以及音画对齐（Alignment）等核心指标上均处于行业领先地位。
特别是在挑战性极高的多语言对白和方言口型匹配任务中，其表现显著优于目前的开源及闭源主流模型。

AI视频生成，到了真可以上岗时刻
除了Seedance 1.5 pro之外，国内外大模型玩家近期也是密集交卷，视频生成赛道早已进入周更模式。
但观察这些密集发布的新作，不难发现一个共同趋势：它们不再追求单纯的像素级高清，而是在向“够好用”和“够逼真”这两个实用维度急速进化。
豆包视频生成模型Seedance 1.5 pro正是这一趋势的集大成者。
它不仅解决了演技问题（更细腻的表情和动作），更通过原生的音画同步，解决了台词和情绪的融合问题。
这种从单一模态向全模态创作的跨越，让AI视频真正具备了低成本制作短剧、广告片甚至辅助影视创作的实战能力。

视频地址：https://mp.weixin.qq.com/s/_jOBSONTopASkhpZcxVitg
或许在不久的将来，我们不需要寻找昂贵的配音演员，不需要复杂的后期对口型，甚至连方言的韵律和环境音的质感，AI都能一次性给到。
AI视频直接上岗时刻，已至。
火山方舟体验中心地址：
https://exp.volcengine.com/ark/vision?launch=seedance
Seedance 1.5 Pro论文地址：
https://arxiv.org/pdf/2512.13507

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

华为首次系统拆解途灵平台：汽车底盘竞争，为何开始拼算力和通信架构？

新机涨价官翻补位！MacBook Neo官翻版上架：679美元苹果最便宜笔记本

京东创始人：机器人将取代70万快递员，公司已启动再培训计划

谷歌前CEO感叹中国人聪明：不如美国硬件做出媲美AI模型但不受美国控制我憎恨

产教融合创新发展论坛暨华为院校人才培养论坛在吉林建科举办

B站举办17周年庆，5分钟以上视频观看时长占比达65%

全站最新

华为首次系统拆解途灵平台：汽车底盘竞争，为何开始拼算力和通信架构？

新机涨价官翻补位！MacBook Neo官翻版上架：679美元苹果最便宜笔记本

京东创始人：机器人将取代70万快递员，公司已启动再培训计划

谷歌前CEO感叹中国人聪明：不如美国硬件做出媲美AI模型但不受美国控制我憎恨

热门推荐

华为首次系统拆解途灵平台：汽车底盘竞争，为何开始拼算力和通信架构？

岚图追光S首秀：四激光雷达+475kW双电机，零百加速进3秒级

新机涨价官翻补位！MacBook Neo官翻版上架：679美元苹果最便宜笔记本

京东创始人：机器人将取代70万快递员，公司已启动再培训计划

谷歌前CEO感叹中国人聪明：不如美国硬件做出媲美AI模型但不受美国控制我憎恨

OpenAI推出GPT-5.6系列：天体命名新体系，Sol登顶编程测试榜首

中国为何坚定奔月？资源、战略、技术、合作四大驱动力引领未来

小牛自动化拥有超400项专利

阿里推出CosyVoice输入法：支持全场景口述！一键成稿

1999元！vivo Y6a悄悄上市：LCD真护眼屏+7200mAh长寿大电池

2026链博会 | 通用技术健康管理院院长闫焱：数字化技术大幅提升服务效率与管理精度

产教融合创新发展论坛暨华为院校人才培养论坛在吉林建科举办

B站举办17周年庆，5分钟以上视频观看时长占比达65%

超盒算NB加速全国布局：首进华北北京连开6店，自有品牌占比近60%

优派TD2465-CN触控显示器开售，23.8英寸VA屏配10点触控，售价2699元