当前位置: 首页 » 资讯 » 科技头条 » 正文

不儿,这谁还能看出是AI演的视频啊

IP属地 中国·北京 量子位 时间:2025-12-18 18:25:17

金磊 发自 凹非寺
量子位 | 公众号 QbitAI

这一次,我真的分不清视频到底是不是AI生成的了。

来,咱们先来看一下这段演技飙升的视频片段:



视频地址:https://mp.weixin.qq.com/s/_jOBSONTopASkhpZcxVitg

Prompt:女子泣不成声,说台词:“江辰……你一定要活着回来,好吗?……答应我”。女子边说话边将右手抬起抚摸男子的脸。背景音乐伤感。影视级。

这台词、这演技、这眼神、这口型,不说是AI生成的,一般人绝对会以为是哪个电影里的片段。

但重点还不是效果的逼真——

因为这10s的片段,人物对白配音、视频背景音乐和音效,统统都是通过上面的Prompt一锅出的。

这就是刚刚火山引擎在FORCE原动力大会上推出的最新豆包视频生成模型Seedance 1.5 Pro

主打的就是音画高精同步,一镜入戏



就这个功能一出,打造一个有趣好玩的小短片,那真是分分钟的事情了。

例如我们以这位AI女主角为原型:



然后就可以用Seedance 1.5 Pro搞一个“川剧”——《至辣园》



视频地址:https://mp.weixin.qq.com/s/_jOBSONTopASkhpZcxVitg

从这两个实测案例中,我们不难看出,这次豆包视频生成模型Seedance 1.5 Pro整体亮点可以总结为:

音画高精度同步:不论是背景音乐、音效还是人物对话,都能按照剧情发展保持高度一致。支持多人多方言:原生支持如四川话、粤语、上海话、台湾腔等多种方言,并且精准捕捉方言独特的韵律和情感张力 。影视级效果:不论是视觉、叙事张力、镜头语言,都已经达到了真假难辨的程度。语义理解更强:对于镜头叙事的理解更加准确,有利于专业级内容的创作;同时,抽卡率也更低了。

目前,Seedance 1.5 Pro已经上线即梦AI豆包APP火山方舟体验中心,大家都可以去体验哦~

企业用户自12月23日起,也可以在火山引擎使用该模型API。

那么接下来,我们就通过进一步、多角度的实测,来考验一下Seedance 1.5 Pro的水平。

不仅好看,还挺好用

AI视频生成到底够不够真,其实最主要需要关注的就是音画会不会出现bug、够不够一致性,运镜是否够专业,以及涉及到方言等内容时,是否能够精准表达等。

因此,接下来的进一步实测,我们就主要围绕这几个维度来展开。

音画够同步:不会穿帮的那种

我们以即梦为例,Seedance 1.5 Pro生成视频的操作方式是首尾帧的方式



在这个测试中,我们先上传这张图片:



然后附上这么一句Prompt:

缓缓拉远,镜头带轻微震颤,指尖微蜷(隐带杀势),衣服随风飘动。表情眼睑半垂又骤抬。随后,急速推近面部特写,嘴角扯出极淡的冷笑,压迫感满满,并且冰冷蔑视地说话:“凭你也敢挑衅我的权威!”

来看下生成的效果:



视频地址:https://mp.weixin.qq.com/s/_jOBSONTopASkhpZcxVitg

不难看出,Seedance 1.5 Pro完全get到了Prompt要表达的核心要素,并且音画同步得非常精准,是有点电影里东方不败的气场了。

同样的方法,我们再来一句这样的Prompt:

黑客帝国风格的发布会。纯黑背景,只有一束顶光。 穿着黑色高领衫的 科技狂人,手里把玩着一枚小小的 AI Pin, 他举起AI pin,用冷静且极具煽动力的男声:“For the last decade, our smartest devices have demanded our eyes. ……” 缓慢推镜头(Dolly In),直到AI Pin 占据整个画面。



视频地址:
https://mp.weixin.qq.com/s/_jOBSONTopASkhpZcxVitg

周润发百万级运镜也能复刻

AI视频生成的另一个要素便是运镜的效果了。

在这次实测中,我们就来实测一下Seedance 1.5 Pro是否可以复刻前不久周润发在MAMA颁奖典礼中的名场面——百万级运镜

我们的首帧和尾帧分别是:





复刻周润发百万运镜的Prompt是这样的:

西装男子从舞台深处一直往前走,镜头从远推近到人物的面部,镜头环绕切到人物背面,再慢慢往远处推。



视频地址:https://mp.weixin.qq.com/s/_jOBSONTopASkhpZcxVitg

嗯,是有那个feel了~

多个人、多语言,统统都能hold住

正如我们刚才提到的,Seedance 1.5 Pro现在可以支持多个人、多个方言“一锅出”,现在你需要做的就是告诉她“谁,说了什么”

例如下面的Prompt:

画面中的3个角色对话的情节:首先右边熊猫用憨厚的四川话说:“我来自中国四川。” 然后左边的小男孩用西班牙语说:“Yo soy de España”。接着右边的熊猫用憨厚的四川话问:“为什么我们说着不一样的语言,却能对话呢?”最后中间的小女孩用可爱、开心的音色,微笑着说英语:“Because the AI world is full of magic!” 女孩说完后,停顿一下,3个角色相互看着彼此,开心的笑了起来。 全程缓慢的环绕运镜。奇幻的背景音乐。



视频地址:https://mp.weixin.qq.com/s/_jOBSONTopASkhpZcxVitg

从上述多个深度实测来看,Seedance 1.5 Pro确实是做到了音画精准同步、影视级镜头和理解、支持多人对话和方言。

总体体验下来,方便、快,或许就是最直接的感受了,只要不是过于复杂的场景,基本都是“一条过”。

不过目前Seedance 1.5 Pro还不支持参考图生成的方式,不然在操作上会更加灵活。

但除此之外,火山引擎总裁谭待今天在现场还剧透了一个即将推出的新功能——Draft样片

这个功能要解决的还是AI视频生成中的一个老大难的问题:抽卡。

简单来说,就是在真正出成片之前,你可以先生成一个低分辨率的草稿版视频,用来快速试效果、调方向;同时还能把画面里的关键元素先锁住,确保和最终成片在内容上高度一致。

这样每一次修改,反馈都更明确,也更可控,基本能做到“你看到的,就是最后会得到的”。

按照官方给出的数据,Draft样片能把整体创作效率提升约65%,同时减少60%无效创作成本。

技术底牌也公开了

在AI视频生成领域,过去我们常说声画两张皮,也就是视频归视频,音频归音频,后期强行缝合。

但Seedance 1.5 pro之所以能做到一镜入戏,核心在于它把视觉和听觉从底层逻辑上进行了彻底的同构。

从技术角度来看,主要包含四个方面的工作创新。



△Seedance 1.5 pro 训推框架图

首先是原生音视频联合生成架构

不同于传统的串联式架构(先视频后音频),Seedance 1.5 pro 采用了一套基于 MMDiT(Multi-Modal Diffusion Transformer) 的原生联合生成框架。

它建立了一个双分支的DiT架构,通过深度跨模态信息交互机制,让视觉流和听觉流在潜在空间(Latent Space)里实时通信。

这意味着,当模型生成角色说话的口型时,它同时就在计算对应的音频波形。这种“双向奔赴”的架构,从底层消灭了音画不同步的违和感。

其次是高质量音视频数据框架

火山方舟团队设计了一个极其复杂的多阶段数据Pipeline。他们不仅筛选了数以亿计的高清视频,还特别注重音视频的一致性配比。

通过自动化标注系统,为视频注入了丰富的视觉描述和匹配的音频语义信息。这套框架不仅能识别“一个男人在说话”,还能精确标注出“四川话、憨厚音色、带有环境回声”等极具细节的特征,为模型打下了深厚的数据底子。

还有一套精细化的后训练优化流程

为了让生成的视频更有灵性,团队在预训练之外,引入了针对音视频场景定制的RLHF(人类反馈强化学习) 算法。通过建立多维度的奖励模型(Reward Model),从视觉美感、运动连贯性、音频保真度以及最重要的音画匹配度进行全方位调优。

一言蔽之,就是反复磨练它在微表情、运镜张力以及声音情感表达上的处理能力。

最后就是高效推理加速技术

视频生成一向是巨烧算力的任务,但Seedance 1.5 pro在落地体验上玩了一把大的。

通过多阶段蒸馏技术和高效推理加速框架,团队成功将推理速度提升了 10倍以上。

这意味着专业创作者在即梦或豆包上点击生成,不再需要漫长的进度条折磨,真正实现了所见即所得。

从实验和评测结果上来看,也是印证了上述四项技术创新的正确性。



在针对视频与音频能力的综合评测中,Seedance 1.5 pro 在审美(Aesthetics)、运动质量(Motion)以及音画对齐(Alignment) 等核心指标上均处于行业领先地位。

特别是在挑战性极高的多语言对白和方言口型匹配任务中,其表现显著优于目前的开源及闭源主流模型。



AI视频生成,到了真可以上岗时刻

除了Seedance 1.5 pro之外,国内外大模型玩家近期也是密集交卷,视频生成赛道早已进入周更模式。

但观察这些密集发布的新作,不难发现一个共同趋势:它们不再追求单纯的像素级高清,而是在向“够好用”和“够逼真”这两个实用维度急速进化。

豆包视频生成模型Seedance 1.5 pro正是这一趋势的集大成者。

它不仅解决了演技问题(更细腻的表情和动作),更通过原生的音画同步,解决了台词和情绪的融合问题。

这种从单一模态向全模态创作的跨越,让AI视频真正具备了低成本制作短剧、广告片甚至辅助影视创作的实战能力。



视频地址:https://mp.weixin.qq.com/s/_jOBSONTopASkhpZcxVitg

或许在不久的将来,我们不需要寻找昂贵的配音演员,不需要复杂的后期对口型,甚至连方言的韵律和环境音的质感,AI都能一次性给到。

AI视频直接上岗时刻,已至。

火山方舟体验中心地址:
https://exp.volcengine.com/ark/vision?launch=seedance

Seedance 1.5 Pro论文地址:
https://arxiv.org/pdf/2512.13507

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。