当前位置: 首页 » 资讯 » 科技头条 » 正文

AI 视频告别抽卡模式!剪辑师的终局是模型导演?

IP属地 中国·北京 雷科技 时间:2026-06-05 16:18:30

抽卡时代,要过去了。

过去一年多,我们对 AI 视频的体感其实可以用两个字概括:抽卡。输入一段 prompt,点下生成,盯着进度条等模型吐出几秒钟的画面,出来好看就留下,不好看就改改词再来一发。它确实能产出惊艳的片段,可它给创作者的,从来不是一段能接着干活的素材,而是一张抽到了就走、抽不到就重抽的卡。

抽卡最难受的地方,其实不是画面不够真,而是不可控。你要的是一个九分的成片,模型给你的是十个各有七八分却彼此对不上的片段,你没法跟它商量「这个镜头别动,只把人物的动作换一下」,能做的只有重新摇一次骰子,赌下一发更好。

但这套玩法,最近开始有变化了。这一两个月里,几款新视频模型几乎前后脚出现,产品形态、技术路线、面向的市场都不一样,可它们释放出来的信号却出奇地一致,竞争的重点不再是谁能一次性生成一段更好看的视频,而是谁生成出来的东西能被持续地修改、控制和复用。换句话说,AI 视频正在从一个出片机器,变成一套生产工具。



(图源:Google)

问题也就来了,AI 视频走到这一步,创作者的核心竞争力,会不会从剪辑,变成一种更接近导演的东西,毕竟我们已经不用再去“赌”视频生成的内容了,那么更好地表达与镜头设计,会不会才是未来的 AI 视频创作重点?

不能二次编辑的视频模型不是好AI

AI 视频「能编辑」最近热度最高的,可能是谷歌和 Runway 这两家。

Runway 端出来的是 Aleph 2.0,它主打的能力是基于原视频语境去做修改。说白了,它不再把每次生成都当成一张白纸,而是认得你手上这段素材里有什么,能在理解原片的前提下做局部改动,而不是动一下就推倒重来。谷歌这边是 Gemini Omni,走的是另一条路,主打对话式的继续编辑,你可以像跟人聊天一样一句句往下提要求,让模型在上一版的基础上接着改,而不是每提一个新需求就从头再摇一次。



(图源:Runway)

比如我们在 Gemini 上要求它生成一段一只白色陶瓷杯放在木桌上,镜头缓慢推进。杯子旁边有一本笔记本和一支黑色钢笔,自然日光,真实手机拍摄感,背景是普通工作室的广告质感视频,在第一轮里 Gemini 生的效果就已经很让人满意。



(图源:雷科技制图 )

Gemini 生成了一段白色陶瓷杯、笔记本、黑色钢笔放在木桌上的空镜视频,画面主体明确,有白色陶瓷杯、笔记本、钢笔、木桌,镜头从中远景缓慢推近到近景,很符合我们的需求。但它看起来并不像一段广告片。



(图源:雷科技制图 )

于是我们直接让 Gemini 基于这段素材,让画面更像咖啡品牌广告片,比如给杯中咖啡增加细微热气,在杯壁加入柔和高光等等。



(图源:雷科技制图 )

不难看出,杯子、钢笔、笔记本,甚至背后的场景都没有变,变得是什么呢?是咖啡出现的时间、是运镜的手法,是热气萦绕的效果。

这恰好就是 AI 视频从生成走向编辑的中间状态,过去是写一句提示词等模型出片,现在变成了先生成一条基础素材,再告诉模型哪里还不够好,创作者开始像导演一样给修改方向,只是模型还没法像剪辑软件那样精确服从。它不再只是抽卡,但也还没长成真正的后期工具。

Gemini 这种对话式的改法只是其中一条路。国内的可灵和 Seedance 2.0,则在把「能改」这件事往更系统的方向推,只是各自挑的切口不太一样。

可灵 O1 的打法,是把一整套活儿收进一个引擎。生成、修改、参考、风格重绘、镜头延展,这些过去要么做不到、要么得在好几个工具之间来回倒腾的事,它想让你在一个地方就从头做到尾。这个思路聪明在,它没把自己当成一个单点功能很强的生成器,而是想做成一张创作台。对创作者来说,最磨人的从来不是某一步有多难,而是一支片子得在七八个工具之间搬来搬去、导入导出反复横跳,可灵想啃的正是这块衔接上的内耗。



(图源:可灵)

Seedance 2.0 挑的切口则是多模态。它把文字、图片、视频、音频都变成能喂进去的参考,用来增强参考生成、视频延展和音画同步。过去我们谈视频模型,下意识只盯着画面好不好看,可视频从来不只是会动的画面,它是画面、动作、声音、节奏几样东西咬合在一起的结果。Seedance 把声音和动作也拉进可控的范围,等于在提醒一件事,视频模型不能只会画画,它还得听得懂节奏,知道这一刀该剪在哪一拍上。



(图源:Seedance 2.0 )

更直白地说,从整个视频模型的方向来看,抽卡时代已经彻底结束了,接下来是「可编辑时代」,也就是说,哪家模型能够把整个流程打通、给用户最直观的优化提示词、二次编辑修改方案,谁就能继续占领高地。

AI视频不再碰运气,人类要干的活也变了

绕了一圈,回到开头那个问题。当 AI 生视频已经不是抽卡,人在整个工作流里的角色,到底会不会变?我的判断是,会。

过去一个优秀的视频创作者,靠的是剪辑、调色、转场、配乐这些手上功夫,一帧帧抠出自己的风格。这些能力不会作废,但当模型能听懂「保留这个运镜,只把质感往广告片靠」的时候,真正拉开差距的,开始变成另一套东西,会不会描述镜头、能不能控制节奏、判不判断得出哪一处该留、哪一处该推倒重做。说白了,是「导演模型」的能力。

AI 视频不会立刻取代剪辑,也不会让创作者沦为只会写 prompt 的提示词工人,这两种极端说法都太省事了。更准确的变化是,视频生产的重心正在从「素材加工」挪向「意图调度」。过去你是亲手把素材一刀刀拼成成片,往后你更多是在告诉模型,我要什么、不要什么、这一版哪里还差口气。



(图源:雷科技制图 )

而这套调度能力,恰恰是有门槛的,谁能把脑子里那个模糊的创意,拆成模型听得懂的镜头语言,谁能在模型吐出一版结果时一眼判断出它到底可不可用、还差在哪,谁就更像未来那个「模型导演」。导演自己未必扛摄影机、未必剪每一刀,但他清楚整部片子要什么,知道每个岔路口该往哪边走。AI 视频成熟之后,创作者要做的也是这件事。

工具换了,门槛自然也不一样了,可创作最核心的东西其实没变,依然是你脑子里那个清晰的成片,以及你愿不愿意一遍遍把模型调到位。抽卡的时代要过去了,赌徒会越来越少,真正稀缺的,是那个知道自己想要什么、并且有本事让模型把它交出来的人。

AI不会取代打工人,但会推着他们向前走

每次有个新工具把某项手艺活自动化掉,总有人喊饭碗要没了,可回头看,工具升级真正干掉的从来不是这群人,而是他们工作里最机械的那部分。

最经典的是电子表格。VisiCalc 和后来的 Excel 出现之前,会计和财务一天里大把时间耗在拿计算器一格格算、一笔笔记账上。表格软件把这些重复计算全包了,结果不是会计失业,而是他们从「算数的人」变成了「做模型、看趋势、给决策当参谋的人」。最枯燥的执行被收走,腾出来的精力反而让这份工作更值钱了。

非线性剪辑软件普及之前,剪辑是真要拿刀片去切胶片、对着磁带一帧帧倒的,所以才有“剪视频”这种话术,然而 Premiere、Final Cut 这类软件出来后,物理意义上的「剪」消失了,可剪辑师并没有消失,他们从体力活里抽身,把注意力放到了节奏、叙事和情绪这些更高一层的判断上。工具替掉的是手上的苦力,留下的是脑子里的取舍。



(图源:seedance 2.0 )

AI 编程助手出来之后,程序员里最先慌的是「以后是不是不用我写代码了」,可真实的变化是,他们花在一行行敲样板代码上的时间被压缩了,更多精力转去审模型写得对不对、把架构和边界想清楚、判断哪段能信哪段得返工。会写代码依然重要,但更稀缺的能力,变成了知道该让模型写什么。如今流行的 Vibe Coding,某种意义上的确降低了「入门」的门槛,但真正要从 0 开发到交付,Vibe Coding 出来的作品往往很难过关。

回到 AI 视频本身,它的下一阶段,比的不再是谁画面更真,而是谁更稳定、更可控、更可编辑。创作者也不会只剩写提示词这一件事,反而更像一个模型导演,知道该保留什么、改什么、用什么参考去约束模型、怎么让它连续改到可用为止。剪辑这门手艺不会消失,但创作者最值钱的能力,正在从「把软件用得多熟」,换成「把模型调度得多准」。

工具一直在往上走,打工人要做的是努力让自己始终站在 AI 工具无法取代的位置上。抽卡的时代要过去了,赌徒会越来越少,而真正稀缺的,永远是那个知道自己想要什么、并且有本事让模型把它交出来的人。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新