当前位置: 首页 » 资讯 » 科技头条 » 正文

可灵VS即梦:初探“多模态”

IP属地 中国·北京 编辑:李娜 硅基星芒 时间:2025-09-11 21:58:09
AI生成视频距离普通人还有多远?

硅基星芒

目前国内两个最火的AI生成视频平台,非可灵和即梦莫属。

作为影视外行人和AI爱好者,我准备组建一个纯AI的影视团队,看看效果如何。

在正式开始之前,还有一个问题:文生图+图生视频or文生视频?

两个平台都具备上述功能,那么两条路应该走哪条?

AI给出的答案是:使用文生图+图生视频的方法具备更高的可控性;而文生视频的方法能够让视频更有动态感。

考虑了一下成本和效率,我还是选择了可控性优先。

01 第一步:AI编剧,编写剧本

想拍一部电影出来,首先肯定得有编剧来写剧本。

我把先前公众号上发布过的一篇文章,以PDF形式丢给了目前公认性能强大的Gemini 2.5 Pro。

不得不承认,文字方面,AI当编剧确实是绰绰有余。

分镜头脚本写得有模有样,像我这种外行人可是完全写不出来。

尤其是图生视频指令,涵盖了场景、动作、运镜、风格这些专业化的东西,解决了大麻烦。

02 第二步:AI画师,绘制分镜图

前面已经说过,采用文生图+图生视频的方式可以提高可控性。

剧本既然已经有了,接下来的任务就是绘制分镜。

我把AI编剧写好的这些首帧图片指令,统统交给了腾讯混元这个AI文生图模型。

相比文字,AI在图片领域的能力显然有所下降。

好在混元生图的美术功底靠得住,给出的大部分图片质量都不错,基本符合预期。

当然,也有下面这些瑕疵品:

例如,一条水平的发光进度条,位于画面下方,滑块在起始位置。背景是模糊的彩色光影。

AI显然是没能理解指令。

以及,一条高度精密的汽车生产线,无数机械臂在协同工作,焊接时火花四溅,充满工业美感。

这次则是逻辑错误,一群机械臂似乎正在破坏一辆完工的汽车。

03 第三步:AI导演,让图片动起来

我把前面生成的静态图片和图生视频指令分别发给本次拍摄的导演可灵和即梦。

然而,开机以后不久,我就遇到了理想与现实的碰撞。

刚开始,看到AI生成的几个时长5秒的视频时,我还是挺满意的。

毕竟,这些动态效果和光影变化在一个外行人眼里已经非常惊艳,画面也十分流畅。

不过,随着生成的视频越来越多,导演就开始露馅了,各自开始生成一些很奇怪的东西。

问题一:导演压根不按照剧本来

这是最常见的问题,无法容忍的不听指令。

先来看一个让人哭笑不得的例子:

图生视频指令:

场景描述与动作:汽车的前大灯被激活,从一条细线开始,然后突然亮起,射出明亮而锐利的光束。一道微弱的能量光泽沿着车身的气动线条流动。

运镜方式:缓慢而富有戏剧性的向上摇镜头(Tilt Up),从前轮开始,向上移动到挡风玻璃,让汽车感觉充满力量。

画面风格与质感:英雄特写镜头。电影级,精致,高级感。增加轻微的镜头光晕效果。

指令中写的明明白白,汽车的前大灯被激活,但可灵生成的视频中却是从车身中间射出一道光线,多少有点莫名其妙。

相比之下,即梦生成的视频效果要好一点。

问题二:牛顿看了都得沉默的物理和逻辑错误

让AI做物理题,它得心应手;但让它生成视频,它似乎又没完全学会现实世界的物理规则。

穿模可以算是家常便饭了,即梦和可灵生成的视频都存在这个问题,比如:

图生视频指令:

场景描述与动作:所有机器以惊人的速度和完美的协调性协同工作,展现出极致的效率。机械臂抓取包裹,无人车流畅地避让和穿行。

运镜方式:在仓库内进行一个长距离、平滑的移动镜头(长镜头),一镜到底地展示整个流程。

画面风格与质感:工业美学,科技感,秩序感。画面干净,动作流畅。

另外,物理运动的实现看起来也很不合理:

图生视频指令:

场景描述与动作:一颗闪亮的金色石子投入水中,激起一圈圈巨大而绚烂的彩色涟漪,涟漪扩散的速度非常快,瞬间照亮整个水面。

运镜方式:俯视视角,缓慢放大(Zoom In)。

画面风格与质感:诗意,愉悦。用涟漪的爆发来象征多巴胺的瞬间释放。

即梦生成的视频中,金色石子并非被投入,而是直接从水中浮现出来:

可灵则较好地完成了指令内容:

问题三:短时间内的失忆症

AI生成的视频有一个重大的缺陷,那就是一致性实在是太差。

短短5秒之间,一个镜头的主角就可能发生大幅度的变化。比如:

场景描述与动作:表盘上的分针以极快的速度平滑地旋转一圈。刚一停下,手表屏幕上就出现一个柔和的、发光的脉冲动画。

运镜方式:静态特写。

画面风格与质感:现代,简洁,高效。脉冲动画干脆利落,代表送达的提醒。

即梦生成的视频,咱们暂且不谈极快的速度和脉冲动画实现的如何,这表盘直接就换了个样:

即梦生成的视频,咱们暂且不谈极快的速度和脉冲动画实现的如何,这表盘直接就换了个样。

可灵生成的视频就没有发生这个错误:

如果在这么短的时间内都无法保证一致性,整个视频的观感肯定是好不到哪去。

04 使用感受

对于图生视频的AI平台,它们确实是强大的工具,但目前还不是成为合格的导演。

先说可灵,它的表现相对更好一些。

对于物理世界的模拟和动态真实感,它完成的不错,基本符合现实世界中的物理规律。

其次,可灵对于指令中概念的理解深度和艺术诠释能力更具优势。不仅是字面意义,它还能在一定程度上理解文字背后的抽象概念和用户想要表达的情绪。

而且,可灵似乎并不是一个让做什么就做什么的死板机器。它生成的视频中,有些画面并未在文字中写明,却能或深或浅地反映主题。

如此说来,它更倾向于一个愿意突破边界进行尝试的艺术家。

另外,根据影评人Gemini 2.5 Pro的反馈,可灵具备强大的镜头语言掌握力,能够成功完成推拉变焦、向上摇镜等复杂运镜。

对于可灵生成抽象CG场景,影评人认为在技术质量和美学上都已经达到专业水准。

但是在这位艺术家发挥想象力的同时,也带来了一些问题:

较低的图像保真度和频繁的场景重构。

选择性执行用户指令和跑偏的创意。

这就是可灵导演哲学的必然代价,生成的视频可能会与预想的画面相差甚远。

再来说说即梦,相比艺术家,它更保守一些。

即梦生成视频的优势在于极高的图像保真度和稳定性。

每个镜头的主体基本不会出现大幅度的扭曲和变形,画面也比较稳定。

这就意味着,即梦的图生视频功能,生成视频的质量很大程度上取决于图的质量。

此外,即梦对于复杂构图的指令也能够较为精准的实现,它对于指令的理解和执行能力更为可靠。

不过,即梦的缺点在于难以实现物理上的真实感,而且缺乏一些动态逻辑。

上面一些令人匪夷所思的场面大多出自它手。这也是对于概念理解深度不够、缺乏叙事能力的一种体现。

除此之外,影评人也指出,即梦的镜头语言理解和执行能力较为薄弱,几乎无法完成较为复杂的电影运镜,降低了视频的表现力。

05 最后的一点想法

两个模型生成的视频都已经证明,对于一般的平台用户而言,高难度指令往往带来的是失败的结果,技术的边界尚未被突破。

技术角度来看:

AI生成视频领域内,保真和创意这两条核心的技术路线仍然存在博弈,不能兼顾。

此外,视频时长也是目前存在的一大限制。

不管是国内还是国外的AI视频生成平台,大多将单个视频的时长严格控制在5-10秒内。

单个视频能够表达的内容有限,生成长时间、情节连贯的视频对这一领域仍是巨大挑战。

而这对于用户来说,为编写提示词增加了难度。

写的太细致,模型无法理解,也无法在短短几秒内将内容表达完全;

写的太粗糙,模型生成的内容往往与用户的意图相隔十万八千里。

成本角度来看:

通过强大的设备和算力进行本地部署,再对模型进行微调,可能才是生成高质量视频的可靠选择。

但,这成本可不是一般用户承受得起的。

即便是这两个在线应用平台,会员价格也并不便宜。

单买积分的话,即梦上使用视频3.0模型+720P+5秒视频的最基本配置是1元1条视频;

可灵上使用标准模式+5秒视频则是2元1条视频。

但根据我的使用经历来看,想要生成的视频能达到一般短视频的水平,肯定是需要升级配置并多次生成、不断调试的。

而这个过程,开销肯定会不断增长。

因此,导演、摄像师和后期老师们大可以松一口气。

想让AI生成具备观赏性的影片,我们不妨再多些耐心。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。