当前位置: 首页 » 资讯 » 科技头条 » 正文

我用可灵O1,做了一支疯狂动物城番外

IP属地 中国·北京 智东西 时间:2025-12-03 18:22:38


AI应用风向标(公众号:ZhidxcomAI)
作者|江宇
编辑|漠影

智东西12月3日报道,近日,可灵AI视频上线了全新的O1模型,把参考生视频、文生视频、图生视频、视频编辑、动作迁移等能力收进了同一个统一多模态模型里。

我们尝试的第一件事,就是拿它来拍一支“疯狂动物城番外”。

整套流程从“在可灵里重建尼克和朱迪”,到搭建警局场景、编辑视频、最后让朱迪跳了一段像素风网络神曲,中间遇到的每一个细节问题,都还很典型的:既能看到统一多模态的便利,也能看到现在AI视频在精细编辑上的边界。

不妨先来看看最终成片,具体过程我们稍后拆解。


一、在可灵O1里重建尼克和朱迪

进入可灵AI主页,左侧工具栏最上方就是可灵O1的新模式,在同一个对话框里就可以选择图片生成或视频生成。在生成区的下方,有一个“参考”模块,分为“图片”和“主体”两种方式。


同时,主体既可以调用主体库,也支持自建,而官方主体库的覆盖范围比我预想得要丰富。


人物栏里,直接给了鲁迅和林黛玉的影视形象,动物则有这两年在网上很火的安卓猫、水豚、香蕉猫等。继续翻,主体还延伸到了道具、服饰、场景和特效,基本把一支视频里会需要用到的主要元素,都整理成了可复用的素材。

我这次的主角不是官方主体,而是自建的尼克和朱迪。在“我的主体”里,我上传了两位的图片,分别新建了两个主体。

可灵O1有一个专门用来保证角色一致性的设计:主体必须由多张图片共同构建。

创建时,系统会要求用户至少提供一张主参考图和一张其他视角图,希望用户把角色的正侧面、近景远景都喂进去。我给尼克上传了4张图,其中1张是主参考,其余是不同视角。


标签部分我选择了“动物”,然后在主体描述栏点了一下“智能描述”,系统自动生成了一小段关于“狐尼克”的文字说明,补充了毛色、服饰等细节。


随后我用同样的方式给朱迪建了一个主体。


这一步做完之后,等于是在可灵O1里“重建”了影视版狐尼克和朱迪,后面无论是图还是视频,都可以直接调用这两个主体,保证角色的基础风格统一。

二、从图片到开场镜头,搭出疯狂动物城夜班警局

有了主体之后,我先用图片O1模式试了一轮静态图,让尼克和朱迪先“落地”到典型场景里,我选的场景是动物城的警局办公室。


警局的第一张效果非常理想:尼克和朱迪的角色一致性很好,比例、服饰和神态都在预期之内,场景画风也统一在动画电影版的“疯狂动物城”世界观之中。


问题出在第二张图上。在这张图里,警局背景里出现了很多“长得像朱迪的警员”,背景人物的脸和朱迪近似度过高,画面里出现了一排几乎同款的兔子脸,视觉上有点诡异。

此外,尼克后方的一张办公桌上,两台电脑紧贴摆放在一起,也不大符合日常使用场景,看起来像“复制粘贴”出来的。


我们尝试使用局部重绘功能,把背景里部分警官替换成其他小动物形象,希望能打破“同脸军团”的违和感。


▲局部重绘后的效果

但在这种细节程度的编辑下,模型还是很难精准地对某一个角色做局部替换。

在静态图大致跑通之后,我们决定用第一张警局图片作为故事开场的基调:先用O1生成一个夜晚的疯狂动物城城市远景镜头,再拉近到警局门口,最后落到尼克和朱迪同框出现,组成一个完整的视频开场片段。


这条视频在整体故事感上完成度很高:夜景街道、警局门口、内部办公室和主角同框的逻辑是对得上的。但细节层面,依然能看到一些“不对劲”的地方。比如部分警员的电脑是面朝观众摆放,而不是面朝警员自己。

另外,在警局背景中,有个别角色的脸直接变成了一团“乱码”,轮廓在,但五官细节糊成了一块。

三、从画面到声音,用“智能音效”为动物城配上BGM

在视频生成完成后,可灵O1的进度条下方会出现两个附加功能,一个是对口型,一个是音效。


对口型功能有一个前提条件:需要画面中存在稳定、持续可见的人脸,而且这个人脸要始终保持在画幅之内。

这个设定更适合真人、写实风格的片子,而我们这支疯狂动物城的风格偏动画和多角色,所以这次没有体验对口型这一功能。

音效功能则是这次体验里一个比较“惊喜”的点。我们只是在视频生成完成后点击了“音效”按钮,就进入了一个新的界面。


这一块的交互逻辑有点像“AI版音效素材库和智能拟音师”:一方面你可以直接在多种推荐风格中选择自己喜欢的音效基调;另一方面,可灵会先分析视频内容,自动生成一段“音效创意描述”的指令。


智能音效的优势,则在于它能和画面产生一些“预判式的配合”。

比如在这条警局开场视频里,有一个明显的开门动作,音效会主动把金属门被推开的声音放进去,和画面同步,加上远处的环境声,整体的空间感比单纯的BGM要完整得多。

从这个阶段开始,画面和声音才真正拼成了一段“完整的开场镜头”。

四、用“嘴改视频”,在警局门口加一块胡萝卜饮料广告牌

有了一个可用的开场画面之后,我开始尝试O1“擅长的编辑操作”,用自然语言去调镜头、改细节。

先是增加元素。我们给模型下的指令是:在疯狂动物城警局门口添加一块电子广告牌,播放胡萝卜饮料的广告。


视频生成后,广告牌本身融入得比较自然,亮度、位置和整体画风都对得上,确实像警局门口墙面的一部分。

但如果只看画面,很难一下子认出这是“胡萝卜饮料”,胡萝卜元素本身的视觉特征表现得不够清晰,更像是一块普通饮料广告灯牌。


然后是删改元素。我在同一段警局画面里,尝试让模型“只保留尼克和朱迪,删掉其他路人和警员”。最终的结果是:确实删掉了大部分背景角色,但系统还是保留了一位靠近主角团最近的警员。

可灵O1目前还没有掌握逐帧、逐人可控的能力。

再往下,我们尝试对镜头本身做一些调整。

街景部分,我们把镜头拉得更远一些,变成可以俯瞰整个动物城的全景,远处有不同种类的小动物在城市里活动。警局内部,则要求更多一些近景和特写,把尼克、朱迪和办公区域的细节交代得更清楚。

在这些指令下,O1可以按照“远景、近景”的逻辑重新生成镜头。同时,我们也会发现一个明显的问题:镜头之间的切换节奏和元素添加偏“死板”,镜头并不流畅,也没有初版视频的活灵活现。


五、让朱迪跳舞,再把她变成像素游戏角色

在场景和细节编辑之后,我们开始尝试可灵O1的动作参考能力:用一段网络舞蹈视频,驱动尼克和朱迪跳舞。

这次我们选了一段很火的网络舞蹈,把它作为动作参考,希望让尼克和朱迪两人同步跳同一支舞。


实际体验下来,目前O1在多主体同步动作上还没有完全放开:经过几轮调参和不同指令尝试,我们始终只能稳定地生成“朱迪独舞”的版本,没办法让尼克和朱迪两个人在同一画面中,完成整支舞蹈。


但在单主体的表现上,这一条舞蹈的效果可以用“几乎完美”来形容:动作复刻的节奏、幅度和重心变化都高度贴合参考视频,朱迪的形象在大幅运动中也保持了很好的稳定性,没有出现明显的脸部崩坏或身体扭曲,耳朵、尾巴这类拟人动物的特征在动作里也被自然保留了下来。

在这个基础上,我们又给这支舞蹈上了一道“风格滤镜”,把整段视频重绘成像素游戏风。

这一次,可灵O1也比较顺利地完成了任务。

如果把前面的警局夜景、办公室开场和这支像素风舞蹈拼在一起,就已经是一支很完整的“疯狂动物城番外小短片”了。

这次围绕疯狂动物城的完整体验下来,我对可灵O1的直观感受是:它把原来散落在不同工具里的事情,组合成了一条相对顺畅的工作流。

从主页点进O1开始,建主体、调图、文生视频、参考视频、用嘴改画面、加音效、做动作迁移、改风格,一路下来基本都在同一个对话界面里完成。

对创作者来说,这种“一应俱全”的状态,意味着试错成本被显著压低了,你可以沿着同一个故事线往前推,不用频繁切换不同产品和插件。

但同样明显的是,只要讲到具体镜头和具体元素,可灵O1目前还没到“想什么就一定能还原什么”的程度。在这些细节上,它更多是在给出一个可用的草稿,而不是直接替代专业后期。

朝这个方向继续迭代下去,当角色一致性、局部编辑和镜头逻辑再继续精进,或许有望实现:从一句话到一支能直接上线的短片。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。