我用可灵O1，做了一支疯狂动物城番外

IP属地中国·北京 智东西 时间：2025-12-03 18:22:38

AI应用风向标（公众号：ZhidxcomAI）
作者｜江宇
编辑｜漠影
智东西12月3日报道，近日，可灵AI视频上线了全新的O1模型，把参考生视频、文生视频、图生视频、视频编辑、动作迁移等能力收进了同一个统一多模态模型里。
我们尝试的第一件事，就是拿它来拍一支“疯狂动物城番外”。
整套流程从“在可灵里重建尼克和朱迪”，到搭建警局场景、编辑视频、最后让朱迪跳了一段像素风网络神曲，中间遇到的每一个细节问题，都还很典型的：既能看到统一多模态的便利，也能看到现在AI视频在精细编辑上的边界。
不妨先来看看最终成片，具体过程我们稍后拆解。

一、在可灵O1里重建尼克和朱迪
进入可灵AI主页，左侧工具栏最上方就是可灵O1的新模式，在同一个对话框里就可以选择图片生成或视频生成。在生成区的下方，有一个“参考”模块，分为“图片”和“主体”两种方式。

同时，主体既可以调用主体库，也支持自建，而官方主体库的覆盖范围比我预想得要丰富。

人物栏里，直接给了鲁迅和林黛玉的影视形象，动物则有这两年在网上很火的安卓猫、水豚、香蕉猫等。继续翻，主体还延伸到了道具、服饰、场景和特效，基本把一支视频里会需要用到的主要元素，都整理成了可复用的素材。
我这次的主角不是官方主体，而是自建的尼克和朱迪。在“我的主体”里，我上传了两位的图片，分别新建了两个主体。
可灵O1有一个专门用来保证角色一致性的设计：主体必须由多张图片共同构建。
创建时，系统会要求用户至少提供一张主参考图和一张其他视角图，希望用户把角色的正侧面、近景远景都喂进去。我给尼克上传了4张图，其中1张是主参考，其余是不同视角。

标签部分我选择了“动物”，然后在主体描述栏点了一下“智能描述”，系统自动生成了一小段关于“狐尼克”的文字说明，补充了毛色、服饰等细节。

随后我用同样的方式给朱迪建了一个主体。

这一步做完之后，等于是在可灵O1里“重建”了影视版狐尼克和朱迪，后面无论是图还是视频，都可以直接调用这两个主体，保证角色的基础风格统一。
二、从图片到开场镜头，搭出疯狂动物城夜班警局
有了主体之后，我先用图片O1模式试了一轮静态图，让尼克和朱迪先“落地”到典型场景里，我选的场景是动物城的警局办公室。

警局的第一张效果非常理想：尼克和朱迪的角色一致性很好，比例、服饰和神态都在预期之内，场景画风也统一在动画电影版的“疯狂动物城”世界观之中。

问题出在第二张图上。在这张图里，警局背景里出现了很多“长得像朱迪的警员”，背景人物的脸和朱迪近似度过高，画面里出现了一排几乎同款的兔子脸，视觉上有点诡异。
此外，尼克后方的一张办公桌上，两台电脑紧贴摆放在一起，也不大符合日常使用场景，看起来像“复制粘贴”出来的。

我们尝试使用局部重绘功能，把背景里部分警官替换成其他小动物形象，希望能打破“同脸军团”的违和感。

▲局部重绘后的效果
但在这种细节程度的编辑下，模型还是很难精准地对某一个角色做局部替换。
在静态图大致跑通之后，我们决定用第一张警局图片作为故事开场的基调：先用O1生成一个夜晚的疯狂动物城城市远景镜头，再拉近到警局门口，最后落到尼克和朱迪同框出现，组成一个完整的视频开场片段。

这条视频在整体故事感上完成度很高：夜景街道、警局门口、内部办公室和主角同框的逻辑是对得上的。但细节层面，依然能看到一些“不对劲”的地方。比如部分警员的电脑是面朝观众摆放，而不是面朝警员自己。
另外，在警局背景中，有个别角色的脸直接变成了一团“乱码”，轮廓在，但五官细节糊成了一块。
三、从画面到声音，用“智能音效”为动物城配上BGM
在视频生成完成后，可灵O1的进度条下方会出现两个附加功能，一个是对口型，一个是音效。

对口型功能有一个前提条件：需要画面中存在稳定、持续可见的人脸，而且这个人脸要始终保持在画幅之内。
这个设定更适合真人、写实风格的片子，而我们这支疯狂动物城的风格偏动画和多角色，所以这次没有体验对口型这一功能。
音效功能则是这次体验里一个比较“惊喜”的点。我们只是在视频生成完成后点击了“音效”按钮，就进入了一个新的界面。

这一块的交互逻辑有点像“AI版音效素材库和智能拟音师”：一方面你可以直接在多种推荐风格中选择自己喜欢的音效基调；另一方面，可灵会先分析视频内容，自动生成一段“音效创意描述”的指令。

智能音效的优势，则在于它能和画面产生一些“预判式的配合”。
比如在这条警局开场视频里，有一个明显的开门动作，音效会主动把金属门被推开的声音放进去，和画面同步，加上远处的环境声，整体的空间感比单纯的BGM要完整得多。
从这个阶段开始，画面和声音才真正拼成了一段“完整的开场镜头”。
四、用“嘴改视频”，在警局门口加一块胡萝卜饮料广告牌
有了一个可用的开场画面之后，我开始尝试O1“擅长的编辑操作”，用自然语言去调镜头、改细节。
先是增加元素。我们给模型下的指令是：在疯狂动物城警局门口添加一块电子广告牌，播放胡萝卜饮料的广告。

视频生成后，广告牌本身融入得比较自然，亮度、位置和整体画风都对得上，确实像警局门口墙面的一部分。
但如果只看画面，很难一下子认出这是“胡萝卜饮料”，胡萝卜元素本身的视觉特征表现得不够清晰，更像是一块普通饮料广告灯牌。

然后是删改元素。我在同一段警局画面里，尝试让模型“只保留尼克和朱迪，删掉其他路人和警员”。最终的结果是：确实删掉了大部分背景角色，但系统还是保留了一位靠近主角团最近的警员。
可灵O1目前还没有掌握逐帧、逐人可控的能力。
再往下，我们尝试对镜头本身做一些调整。
街景部分，我们把镜头拉得更远一些，变成可以俯瞰整个动物城的全景，远处有不同种类的小动物在城市里活动。警局内部，则要求更多一些近景和特写，把尼克、朱迪和办公区域的细节交代得更清楚。
在这些指令下，O1可以按照“远景、近景”的逻辑重新生成镜头。同时，我们也会发现一个明显的问题：镜头之间的切换节奏和元素添加偏“死板”，镜头并不流畅，也没有初版视频的活灵活现。

五、让朱迪跳舞，再把她变成像素游戏角色
在场景和细节编辑之后，我们开始尝试可灵O1的动作参考能力：用一段网络舞蹈视频，驱动尼克和朱迪跳舞。
这次我们选了一段很火的网络舞蹈，把它作为动作参考，希望让尼克和朱迪两人同步跳同一支舞。

实际体验下来，目前O1在多主体同步动作上还没有完全放开：经过几轮调参和不同指令尝试，我们始终只能稳定地生成“朱迪独舞”的版本，没办法让尼克和朱迪两个人在同一画面中，完成整支舞蹈。

但在单主体的表现上，这一条舞蹈的效果可以用“几乎完美”来形容：动作复刻的节奏、幅度和重心变化都高度贴合参考视频，朱迪的形象在大幅运动中也保持了很好的稳定性，没有出现明显的脸部崩坏或身体扭曲，耳朵、尾巴这类拟人动物的特征在动作里也被自然保留了下来。
在这个基础上，我们又给这支舞蹈上了一道“风格滤镜”，把整段视频重绘成像素游戏风。
这一次，可灵O1也比较顺利地完成了任务。
如果把前面的警局夜景、办公室开场和这支像素风舞蹈拼在一起，就已经是一支很完整的“疯狂动物城番外小短片”了。
这次围绕疯狂动物城的完整体验下来，我对可灵O1的直观感受是：它把原来散落在不同工具里的事情，组合成了一条相对顺畅的工作流。
从主页点进O1开始，建主体、调图、文生视频、参考视频、用嘴改画面、加音效、做动作迁移、改风格，一路下来基本都在同一个对话界面里完成。
对创作者来说，这种“一应俱全”的状态，意味着试错成本被显著压低了，你可以沿着同一个故事线往前推，不用频繁切换不同产品和插件。
但同样明显的是，只要讲到具体镜头和具体元素，可灵O1目前还没到“想什么就一定能还原什么”的程度。在这些细节上，它更多是在给出一个可用的草稿，而不是直接替代专业后期。
朝这个方向继续迭代下去，当角色一致性、局部编辑和镜头逻辑再继续精进，或许有望实现：从一句话到一支能直接上线的短片。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

联想YOGA Air 14新增英特尔酷睿Ultra 5 228V版本，7999元

科技周报｜阿里平头哥上线自研AI芯片；亚马逊开启新一轮裁员

布米普特拉北京投资基金管理有限公司：亚马逊或重注OpenAI 人工智能竞赛格局生变

从加挂牌子到单列机构，长三角AI治理为何需要“专属管家”？

雷军回应小米汽车交付量环比下降：Q1是传统淡季，以YU7交付为主

雷军：下一辆车要买新一代小米SU7，目前常开影青色YU7

全站最新

联想YOGA Air 14新增英特尔酷睿Ultra 5 228V版本，7999元

科技周报｜阿里平头哥上线自研AI芯片；亚马逊开启新一轮裁员

布米普特拉北京投资基金管理有限公司：亚马逊或重注OpenAI 人工智能竞赛格局生变

从加挂牌子到单列机构，长三角AI治理为何需要“专属管家”？

热门推荐

联想YOGA Air 14新增英特尔酷睿Ultra 5 228V版本，7999元

科技周报｜阿里平头哥上线自研AI芯片；亚马逊开启新一轮裁员

布米普特拉北京投资基金管理有限公司：亚马逊或重注OpenAI 人工智能竞赛格局生变

从加挂牌子到单列机构，长三角AI治理为何需要“专属管家”？

雷军回应小米汽车交付量环比下降：Q1是传统淡季，以YU7交付为主

说法丨规范二手交易打通流通堵点

说法丨规范二手交易打通流通堵点

雷军：下一辆车要买新一代小米SU7，目前常开影青色YU7

NVIDIA发福利：突袭发售原价RTX 50公版卡！几分钟即被秒光

腾讯元宝10亿红包刷爆朋友圈，已有19人抽到万元小马卡

1月新势力销冠之争：问界千辆优势险胜小米

直播电商常态化监管需紧抓重点

AI数据中心致美国天然气发电大增，全球温室气体排放或破纪录

H200松绑无人在意，国产芯片接棒主力

国内首个！东南大学发布混凝土材料垂类大模型，南京北站已应用