
编辑|泽南、杨文
AI 视频生成,卡在长视频这道坎上太久了。
过去一年,视频生成赛道动作频频。谷歌推出 Veo 系列,并在今年 I/O 大会发布新一代多模态视频生成与编辑模型 Gemini Omni Flash;字节的 Seedance2.0、快手可灵、阿里的欢乐马也一次又一次,打破了我们的预期。
各家模型生成的画面一个比一个好看,只可惜时长大多不超过 20 秒。一旦把视频拉长到分钟级,麻烦就来了,要么是同一角色跨镜头后面目全非,要么是说着说着声音变了或没了;想改一个镜头,整条视频还得重新生成……
正因如此,AI 长视频难以真正进入专业内容生产的工作流。
最近,一项开源的新技术却向我们展示了一幅完全不同的图景。
先来看个 case。
自动播放
注:本视频内容仅供学术研究与技术测评目的使用,不用于任何商业用途。
皮克斯风格的 3D 质感还原得相当到位,动画细节处理也不含糊。
关键是,两分半钟里涵盖十余个镜头,近景对话、远景追逐、公路全景交替出现,场景间过渡处理得很顺滑,且角色形象能始终保持一致,音画也同步自然。这全都是一次性生成的。
这个视频,正是出自京东近期开源的长音视频生成框架 JoyAI-Echo。
相较于市面上其他视频模型,JoyAI-Echo 有三大亮点。
它能够实现长达五分钟的跨镜头「音视频双重一致」,保证角色的面部特征和说话音色不变。
同时告别了过去「改一个镜头要重跑整条视频」的盲盒式生成,我们可以直接通过自然语言指挥 AI 进行局部修改,实现非线性剪辑与局部重绘。
此外,它支持流式延迟约束下的两档实时超分,最高可直接输出 1472×2560 分辨率的高清视频与精细化音频,满足专业级内容生产门槛。
目前,该模型的代码和权重文件均已公开,可免费下载使用。
GitHub:https://github.com/jd-opensource/JoyAI-Echo
项目主页:https://echo-team-joy-future-academy-jd.github.io/Echo-LongVideo-Page/
视频创作,不用抽卡了?
JoyAI-Echo 还跑出了一大堆视频,个个超过两分钟,自带配音。
自动播放
本视频内容仅供学术研究与技术测评目的使用,不用于任何商业用途。
从视频中我们可以看到, 模型精准还原了黑暗写实的哥谭氛围,蝙蝠侠从雨中屋顶的特写对话,到俯冲跳跃、巷战、摩托追逐和仓库对峙,场景频繁切换,但角色外形、服装和环境风格始终统一,没有出现常见的风格漂移。
湿滑地面和动态模糊效果的处理,增强了动作戏的真实张力,雨声、脚步声、引擎轰鸣与对话也各占其位。
自动播放
这类 vlog 视频,难点在于真实感。
穿牛仔的年轻男子出现在各种场景自拍,开场手持自拍杆的自然晃动与行走步伐匹配自然,动作流畅,后续画面加入不同出镜者也没有穿帮。
151 秒的视频画面中,男子面部轮廓、发型、表情与服装纹理保持高度一致,车辆、行人和室内陈设等环境元素在不同视角间也过渡自然。
自动播放
前几段生成视频还靠场景和动作撑起视觉张力,而这段视频比的是细腻度。
画面中的人物发丝、毛衣质感和环境光影都很真实自然,女生肢体姿态也流畅。
不过,在快速切镜时,背景细节偶有轻微不一致,但不影响整体观感。
这样的表现,已经把 AI 视频生成从 demo 和搞笑视频生成器推向了工业级生产工具的范畴。
过往的视频生成技术受限于严重的时空上下文遗忘和错误累积,很难用到故事创作、数字人助手或实时内容生成等实际场景中。而 JoyAI-Echo 展现出的跨镜头「音画双重一致性」,证明了 AI 已经具备在长时序、复杂多视角下处理长篇角色驱动型叙事的能力,让 AI 真正有了讲好一个完整长故事的可能。
JoyAI-Echo 也重塑了创作者与 AI 之间的协作范式。由于能直接输出具备语义意义和高准确率的台词对话,视频创作告别了「输入 Prompt、拼运气抽卡」的被动模式,在智能体和局部重绘机制的辅助下,视频生成演进成了人机动态协作的非线性剪辑的范式。
创作者现在不需要再为某一个穿帮镜头而将整条长视频推倒重来,极大地降低了改稿成本,AI 能够无缝地嵌入到影视前期预演和动态分镜的工作流中。
那么 JoyAI-Echo 是如何做到的?
如何攻克长视频生成难题?
从技术报告中我们可以看出,JoyAI-Echo 在底层架构、数据清洗、多模态对齐及推理加速上有不少创新之处。
该框架通过两层互补的技术矩阵,攻克了长视频生成中长时一致性、高渲染延迟和低交互灵活性的行业难题。
百万级「身份向心型」语料,从源头解决变脸
过去,大模型拍视频容易翻车,很大程度上是被喂进嘴里的数据给误导了。传统 AI 视频训练高度依赖优化单镜头质量的平铺式数据集,这就导致模型只学过短时间内画面怎么画才好看,但没有理解过同一个角色在不同时空、不同光影和服装下的视觉连贯性。
为此,JoyAI-Echo 构建了一套全新的身份向心型视频语料库(Identity-Centric Video Corpus),该流水线从电影、电视剧和长网页视频中,精准提取出了超过 100 万个独特的角色身份原型,再经过全局原型与时空去重,多轴质量过滤与流追踪,紧凑型音视频联合标注,为模型生成内容的一致性提供了保障。
「槽位配对」记忆机制,给面部和声音上双保险
在模型架构上,JoyAI-Echo 放弃了直接的端到端生成,转而采用基于渐进演化记忆库(Evolving Memory Bank)的迭代分镜合成机制。其核心技术在于设计了「槽位配对(Slot-Paired)」音视频记忆交互机制。

槽位配对视听记忆交互机制概览。
它相当于给每个角色的脸和声音进行了直接绑定。其中,每一个历史事件都包含对齐的视觉和音频记忆标记。在生成阶段,目标视频和音频标记由两个扩散分支进行处理,而记忆标记仅作为条件上下文使用,不参与损失计算。在音频分支中,「音频 - 记忆」自注意力掩码控制着目标音频标记与音频记忆标记之间特定层级的交互。
在跨模态模块中的「槽位感知」跨注意力掩码,强制实现了配对的视觉与音频记忆槽位之间的一一对应交互,从而防止了跨事件的人脸与声音混淆。
由此,该模型在仅预测当前视频和音频目标的同时,依然能够保持长程的视觉身份一致性及说话人音色的一致性。
后训练体系:嘴型对得准,推理快 7.5 倍
为使底层架构释放最大潜力,研究团队设计了一套由浅入深的后训练体系。
长上下文损失重定向与梯度放大(控口型):由于长上下文会让语音驱动面部变得更困难,在基础训练阶段,视频损失权重会根据当前的记忆槽位长度进行动态调大,防止口型同步退化。同时,音频到视频的交叉模态梯度在 forward 不变的前提下被放大(二阶段放大至 6 倍),显著强化台词对嘴型的控制力。
多分辨率渐进式 SFT(提画质):将单镜头高清样本与概率性采样的多镜头语料融合 fine-tune。采用 480p 到 720p 渐进式分辨率调度,在增强单镜头与长视频画面质感的同时,完美继承了多镜头一致性能力。
OmniNFT 跨模态对齐强化(RLHF 对齐):针对多模态强化学习中「音画奖励不一致」、「视频梯度污染浅层音频网络」以及「对齐贡献度分配不均」三大瓶颈,JoyAI-Echo 引入了 OmniNFT 框架。它实现了模态特异性优势路由(独立分发视觉、音频、同步奖励)、层级梯度手术(在浅层音频网络断开视觉梯度,在深层保留交互),并利用视听交叉注意力图谱作为内在代理,对发声关键区域实施局部损失重绘。
双向与因果 DMD 蒸馏(加速):为了彻底甩掉生成步骤冗长的硬件包袱,团队采用分布匹配蒸馏(DMD)将多步双向生成器压缩为 8 步学生模型,且在训练期间平衡视听损失系数,通过 EMA 优化器动量缓冲平滑音频 gradient 噪声。值得关注的是,DMD 训练中加入了记忆输入降级模拟(Degradation),故意模拟长序列滚出时自生成历史产生的漂移,使模型对误差累积具备极强的鲁棒性。该架构还能自然延伸至块状因果流式生成(Causal Streaming Generation),实现从全上下文去噪到因果流式生成的无缝过渡。
在生成模型之上,JoyAI-Echo 又加入了两个让工业落地成为可能的模块。
智能导演智能体(Director Agent)传统的视频工具是「一次性输入、盲盒式抽卡」。而该智能体引入了「工具与技能抽象」工作空间,能把用户的模糊需求自动细化为包含角色卡、场景卡、分镜时长的结构化剧本。它利用 KOK(关键镜头的关键帧)策略提取动态记忆条目。创作者如果对某个镜头不满意,只需用大白话在评审阶段提出修改意见,智能体就会自动定位并针对该镜头进行局部重绘和记忆更新,整条长视频无需重新生成。

导演智能体(Director Agent)工作流概览。该智能体将长篇视频的生成过程划分为规划、生成和评审三个阶段,支持利用局部反馈进行非线性修改,再通过单步超分网络进行高画质输出。
联合单步超分架构(Unified One-Step SR)则将空间放大的算力包袱从自回归流程中彻底解耦。依托超 87 万顶级视听语料,自研了 CondSRPatchifyProj 轻量级模块。它仅需单个扩散流前向步骤,就能将 720p 潜在空间直接扩展至 1152×1920(1K) 或 1472×2560(2K)的高清视听 Token 空间,在维持流式极低延迟的同时,大幅拉高了成片的细节美学。
通过在包含 100 个剧本故事、3000 个顺序镜头(跨动漫、写实风格、含指定 IP 与原创角色)的超长生成基准评测集上进行测试,JoyAI-Echo 的各项指标均位列前茅:

可见,JoyAI-Echo 在视听一致性方面保持领先,台词准确率达到了 0.8646,在最后成片的盲测偏好与短视频能力上都非常优秀。
结语
JoyAI-Echo 的出现像是一个信号:长视频生成,终于从「能用」迈向了「好用」。
在此之前,AI 长视频生成的瓶颈,一直卡在时间维度上的连贯性,也就是一个角色能不能在五分钟里始终是同一张脸、同一把声音,一段内容能不能像真实拍摄那样经得起反复打磨和局部修改。这些问题,决定了 AI 视频能否真正进入专业内容生产的工作流,还是继续停留在演示层面。
JoyAI-Echo 用跨模态记忆库、记忆驱动后训练和 Director Agent 三套机制,给出了解决方案。
更值得关注的是开源这个选择。代码与权重的全量开放,意味着这套解决方案不会锁死在某一家公司的产品边界里。开发者可以在此基础上针对垂直行业进行二次开发,内容创作者可以将其接入自己的工具链,研究社区可以在公开的技术底座上继续推进。这种开放本身,往往比模型本身更具长远价值,它把一项技术突破,变成了整个产业可以共同搭建的基础设施。
从谷歌、字节、快手到阿里、京东,视频生成赛道的竞争从未停止,拼完画质拼时长,拼完时长拼一致性,下一站,很可能是谁能先把人机协作式创作这件事做通。
JoyAI-Echo 的 Director Agent,正是在这个方向上迈出的一步。当我们可以用对话的方式指挥 AI 修改某一个镜头,视频创作的门槛就不再是工具的使用难度,考验的是创作者自己的想象力。
AI 长视频时代,这次是来真的了。