京东开源JoyAI-Echo长音视频生成框架

IP属地中国·北京 编辑：郑浩凤凰网科技 时间：2026-06-04 08:09:40

6月3日，京东推出JoyAI-Echo长音视频生成框架。该框架直接解决了行业长期存在的“长视频生成三大难题”——角色易崩、声音乱变、生成缓慢，并实现了对话式编辑功能。京东方面表示，这标志着其在长视频生成领域进入全球第一梯队。
该框架包含四项核心技术创新。一是跨模态音视频记忆库，能在多镜头生成过程中持续保存并调用角色的外观特征和说话人音色信息，在长达5分钟的视频中也能保持身份、形象与声音的高度一致。二是记忆驱动后训练，结合SFT、跨模态RLHF和DMD等技术，仅DMD一项就实现了约7.5倍的推理加速。三是Director Agent智能导演助理，用户用自然语言提出需求，系统自动拆分成剧本、角色和镜头，局部修改无需重跑整条视频。四是轻量化实时超分模块，支持两档分辨率提升，保障高清输出不卡顿。
为评估性能，研究团队基于100个故事、3000个镜头构建了专门评测集。实测显示，JoyAI-Echo在跨镜头一致性、视频质量、文本一致性等核心指标上均领先，其中语音内容准确率高达0.8646。在用户偏好调研中，81.7%的用户认为其音频质量更优，80.6%认为提示词遵循度更高，63.6%认为视觉美学更佳。
目前，JoyAI-Echo的代码与权重已全部开源，项目页和GitHub代码仓库已正式上线，供开发者和创作者体验及二次开发。该框架可广泛应用于虚拟故事创作、数字人直播、品牌营销视频制作及影视前期预演等多个场景。

标签：视频框架镜头角色 音视频 京东开源 一致性 质量声音代码用户文本核心高达 分辨率 方面语音内容剧本视觉音色美学编辑功能领先团队长达特征全部形象模块指

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

长鑫订单排到2027年底，美国议员却要求美企禁用

华为Mate XT2外观渲染图提前剧透：首创U型三折叠内屏双屏加持

印度民营航天新突破：首枚自研轨道火箭维克拉姆-1号发射成功

全球十大晶圆厂中国占3席！日媒感叹：成熟芯片赛道被中企卷翻了

股价大跌！美国EDA巨头天塌了：中国AI模型48小时跑通芯片设计

展会当保安、流水线搬砖！WAIC展示机器人“就业潮”全景

全站最新

长鑫订单排到2027年底，美国议员却要求美企禁用

华为Mate XT2外观渲染图提前剧透：首创U型三折叠内屏双屏加持

印度民营航天新突破：首枚自研轨道火箭维克拉姆-1号发射成功

全球十大晶圆厂中国占3席！日媒感叹：成熟芯片赛道被中企卷翻了

热门推荐

长鑫订单排到2027年底，美国议员却要求美企禁用

华为Mate XT2外观渲染图提前剧透：首创U型三折叠内屏双屏加持

印度民营航天新突破：首枚自研轨道火箭维克拉姆-1号发射成功

全球十大晶圆厂中国占3席！日媒感叹：成熟芯片赛道被中企卷翻了

股价大跌！美国EDA巨头天塌了：中国AI模型48小时跑通芯片设计

展会当保安、流水线搬砖！WAIC展示机器人“就业潮”全景

三星美国子公司总部搬迁在即，将在新泽西州裁员739人

作家埃格斯批评ChatGPT正夺走一代人的表达能力

马斯克：Grok 4.6训练进入最后阶段，2万亿参数模型下周完成初步训练

苹果二季度中国出货量逆势大涨！iPhone 17系列销量突破3776万台

三星Galaxy Watch 9官方宣发图曝光，核心配置健康功能揭晓

广汽埃安S网约车15万公里后现电池故障！中创新航发声兜底：车主可免费维修电池

飞机遇到颠簸时安全带指示灯总是“亮得太晚”？AI正改变这一切

这，可能是今年WAIC最惊艳的图片！

小米获首批《人工智能终端智能化分级》系列国家标准L3评级证书