用短视频成本生成长视频，字节Seed新注意力机制让计算量降低85%

IP属地中国·北京 编辑：顾雨柔量子位 时间：2025-09-02 14:12:36

克雷西发自凹非寺
量子位 | 公众号 QbitAI
生成分钟级的长视频，只需要和短视频相当的成本？
字节Seed与斯坦福等机构的研究人员一起推出的新模型，能让长视频生成的计算量降低85%。
而且质量不减，还能够保持人物和场景的连贯性。
请看VCR：
团队认为，长视频生成本质上是一个长上下文记忆问题，将视频生成重新定义成了上下文检索任务。
为此，团队提出了一种新的稀疏注意力机制——Mixture of Contexts（MoC）——作为有效的长期记忆检索引擎。
低成本生成分钟级视频
先来看用这项技术生成的长视频效果。
首先是写实场景，这段视频长度56秒，展示的是一老一少两个男人坐在咖啡馆中交谈的场景。
从中可以看出，两个人的外貌和衣着特征在经过多次视角切换之后依然保持一致，桌子上的咖啡也是如此。
换成卡通场景，也能在长达一分半的时间之内保持前后一致性。
关键是，生成这样长时间一致的视频成本，被MoC打下了一个数量级。
使用MoC机制生成一分钟的480P视频，仅需消耗2.32×10¹²FLOPs的计算量，而基线模型需要1.66×10¹³FLOPs，MoC将计算量削减了85%。
对于短片来说，MoC也同样能实现降本效果。
多镜头64秒（8×8秒）的480P视频中，基线为1.7×10¹³FLOPs，而MoC只用2.3×10¹²FLOPs，同样节省约86%。
并且主题一致性、背景一致性、动作连贯性、图像质量等性能指标全都优于基线模型。
单镜头8秒的320×192短片测试里，基线1.9×10¹⁰FLOPs，MoC为4.1×10⁹FLOPs，计算量减少约78%。
那么，MoC方法是如何实现的呢？
将长视频生成重构为信息检索
作者认为，长视频生成主要是受制于跨时域记忆的高效调取，为突破这一瓶颈，他们提出了名为Mixture of Contexts（MoC）的稀疏上下文检索层，将生成过程重构为一次内部信息检索。
而MoC的核心机制，是，具体来说，先把跨模态序列切成语义同质的内容块，然后让每个查询token只与最相关的少数块建立注意力连接。
这一系列操作不改变扩散Transformer主干，仅以稀疏检索的方式把计算集中在真正重要的历史。
“可训练稀疏路由”
MoC的第一步是“内容对齐分块”——论文指出视频序列在三维时空上高度非均匀，如果简单按固定长度滑窗切片，会把远隔的场景混入同一窗口，导致均值池化后的块描述符失去判别力。
因此，作者依据帧、镜头、模态边界动态切块，让每个块在三维位置上局部且语义一致，从源头上提高了检索精度，也避免了无谓的计算浪费。
随后进入“动态top-k路由”，对于每个查询qi，模型用均值池化得到的块描述符计算点积相似度，只保留得分最高的k个块参与注意力，再把必选锚点加入掩码中。
这一步完全无参数，却在反向传播中通过梯度调节投影矩阵，使查询与块描述符不断自适应，最终把简单的“均值+top-k”训练成高表达力的检索器。
为了防止提示漂移和局部模糊，作者在路由前硬性加入两类强制边：

其一是“跨模态”链接，保证所有视觉token始终可访问完整文本提示，维系主题一致且强化可编辑性；

其二是“镜头内”链接，使每个token至少关注自身镜头范围内的块，既为稀疏图提供稳定下界，又让稀疏预算真正用于跨镜头长依赖。
另外，稀疏图本身易形成闭环，造成信息滞留。作者通过在路由阶段加入严格时间掩码，禁止任何查询访问自己或之后的块，把整个图约束为DAG，从结构上杜绝循环并显著提升长程动态平滑性与训练稳定性。
除了机制本身，在工程实现方面，MoC回把选中的键值一次性打包进FlashAttention可变长核，实现对数千万token的线性伸缩且访存连续，在GPU上可充分并行。
论文地址：
https://arxiv.org/abs/2508.21058
项目主页：
https://primecai.github.io/moc/

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

用消费数据指引品质选购京东健康联合京东金榜发布2025年度三大品类金榜

新里程碑！特斯拉上海超级工厂第400万辆整车下线

曦华赴港，押宝端侧AI

人民大学破解检索难题：让AI同时理解文字和图片的"混合内容"

余凯率地平线狂飙，智驾攻入10万级，征程7打破摩尔定律

摩托罗拉Moto Tag 2蓝牙追踪器曝光，有望支持UWB、IP67防水

全站最新

用消费数据指引品质选购京东健康联合京东金榜发布2025年度三大品类金榜

新里程碑！特斯拉上海超级工厂第400万辆整车下线

曦华赴港，押宝端侧AI

人民大学破解检索难题：让AI同时理解文字和图片的"混合内容"

热门推荐

用消费数据指引品质选购京东健康联合京东金榜发布2025年度三大品类金榜

新里程碑！特斯拉上海超级工厂第400万辆整车下线

曦华赴港，押宝端侧AI

人民大学破解检索难题：让AI同时理解文字和图片的"混合内容"

余凯率地平线狂飙，智驾攻入10万级，征程7打破摩尔定律

摩托罗拉Moto Tag 2蓝牙追踪器曝光，有望支持UWB、IP67防水

波音完成对势必锐航空系统的收购，涵盖737机身生产等业务

Adobe公司推出RELIC：游戏引擎实现20秒长时记忆

浇花、捡垃圾、玩越野，13支赛队香港比拼机器人“无遥操”

港科大突破：AI大模型发掘自主数学推理能力

UC伯克利团队揭示：聊天机器人友好对话暗藏风险信号

侯毅三度创业再战生鲜，亲自充当专业买手！直播间开播，赛道早已是“红海”…

停建！230多个环保组织集体施压，“美国AI产业再遭打击”

KAIST突破：AI绘画实现提示词迭代优化

字节跳动揭示多模态大模型的"工具使用"革命