QVGen让「超低比特视频生成量化」真正可用！

IP属地中国·北京 机器之心Pro 时间：2026-02-25 18:23:30

视频生成扩散模型越做越大：2B、5B、14B…… 效果提升很快，但训练与推理的成本也随之飙升。社区一直希望用量化把模型 “压小”，把显存和算力成本打下来，真正落到更多卡、更便宜的机器、更多真实应用中。可现实很残酷：一到 3/4 bit，视频生成的量化感知训练（QAT）往往比图像更难训、更不稳定，质量掉得更狠 —— 不是 “略降一点”，而是直接不可用。

图表 1 在 CogVideoX-2B 模型上 4-bit 逐通道权重量化与逐 token 激活量化的效果对比。（a）原始模型；（b）该论文所提出方案；（c-e）已有的量化感知训练方案；（f）已有的后训练量化方案。
香港科技大学 & 北航 & 商汤等提出了一个专门面向视频生成扩散模型的 QAT 范式 ——QVGen，在 3-bit / 4-bit 都能把质量拉回来，并且让 4-bit 首次接近全精度表现成为现实。该论文现已被 ICLR 高分接收：rebuttal 前 88666（top 1.4%），rebuttal 后 88886 （top 0.5%）。

论文地址：https://arxiv.org/pdf/2505.11497代码地址：https://github.com/ModelTC/QVGen模型地址：https://huggingface.co/collections/Harahan/qvgen

图表 2 QVGen 论文框架图。
为什么视频扩散模型一量化就容易 “崩”？
QVGen 的切入点很直接：视频生成的 QAT 并不是把图像扩散的配方照搬过来就行。作者在论文里给了一个关键观察（见图表 3）：在相近规模、相似训练设置下，视频扩散模型的梯度范数明显更大，这会让优化过程更不稳定，最终导致低比特训练难以收敛、生成质量难以维持。
换句话说，如果不先解决 “训练不稳” 这个根因，只靠常见量化技巧做修补，视频生成很难真正落地。

图表 3 第一行为已有方案（蓝色）与论文方案（黄色）在量化感知训练中的梯度范数比较；第二行为损失比较。左右分别为 CogVideoX-2B 和 Wan 1.3B 模型上的可视化。
QVGen 做对了什么：先把训练救稳，再把推理成本 “还回去”

QVGen 的核心思路是 “训练期做增强、推理期不背包袱”，它把一个看似矛盾的目标拆成了两步来解决（见图表 2）。
第一步，训练阶段引入一个辅助模块 Φ。这个模块不是为了让推理更重，而是为了在低比特条件下降低梯度范数、提升训练稳定性，让 3/4-bit 的 QAT 先 “训得动、训得好”。此外，除了图表 3 中的实验论证，在论文中还提供了详细的理论证明。
第二步，训练过程中逐步移除 Φ，让最终推理阶段不再依赖这个模块。作者的观察是：随着训练推进，Φ 的参数里会逐渐出现越来越多 “贡献很小” 的成分。于是论文设计了 rank-decay：反复做分解，识别低影响的分量，并用基于秩的正则把这些分量逐步衰减到 0，直到 Φ 被完全消掉。最终效果是：推理阶段几乎不增加额外开销，但训练阶段又能获得稳定性红利。
结果有多硬：4-bit 接近全精度，3-bit 也把指标拉回 “可用区间”

在主实验中，QVGen 在 W4A4/W3A3 的设置下对比了多类量化方法。论文给出的结论很清晰：很多方法在 4-bit 下仍有明显退化，到了 3-bit 更加明显；QVGen 在 3-bit 能大幅恢复质量，在 4-bit 则可以做到接近全精度（见图表 4）。
更关键的是，它不只在小模型上有效。论文还展示了在更大的视频生成模型上（例如 5B、14B 级别，以及更高分辨率设置），4-bit 仍能保持接近全精度的总体水平（见图表 5-6）。
该论文同时给出了大量定性样例证明 “不是只在指标上好看” （见图表 7-8）。

图表 4 对于 Wan 1.3B 和 CogVideoX-2B 模型，QVGen 与已有方案在 VBench 上的性能比较。

图表 5 QVGen 在 Wan 14B 和 CogVideoX-5B 模型上的 VBench 结果。

图表 6 QVGen 在 Wan 14B 和 CogVideoX-5B 模型上的 VBench-2.0 结果。

图表 7 QVGen 与已有方案在 Wan 1.3B 上的可视化结果对比。

图表 8 QVGen 在 Wan 14B 上的可视化结果。
不只是省显存：它能带来真实加速，还能和其他加速方法叠加

对部署来说，低比特的直接好处是显存下降。论文报告量化后能够带来大幅的内存节省（例如 4× 级别的压缩量级），从而让同样的模型更容易跑在更小的卡上，或者把 batch、分辨率等配置拉高。
更实际的一点是：QVGen 使用标准的均匀量化思路，意味着它可以更容易对接现有的 W4A4 推理内核。论文也强调它和其他视频生成加速方向是正交的：例如与某些 3D attention 加速方案叠加后，推理速度还能进一步提升（见图表 9）。

图表 9 （左）模型大小对比；（中）模型加速对比；（右）与 attention 加速方案结合后加速对比。其中蓝色代表 Wan 1.3B 模型，黄色代表 Wan 14B 模型。
训练成本会不会更高？论文给出的答案是 “几乎不多花”
很多读者会担心：训练期加了 Φ、还要做 rank-decay，会不会导致训练成本暴涨？论文做了训练效率分析，结论是：相对一些蒸馏式 QAT 基线，QVGen 的额外训练开销很小（例如 GPU-days、峰值显存几乎不变的量级），但在最终生成质量上仍能拉开明显差距（见图表 10）。

图表 10 QVGen 与已有方法的训练时间和训练显存开销对比。
总结：视频扩散也能 4bit 接近满血，先稳训练再轻推理！

当下视频生成扩散模型越来越大，但 3/4-bit 量化一落到视频上，常见问题是：QAT 训练不稳定、收敛困难、画质明显下滑。QVGen 的核心判断很直接：视频低比特量化的关键不只是 “怎么量化”，而是先把训练稳定性问题解决，否则再好的量化细节也很难落地。
在这一点上，QVGen 给出了一套完整范式，主要包括：
训练期引入辅助模块 Φ：用于降低梯度范数、提升低比特 QAT 的稳定性，让 3/4-bit 训练 “跑得起来、训得下去”；rank-decay 逐步移除 Φ：训练过程中识别并衰减低贡献成分，最终把 Φ 完全去掉，使推理阶段几乎不背额外负担；面向部署的低比特设置：支持 W4A4/W3A3，并强调可对接现有推理实现；在显存上带来明显下降，同时还能与其他推理加速方法叠加。
总体来看，QVGen 在 CogVideoX、Wan 等视频扩散模型上实现了 4-bit 接近全精度、3-bit 也能把质量拉回可用区间的结果，并且训练额外开销很小。对希望把视频生成模型从 “贵且难跑” 推进到 “更省、更快、更好用” 的场景，这是一条很实用的路线。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

内核大修！微软为RTX Spark重写Windows 11：20核智能分发

制糖工厂发布 AI 小电拼 Mirror，支持 AI Agent 原生接入

亮剑松山湖IC 论坛为何艾为变身AI眼镜小王子领跑 AI 眼镜新赛道

71款违法违规收集使用个人信息的App和小程序被通报

"技术跑通了，价值没到来"：贝恩报告揭示AI支出逾万亿美元后回报寥寥

外媒上手微软Surface Laptop Ultra：可能是有史以来最好笔记本

全站最新

内核大修！微软为RTX Spark重写Windows 11：20核智能分发

制糖工厂发布 AI 小电拼 Mirror，支持 AI Agent 原生接入

亮剑松山湖IC 论坛为何艾为变身AI眼镜小王子领跑 AI 眼镜新赛道

71款违法违规收集使用个人信息的App和小程序被通报

热门推荐

消费电子ETF招商（159779）涨超4%！苹果WWDC+AI PC+智能眼镜等多重产业催化密集落地

内核大修！微软为RTX Spark重写Windows 11：20核智能分发

艾为电子：音频是AI的核心入口布局AI NPU

制糖工厂发布 AI 小电拼 Mirror，支持 AI Agent 原生接入

亮剑松山湖IC 论坛为何艾为变身AI眼镜小王子领跑 AI 眼镜新赛道

九亭镇｜长征十二号乙运载火箭首飞成功千帆星座卫星数量增至164颗

71款违法违规收集使用个人信息的App和小程序被通报

"技术跑通了，价值没到来"：贝恩报告揭示AI支出逾万亿美元后回报寥寥

外媒上手微软Surface Laptop Ultra：可能是有史以来最好笔记本

一个平台死后，用户留下的内容还能算谁的资产？

以小博大登顶全球榜单：一款中国世界模型凭什么跑赢Google和NVIDIA？

微盟内测国内首个“电商AI增长引擎”

腾讯AI产业应用大会在即，即将发布系列智能体应用新品

逗你玩？腾讯大跌：目前无法确定微信AI智能体何时推出

AI时代网络安全新体系如何构建？业内热议