华中科技大学团队揭秘：为什么AI视频总是数错物体数量？

IP属地中国·北京 科技行者 时间：2026-04-18 04:30:58

这项由华中科技大学、浙江大学与Afari Intelligent Drive联合开展的研究，以arXiv预印本形式于2026年4月9日发布，编号为arXiv:2604.08546。有兴趣深入了解的读者可以通过该编号查询完整论文。
你有没有试过让AI帮你生成一段视频，比如"三只猫在客厅里追逐嬉戏"，结果视频里只跑出来两只猫，或者干脆出来了四只？再比如你需要一段教学视频，描述"四名建筑工人和两台挖掘机在施工"，AI给你生成的画面里，挖掘机的数量完全不对？这种让人哭笑不得的状况，其实是当今最先进的AI视频生成系统共同面临的顽固问题——它们很擅长画出漂亮的画面，却经常数不清楚自己画了几个东西。
华中科技大学等机构的研究团队把这个问题认真研究了一番，并提出了一套叫做NUMINA的解决方案。这个名字听起来有些神秘，但它的核心思路其实相当直接：先让AI认清楚自己到底画了几个物体，发现数量不对之后，再悄悄引导它纠正。整个过程不需要重新训练AI模型，就像是给一个已经学会开车的人指路，而不是让他重新学开车。
**一、AI为什么总是数不清楚？**
要理解这个问题，先得知道现代AI视频生成系统是怎么工作的。这类系统通常基于一种叫做"扩散变换器"（Diffusion Transformer，简称DiT）的架构。通俗地说，这套系统的工作方式有点像一个画家从一张满是随机噪点的画布上，根据文字描述，一步一步地擦去多余的噪点，最终让一幅清晰的画面浮现出来。
在这个过程中，AI通过一种叫"注意力机制"的方式理解文字描述。你可以把注意力机制理解为AI读句子时的"眼神焦点"——它会特别盯住句子中某些词，然后把这些词和画面中的某些区域联系起来。对于名词、动词、形容词，AI的眼神焦点非常精准，能清晰地把"猫"这个词和画面中猫的位置对应起来。但研究团队通过可视化分析发现，当句子中出现"三只"、"四个"这样的数字词时，AI的"眼神"却变得散漫而模糊，无法形成清晰聚焦的响应。
这就引出了第一个根本原因：数字词的语义太弱。AI系统在训练过程中，数字词得到的"关注训练"远不如名词和形容词充分，导致它在生成画面时根本没有充分理解"三只"意味着什么空间布局约束。
第二个原因则更为隐蔽。这类AI系统为了计算效率，会把视频在空间和时间两个维度上大幅压缩后再处理，就像把一张精细地图缩小到邮票大小。在这个极度压缩的微观世界里，两个相邻的同类物体（比如挨在一起的两只猫）在AI眼中极难被区分为两个独立个体，它们的"边界"模糊不清，自然就会导致数量混乱。
理论上，重新训练AI模型是能解决这些问题的，但代价极其高昂——需要海量带精确数量标注的数据集，以及巨大的计算资源，而且调整数字词的处理方式还可能破坏AI在其他方面（比如画面质量、运动流畅度）的能力。正因如此，研究团队选择了另一条路：在不改变模型本身的前提下，设计一个外挂的"引导系统"，在视频生成过程中实时纠偏。
**二、NUMINA是如何当"数数监督员"的？**
NUMINA的工作分为两个清晰的阶段，就像一位质检员的工作流程：先检查产品是否合格，再对不合格的地方进行修正。
第一阶段叫做"数量偏差识别"。在AI开始生成视频的早期阶段（大约在第20步降噪步骤时，总共50步），NUMINA就介入进来，悄悄窥探AI内部的注意力地图。
这里有个关键发现。研究团队通过对AI内部数百个"注意力头"（可以理解为AI大脑里同时运作的许多个"小专家"，每个专家负责关注画面的不同侧面）进行系统分析，发现只有极少数几个注意力头天然地具备"物体边界感知"能力。大多数小专家的视野是模糊的或者只关注大类别，但偶尔有一两个小专家能清晰地把不同个体之间的边界画出来。
NUMINA设计了一套自动筛选机制来找到这些"最佳小专家"。对于自注意力头（专门处理画面内部结构的专家），筛选标准包含三个维度：前景与背景的对比度是否够强、画面中间尺度的空间结构是否丰富、物体边缘是否清晰锐利。把这三项指标加权求和，得分最高的那个注意力头就被选中，作为画面中物体分布的空间参考。与此同时，对于交叉注意力头（专门处理文字与画面关联的专家），NUMINA为每个需要计数的名词词语（比如"人"、"狗"）分别找一个激活响应最集中、最聚焦的专家头，用来确定该类物体在画面中的位置区域。
有了这两类信息之后，NUMINA把它们融合起来。它先用一种叫均值漂移的聚类算法把画面切分成一块一块的区域，然后用交叉注意力的焦点区域筛选出哪些区域真正对应目标物体，最终得到一张明确的"物体分布地图"——每个物体占据哪里，一共有几个，一目了然。
至此，如果地图上显示"人"的数量是2个，但文字描述说应该是3个，偏差就被识别出来了。
第二阶段叫做"数量对齐生成"。发现偏差之后，NUMINA不会粗暴地直接修改AI的画面，因为那样很可能破坏已有画面的自然感和质量。它采用的是一种"保守修正"策略，就像外科医生的微创手术原则：能少动刀就少动刀，只处理必须处理的部分。
如果物体太多了，需要删掉几个，NUMINA会优先选择地图上面积最小的那个实例删除，因为小实例对整体画面构图的影响最小，删掉它最不容易留下明显痕迹。
如果物体太少了，需要增加几个，NUMINA会先看看现有物体里最小的那个作为模板，把它的形状和位置复制一份，然后计算在画面哪个位置放置这个新物体最合适。这个位置计算综合考虑了三件事：新物体不能和已有物体的位置重叠、新物体应该放在已有物体整体分布的中心附近（保持构图自然）、从前一帧到当前帧新物体的位置不能跳动太大（保持时间上的稳定性）。
当物体分布地图修正完毕后，NUMINA进入真正的生成引导环节。它通过修改AI内部注意力计算时的偏置项来实现引导：在需要让某个区域生成目标物体的地方，强化AI对该区域与目标词的关联；在需要消除某个区域不该有的物体的地方，把AI对该区域的关注强度压到接近零。这种引导的强度会随着生成步骤的推进逐渐减弱——在生成初期（决定物体布局的阶段）引导力度最强，在生成后期（打磨细节的阶段）引导力度最轻，让AI有足够的自由度来呈现自然的视觉质感。
**三、NUMINA在实际测试中的表现如何？**
为了系统评测NUMINA，研究团队专门设计了一个名为CountBench的测试集，包含210个精心构造的文字描述，涵盖了1到8个物体的计数场景，以及同时包含1到3种不同类别物体的复合场景。这些描述最初由GPT-5辅助生成，再经过人工审核筛选，确保描述自然合理、不重复。
评测采用了三个指标。计数准确率（CountAcc）用来衡量生成视频里物体数量是否和文字描述一致；时间一致性（TC）用来衡量视频从一帧到下一帧之间物体数量是否保持稳定，不会忽多忽少；CLIP分数用来衡量生成视频与文字描述在整体语义上的契合程度。物体计数依靠GroundingDINO这一开放域目标检测工具来自动完成。
研究团队在三个规模不同的Wan系列模型上进行了测试，分别是参数量为13亿（1.3B）、50亿（5B）和140亿（14B）的版本。作为对比，研究还测试了两种最常见的朴素改进方案：第一种是"种子搜索"，即对同一个描述连续生成5个不同版本的视频，挑其中计数最准确的那个；第二种是"提示词增强"，即用大语言模型把描述文字扩展得更详细，希望更丰富的描述能帮AI更好地理解数量要求。
结果显示，在最小的1.3B模型上，原始模型的计数准确率只有42.3%，意味着超过一半的情况下物体数量是错的。种子搜索把准确率提升到45.5%，提示词增强提升到47.2%，而NUMINA把准确率提升到了49.7%，提升幅度达到7.4个百分点，且只需生成一次，不需要反复试验。在5B模型上，NUMINA带来4.9个百分点的提升；在14B模型上，NUMINA带来5.5个百分点的提升。一个值得关注的细节是，加了NUMINA的1.3B小模型（49.7%）居然超过了完全没有任何辅助的5B大模型（47.8%），这说明NUMINA的引导效果弥补了相当一部分参数量带来的能力差距。
CLIP分数方面，NUMINA也带来了提升，尤其在1.3B模型上从33.9上升到35.6，说明正确的物体布局不只是让数字对了，也让整个画面与文字描述更加贴合。时间一致性同样有所提升，这意味着NUMINA在纠正物体数量的同时，没有让视频出现忽闪忽现的不稳定感。
按物体数量细分来看，规律非常清晰：物体数量越多，原始模型越力不从心，NUMINA的优势也越明显。对于"2个物体"的场景，原始模型准确率68.7%，还算过得去；但到了"3个物体"，准确率急剧跌落到44.5%；到了"8个物体"，准确率只剩下可怜的11.3%。NUMINA在"3个物体"场景下提升了16.2个百分点，在"8个物体"场景下将准确率从11.3%几乎翻番提升到20.7%。虽然高数量场景下绝对准确率依然不高，但相对改善的幅度是极为可观的。
研究团队还与Sora2、Veo3.1、Grok Imagine等顶级商业视频生成系统进行了定性对比，发现即使是这些最先进的商业产品，在"三名骑手参加马术比赛和三只山羊"这类复合计数场景下也频繁出错，而NUMINA引导的Wan模型生成结果在数量上更加准确，布局也保持了自然感。
**四、NUMINA的各个设计选择是否真的都有必要？**
研究团队还做了大量消融实验，逐一验证每个设计决定的必要性。
关于在哪个时间点截取注意力地图，实验发现在第20步时截取是最佳选择。太早（比如第10步），注意力模式还没有形成足够清晰的物体边界；太晚（比如第40步以上），注意力模式又开始碎片化或者过度融合，反而失去了物体分离性。从效率角度看，在第20步停止预生成、提取信息，意味着预生成阶段只用走完整50步中的40%，大幅节省了计算量。
关于如何选择最佳注意力头，实验发现随机选一个注意力头只能把准确率从42.3%提升到44.1%，把所有注意力头平均之后准确率反而更低（43.0%），而按照NUMINA设计的评分准则选出最佳单个头，准确率能提升到49.7%。这个对比有力地证明了"物体边界感知能力"是极少数注意力头的稀有特质，把它和其他不具备这种特质的头平均在一起，反而会稀释掉有用的信息。
关于用来确定新增物体位置的三项成本，实验逐步验证了每一项的贡献。只用"不重叠"约束，准确率提升2.8个百分点；加入"靠近已有物体中心"约束，再提升1.8个百分点；进一步加入"帧间位置稳定"约束，再提升2.0个百分点；三项全部结合，最终达到7.4个百分点的最大提升。时间稳定约束的贡献之所以如此显著，是因为视频不同于单张图片，物体在各帧之间的空间一致性直接决定了视频是否自然。
关于物体删除和添加哪个更重要，实验发现单独开启添加功能的提升（5.4个百分点）远大于单独开启删除功能的提升（1.5个百分点）。这说明原始AI模型的主要问题在于"画少了"而不是"画多了"，即该出现的物体没出现，而不是凭空多画了什么东西。两者结合使用效果最佳，且协同效果略优于简单相加，说明两种操作之间存在相互配合的关系。
关于用AI的注意力地图来定位物体是否真的比用外部目标检测工具更好，实验表明注意力地图引导的方法比GroundingDINO检测器引导的方法高出2.2个百分点。原因在于注意力地图是AI"内部语言"，天然与AI理解画面的方式高度契合，能捕捉到尚在成形中的、模糊的物体雏形，而外部检测器只能处理已经渲染清晰的画面。
**五、NUMINA能在不同的AI系统之间通用吗？**
研究团队还专门验证了NUMINA在另一类架构（Multi-Modal Diffusion Transformer，MMDiT）上的效果，具体测试对象是CogVideoX-5B模型。这种架构与Wan系列不同，它把文字和视觉的特征混合在同一套注意力机制里处理，没有独立的交叉注意力模块。
为了适应这种架构，研究团队对策略做了相应调整：把MMDiT中视觉部分与视觉部分之间的注意力视为自注意力，把文字部分与视觉部分之间的注意力视为交叉注意力，然后沿用同样的选头和引导逻辑。实验结果显示，在CogVideoX-5B上，原始模型计数准确率40.2%，种子搜索提升2.5个百分点，提示词增强提升2.3个百分点，而NUMINA提升4.2个百分点达到44.4%，同时时间一致性和CLIP分数均有改善。这证明NUMINA的核心思路具有跨架构的迁移性，不是只能在特定模型上发挥作用的"针对性补丁"。
此外，NUMINA还可以与另一种推理加速技术EasyCache结合使用。EasyCache通过在相邻步骤之间缓存重用计算结果来降低计算量。结合后，NUMINA的运行时间从431秒降低到355秒，计数准确率仅微降0.3个百分点到49.4%，VRAM占用保持不变。考虑到种子搜索需要运行5次才能选出最佳结果，其时间开销是单次运行的5倍，NUMINA即使在不使用加速的情况下，综合效率也远优于种子搜索。
研究团队还通过VBench平台上的主体一致性指标（用来衡量同一个物体在视频不同帧之间外观的稳定性）进行了额外验证。结果显示，NUMINA在所有测试模型上的主体一致性分数均与原始模型持平或略有提升，进一步说明NUMINA的纠偏过程不会引入视觉上的闪烁或不稳定。
视觉生成质量方面，在VBench的美学质量和成像质量两个子指标上，NUMINA处理后的视频与原始模型相比基本持平，美学质量甚至略有提升（从61.5%到63.5%），说明修正数量的过程并没有以牺牲画面好看程度为代价。用户盲测中，研究团队邀请了10名参与者对100对随机视频进行主观评分，结果61%的参与者偏好NUMINA生成的视频，39%偏好原始模型生成的视频，印证了客观指标的结论。
**六、NUMINA还做不到什么？**
尽管NUMINA在各方面都取得了显著的改进，研究团队也坦诚地指出了它的局限性。
一个典型的失败场景出现在处理"三只鹦鹉模仿三声口哨"这类描述时。因为AI的注意力头在分析鹦鹉时，有时候会过分聚焦于最显眼的部分（比如鸟头），而忽视鸟的身体，导致同一只鸟的头部和身体被NUMINA当成了两个独立的物体，最终地图上出现了错误的数量判断，这个错误又被带入到最终的视频生成中，形成无法挽回的偏差。这个问题的根源在于原始注意力信号本身是粗粒度的，没有精确的"整体-部分"结构感知能力。
另一个尚未解决的领域是极高密度的场景，比如"50只鸟"、"100个人"这类描述。NUMINA的设计目标是1到8个物体的精确计数，面对数量级别更大的场景，其地图构建和引导策略都需要根本性的重新设计。
归根结底，NUMINA给我们展示的是一种颇具启发性的思路：不需要重新训练一个大型AI模型，只需要在它的生成过程中插入一个轻量级的"理解-检测-纠偏"循环，就能显著改善它在特定能力维度上的表现。这对于AI系统的实际部署和改进来说，具有相当的参考价值。毕竟，重新训练一个大模型需要的资源往往是普通研究团队难以承受的，而这种"不改模型本身，改流程"的思路，提供了一条更具可行性的改进路径。
当下，视频生成技术正快速进入教育、影视、游戏等各类生产性场景，精确数量控制会是越来越多应用的刚性需求——教学视频里讲"三种元素"就必须是三种，产品演示视频里讲"两个按钮"就必须是两个。NUMINA所代表的方向，是让AI不只"看起来很智能"，而是能在具体的语义细节上做到真正精准。这条路上，还有很长的路要走，但这个方向本身，值得被认真对待。
Q&A
Q1：NUMINA框架解决的是什么问题？
A：NUMINA解决的是AI视频生成系统无法准确生成指定数量物体的问题。比如，当用户输入"三只猫在奔跑"，现有的主流视频生成模型经常生成出来两只或四只猫。NUMINA通过分析模型内部的注意力信号来识别数量偏差，再通过引导交叉注意力来纠正生成结果，整个过程不需要重新训练模型，属于训练无关的推理阶段干预方案。
Q2：NUMINA框架比直接多生成几次视频然后挑最好的方案效果好在哪？
A：多次生成挑选（即"种子搜索"）在Wan2.1-1.3B模型上需要生成5次视频才能把计数准确率从42.3%提升到45.5%，耗时是单次生成的5倍。NUMINA只需生成一次，就能把准确率提升到49.7%，效果更好、速度更快。而且NUMINA还能与推理加速技术EasyCache结合，进一步压缩时间开销，综合性价比远高于反复尝试随机种子的方式。
Q3：NUMINA框架目前有哪些无法处理的情况？
A：NUMINA目前在两类情况下表现欠佳。第一类是物体部件被误判为独立个体的情况，比如鹦鹉的头部有时会被注意力机制单独识别为一个"物体"，导致计数比实际偏多，从而引发错误引导。第二类是超高密度计数场景，NUMINA的设计目标是1到8个物体的精确计数，对于几十乃至上百个物体的场景，其内部的地图构建和引导逻辑都尚未针对性优化，效果存在局限。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

关注 | 杜祥琬院士声明

“歼-8之父”顾诵芬院士逝世：7岁亲历日军空袭，立志造出中国战机！

万亿IPO前夜，OpenAI把赌注押到了基建工地上

今天，ChatGPT+Codex官宣合体！10亿人喜提「超级Agent」

大模型「行口」不一？首个专测执行幻觉基准，覆盖真实行为越狱

刚刚！ChatGPT迎重大升级，直接整合Codex为哪般？

全站最新

关注 | 杜祥琬院士声明

“歼-8之父”顾诵芬院士逝世：7岁亲历日军空袭，立志造出中国战机！

万亿IPO前夜，OpenAI把赌注押到了基建工地上

今天，ChatGPT+Codex官宣合体！10亿人喜提「超级Agent」

热门推荐

关注 | 杜祥琬院士声明

“歼-8之父”顾诵芬院士逝世：7岁亲历日军空袭，立志造出中国战机！

万亿IPO前夜，OpenAI把赌注押到了基建工地上

今天，ChatGPT+Codex官宣合体！10亿人喜提「超级Agent」

大模型「行口」不一？首个专测执行幻觉基准，覆盖真实行为越狱

中国首例碱基编辑治疗镰贫，患者摆脱危象超15个月，达到主要疗效终点

刚刚！ChatGPT迎重大升级，直接整合Codex为哪般？

微软深夜摊牌了！自研模型AI「全靠自己」，还要定义下一代电脑

何泰然在线摇人！底薪数百万元、Sora之父带队、OpenAI全栈造「人」

经济热点快评｜卫星互联网将如何改变生活？

软银CEO孙正义：AI革命规模将是互联网泡沫时期的50倍

刚刚，宇树IPO闪电过会！王兴兴雷军要上岸了

青岛港“港口安全生产作业智能体”斩获2026港航大模型智能体创新应用大赛最高奖

微软为AI智能体造了专属搜索引擎

微软用安卓造AI系统，还配了块概念智能胸牌