当前位置: 首页 » 资讯 » 科技头条 » 正文

华中科技大学团队揭秘:为什么AI视频总是数错物体数量?

IP属地 中国·北京 科技行者 时间:2026-04-18 04:30:58


这项由华中科技大学、浙江大学与Afari Intelligent Drive联合开展的研究,以arXiv预印本形式于2026年4月9日发布,编号为arXiv:2604.08546。有兴趣深入了解的读者可以通过该编号查询完整论文。

你有没有试过让AI帮你生成一段视频,比如"三只猫在客厅里追逐嬉戏",结果视频里只跑出来两只猫,或者干脆出来了四只?再比如你需要一段教学视频,描述"四名建筑工人和两台挖掘机在施工",AI给你生成的画面里,挖掘机的数量完全不对?这种让人哭笑不得的状况,其实是当今最先进的AI视频生成系统共同面临的顽固问题——它们很擅长画出漂亮的画面,却经常数不清楚自己画了几个东西。

华中科技大学等机构的研究团队把这个问题认真研究了一番,并提出了一套叫做NUMINA的解决方案。这个名字听起来有些神秘,但它的核心思路其实相当直接:先让AI认清楚自己到底画了几个物体,发现数量不对之后,再悄悄引导它纠正。整个过程不需要重新训练AI模型,就像是给一个已经学会开车的人指路,而不是让他重新学开车。

**一、AI为什么总是数不清楚?**

要理解这个问题,先得知道现代AI视频生成系统是怎么工作的。这类系统通常基于一种叫做"扩散变换器"(Diffusion Transformer,简称DiT)的架构。通俗地说,这套系统的工作方式有点像一个画家从一张满是随机噪点的画布上,根据文字描述,一步一步地擦去多余的噪点,最终让一幅清晰的画面浮现出来。

在这个过程中,AI通过一种叫"注意力机制"的方式理解文字描述。你可以把注意力机制理解为AI读句子时的"眼神焦点"——它会特别盯住句子中某些词,然后把这些词和画面中的某些区域联系起来。对于名词、动词、形容词,AI的眼神焦点非常精准,能清晰地把"猫"这个词和画面中猫的位置对应起来。但研究团队通过可视化分析发现,当句子中出现"三只"、"四个"这样的数字词时,AI的"眼神"却变得散漫而模糊,无法形成清晰聚焦的响应。

这就引出了第一个根本原因:数字词的语义太弱。AI系统在训练过程中,数字词得到的"关注训练"远不如名词和形容词充分,导致它在生成画面时根本没有充分理解"三只"意味着什么空间布局约束。

第二个原因则更为隐蔽。这类AI系统为了计算效率,会把视频在空间和时间两个维度上大幅压缩后再处理,就像把一张精细地图缩小到邮票大小。在这个极度压缩的微观世界里,两个相邻的同类物体(比如挨在一起的两只猫)在AI眼中极难被区分为两个独立个体,它们的"边界"模糊不清,自然就会导致数量混乱。

理论上,重新训练AI模型是能解决这些问题的,但代价极其高昂——需要海量带精确数量标注的数据集,以及巨大的计算资源,而且调整数字词的处理方式还可能破坏AI在其他方面(比如画面质量、运动流畅度)的能力。正因如此,研究团队选择了另一条路:在不改变模型本身的前提下,设计一个外挂的"引导系统",在视频生成过程中实时纠偏。

**二、NUMINA是如何当"数数监督员"的?**

NUMINA的工作分为两个清晰的阶段,就像一位质检员的工作流程:先检查产品是否合格,再对不合格的地方进行修正。

第一阶段叫做"数量偏差识别"。在AI开始生成视频的早期阶段(大约在第20步降噪步骤时,总共50步),NUMINA就介入进来,悄悄窥探AI内部的注意力地图。

这里有个关键发现。研究团队通过对AI内部数百个"注意力头"(可以理解为AI大脑里同时运作的许多个"小专家",每个专家负责关注画面的不同侧面)进行系统分析,发现只有极少数几个注意力头天然地具备"物体边界感知"能力。大多数小专家的视野是模糊的或者只关注大类别,但偶尔有一两个小专家能清晰地把不同个体之间的边界画出来。

NUMINA设计了一套自动筛选机制来找到这些"最佳小专家"。对于自注意力头(专门处理画面内部结构的专家),筛选标准包含三个维度:前景与背景的对比度是否够强、画面中间尺度的空间结构是否丰富、物体边缘是否清晰锐利。把这三项指标加权求和,得分最高的那个注意力头就被选中,作为画面中物体分布的空间参考。与此同时,对于交叉注意力头(专门处理文字与画面关联的专家),NUMINA为每个需要计数的名词词语(比如"人"、"狗")分别找一个激活响应最集中、最聚焦的专家头,用来确定该类物体在画面中的位置区域。

有了这两类信息之后,NUMINA把它们融合起来。它先用一种叫均值漂移的聚类算法把画面切分成一块一块的区域,然后用交叉注意力的焦点区域筛选出哪些区域真正对应目标物体,最终得到一张明确的"物体分布地图"——每个物体占据哪里,一共有几个,一目了然。

至此,如果地图上显示"人"的数量是2个,但文字描述说应该是3个,偏差就被识别出来了。

第二阶段叫做"数量对齐生成"。发现偏差之后,NUMINA不会粗暴地直接修改AI的画面,因为那样很可能破坏已有画面的自然感和质量。它采用的是一种"保守修正"策略,就像外科医生的微创手术原则:能少动刀就少动刀,只处理必须处理的部分。

如果物体太多了,需要删掉几个,NUMINA会优先选择地图上面积最小的那个实例删除,因为小实例对整体画面构图的影响最小,删掉它最不容易留下明显痕迹。

如果物体太少了,需要增加几个,NUMINA会先看看现有物体里最小的那个作为模板,把它的形状和位置复制一份,然后计算在画面哪个位置放置这个新物体最合适。这个位置计算综合考虑了三件事:新物体不能和已有物体的位置重叠、新物体应该放在已有物体整体分布的中心附近(保持构图自然)、从前一帧到当前帧新物体的位置不能跳动太大(保持时间上的稳定性)。

当物体分布地图修正完毕后,NUMINA进入真正的生成引导环节。它通过修改AI内部注意力计算时的偏置项来实现引导:在需要让某个区域生成目标物体的地方,强化AI对该区域与目标词的关联;在需要消除某个区域不该有的物体的地方,把AI对该区域的关注强度压到接近零。这种引导的强度会随着生成步骤的推进逐渐减弱——在生成初期(决定物体布局的阶段)引导力度最强,在生成后期(打磨细节的阶段)引导力度最轻,让AI有足够的自由度来呈现自然的视觉质感。

**三、NUMINA在实际测试中的表现如何?**

为了系统评测NUMINA,研究团队专门设计了一个名为CountBench的测试集,包含210个精心构造的文字描述,涵盖了1到8个物体的计数场景,以及同时包含1到3种不同类别物体的复合场景。这些描述最初由GPT-5辅助生成,再经过人工审核筛选,确保描述自然合理、不重复。

评测采用了三个指标。计数准确率(CountAcc)用来衡量生成视频里物体数量是否和文字描述一致;时间一致性(TC)用来衡量视频从一帧到下一帧之间物体数量是否保持稳定,不会忽多忽少;CLIP分数用来衡量生成视频与文字描述在整体语义上的契合程度。物体计数依靠GroundingDINO这一开放域目标检测工具来自动完成。

研究团队在三个规模不同的Wan系列模型上进行了测试,分别是参数量为13亿(1.3B)、50亿(5B)和140亿(14B)的版本。作为对比,研究还测试了两种最常见的朴素改进方案:第一种是"种子搜索",即对同一个描述连续生成5个不同版本的视频,挑其中计数最准确的那个;第二种是"提示词增强",即用大语言模型把描述文字扩展得更详细,希望更丰富的描述能帮AI更好地理解数量要求。

结果显示,在最小的1.3B模型上,原始模型的计数准确率只有42.3%,意味着超过一半的情况下物体数量是错的。种子搜索把准确率提升到45.5%,提示词增强提升到47.2%,而NUMINA把准确率提升到了49.7%,提升幅度达到7.4个百分点,且只需生成一次,不需要反复试验。在5B模型上,NUMINA带来4.9个百分点的提升;在14B模型上,NUMINA带来5.5个百分点的提升。一个值得关注的细节是,加了NUMINA的1.3B小模型(49.7%)居然超过了完全没有任何辅助的5B大模型(47.8%),这说明NUMINA的引导效果弥补了相当一部分参数量带来的能力差距。

CLIP分数方面,NUMINA也带来了提升,尤其在1.3B模型上从33.9上升到35.6,说明正确的物体布局不只是让数字对了,也让整个画面与文字描述更加贴合。时间一致性同样有所提升,这意味着NUMINA在纠正物体数量的同时,没有让视频出现忽闪忽现的不稳定感。

按物体数量细分来看,规律非常清晰:物体数量越多,原始模型越力不从心,NUMINA的优势也越明显。对于"2个物体"的场景,原始模型准确率68.7%,还算过得去;但到了"3个物体",准确率急剧跌落到44.5%;到了"8个物体",准确率只剩下可怜的11.3%。NUMINA在"3个物体"场景下提升了16.2个百分点,在"8个物体"场景下将准确率从11.3%几乎翻番提升到20.7%。虽然高数量场景下绝对准确率依然不高,但相对改善的幅度是极为可观的。

研究团队还与Sora2、Veo3.1、Grok Imagine等顶级商业视频生成系统进行了定性对比,发现即使是这些最先进的商业产品,在"三名骑手参加马术比赛和三只山羊"这类复合计数场景下也频繁出错,而NUMINA引导的Wan模型生成结果在数量上更加准确,布局也保持了自然感。

**四、NUMINA的各个设计选择是否真的都有必要?**

研究团队还做了大量消融实验,逐一验证每个设计决定的必要性。

关于在哪个时间点截取注意力地图,实验发现在第20步时截取是最佳选择。太早(比如第10步),注意力模式还没有形成足够清晰的物体边界;太晚(比如第40步以上),注意力模式又开始碎片化或者过度融合,反而失去了物体分离性。从效率角度看,在第20步停止预生成、提取信息,意味着预生成阶段只用走完整50步中的40%,大幅节省了计算量。

关于如何选择最佳注意力头,实验发现随机选一个注意力头只能把准确率从42.3%提升到44.1%,把所有注意力头平均之后准确率反而更低(43.0%),而按照NUMINA设计的评分准则选出最佳单个头,准确率能提升到49.7%。这个对比有力地证明了"物体边界感知能力"是极少数注意力头的稀有特质,把它和其他不具备这种特质的头平均在一起,反而会稀释掉有用的信息。

关于用来确定新增物体位置的三项成本,实验逐步验证了每一项的贡献。只用"不重叠"约束,准确率提升2.8个百分点;加入"靠近已有物体中心"约束,再提升1.8个百分点;进一步加入"帧间位置稳定"约束,再提升2.0个百分点;三项全部结合,最终达到7.4个百分点的最大提升。时间稳定约束的贡献之所以如此显著,是因为视频不同于单张图片,物体在各帧之间的空间一致性直接决定了视频是否自然。

关于物体删除和添加哪个更重要,实验发现单独开启添加功能的提升(5.4个百分点)远大于单独开启删除功能的提升(1.5个百分点)。这说明原始AI模型的主要问题在于"画少了"而不是"画多了",即该出现的物体没出现,而不是凭空多画了什么东西。两者结合使用效果最佳,且协同效果略优于简单相加,说明两种操作之间存在相互配合的关系。

关于用AI的注意力地图来定位物体是否真的比用外部目标检测工具更好,实验表明注意力地图引导的方法比GroundingDINO检测器引导的方法高出2.2个百分点。原因在于注意力地图是AI"内部语言",天然与AI理解画面的方式高度契合,能捕捉到尚在成形中的、模糊的物体雏形,而外部检测器只能处理已经渲染清晰的画面。

**五、NUMINA能在不同的AI系统之间通用吗?**

研究团队还专门验证了NUMINA在另一类架构(Multi-Modal Diffusion Transformer,MMDiT)上的效果,具体测试对象是CogVideoX-5B模型。这种架构与Wan系列不同,它把文字和视觉的特征混合在同一套注意力机制里处理,没有独立的交叉注意力模块。

为了适应这种架构,研究团队对策略做了相应调整:把MMDiT中视觉部分与视觉部分之间的注意力视为自注意力,把文字部分与视觉部分之间的注意力视为交叉注意力,然后沿用同样的选头和引导逻辑。实验结果显示,在CogVideoX-5B上,原始模型计数准确率40.2%,种子搜索提升2.5个百分点,提示词增强提升2.3个百分点,而NUMINA提升4.2个百分点达到44.4%,同时时间一致性和CLIP分数均有改善。这证明NUMINA的核心思路具有跨架构的迁移性,不是只能在特定模型上发挥作用的"针对性补丁"。

此外,NUMINA还可以与另一种推理加速技术EasyCache结合使用。EasyCache通过在相邻步骤之间缓存重用计算结果来降低计算量。结合后,NUMINA的运行时间从431秒降低到355秒,计数准确率仅微降0.3个百分点到49.4%,VRAM占用保持不变。考虑到种子搜索需要运行5次才能选出最佳结果,其时间开销是单次运行的5倍,NUMINA即使在不使用加速的情况下,综合效率也远优于种子搜索。

研究团队还通过VBench平台上的主体一致性指标(用来衡量同一个物体在视频不同帧之间外观的稳定性)进行了额外验证。结果显示,NUMINA在所有测试模型上的主体一致性分数均与原始模型持平或略有提升,进一步说明NUMINA的纠偏过程不会引入视觉上的闪烁或不稳定。

视觉生成质量方面,在VBench的美学质量和成像质量两个子指标上,NUMINA处理后的视频与原始模型相比基本持平,美学质量甚至略有提升(从61.5%到63.5%),说明修正数量的过程并没有以牺牲画面好看程度为代价。用户盲测中,研究团队邀请了10名参与者对100对随机视频进行主观评分,结果61%的参与者偏好NUMINA生成的视频,39%偏好原始模型生成的视频,印证了客观指标的结论。

**六、NUMINA还做不到什么?**

尽管NUMINA在各方面都取得了显著的改进,研究团队也坦诚地指出了它的局限性。

一个典型的失败场景出现在处理"三只鹦鹉模仿三声口哨"这类描述时。因为AI的注意力头在分析鹦鹉时,有时候会过分聚焦于最显眼的部分(比如鸟头),而忽视鸟的身体,导致同一只鸟的头部和身体被NUMINA当成了两个独立的物体,最终地图上出现了错误的数量判断,这个错误又被带入到最终的视频生成中,形成无法挽回的偏差。这个问题的根源在于原始注意力信号本身是粗粒度的,没有精确的"整体-部分"结构感知能力。

另一个尚未解决的领域是极高密度的场景,比如"50只鸟"、"100个人"这类描述。NUMINA的设计目标是1到8个物体的精确计数,面对数量级别更大的场景,其地图构建和引导策略都需要根本性的重新设计。

归根结底,NUMINA给我们展示的是一种颇具启发性的思路:不需要重新训练一个大型AI模型,只需要在它的生成过程中插入一个轻量级的"理解-检测-纠偏"循环,就能显著改善它在特定能力维度上的表现。这对于AI系统的实际部署和改进来说,具有相当的参考价值。毕竟,重新训练一个大模型需要的资源往往是普通研究团队难以承受的,而这种"不改模型本身,改流程"的思路,提供了一条更具可行性的改进路径。

当下,视频生成技术正快速进入教育、影视、游戏等各类生产性场景,精确数量控制会是越来越多应用的刚性需求——教学视频里讲"三种元素"就必须是三种,产品演示视频里讲"两个按钮"就必须是两个。NUMINA所代表的方向,是让AI不只"看起来很智能",而是能在具体的语义细节上做到真正精准。这条路上,还有很长的路要走,但这个方向本身,值得被认真对待。

Q&A

Q1:NUMINA框架解决的是什么问题?

A:NUMINA解决的是AI视频生成系统无法准确生成指定数量物体的问题。比如,当用户输入"三只猫在奔跑",现有的主流视频生成模型经常生成出来两只或四只猫。NUMINA通过分析模型内部的注意力信号来识别数量偏差,再通过引导交叉注意力来纠正生成结果,整个过程不需要重新训练模型,属于训练无关的推理阶段干预方案。

Q2:NUMINA框架比直接多生成几次视频然后挑最好的方案效果好在哪?

A:多次生成挑选(即"种子搜索")在Wan2.1-1.3B模型上需要生成5次视频才能把计数准确率从42.3%提升到45.5%,耗时是单次生成的5倍。NUMINA只需生成一次,就能把准确率提升到49.7%,效果更好、速度更快。而且NUMINA还能与推理加速技术EasyCache结合,进一步压缩时间开销,综合性价比远高于反复尝试随机种子的方式。

Q3:NUMINA框架目前有哪些无法处理的情况?

A:NUMINA目前在两类情况下表现欠佳。第一类是物体部件被误判为独立个体的情况,比如鹦鹉的头部有时会被注意力机制单独识别为一个"物体",导致计数比实际偏多,从而引发错误引导。第二类是超高密度计数场景,NUMINA的设计目标是1到8个物体的精确计数,对于几十乃至上百个物体的场景,其内部的地图构建和引导逻辑都尚未针对性优化,效果存在局限。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。