当前位置: 首页 » 资讯 » 科技头条 » 正文

北京交通大学等多所高校用一堆随机数字教会了AI识别猫狗

IP属地 中国·北京 科技行者 时间:2026-06-10 22:31:27


这项由北京交通大学、清华大学、南方科技大学、北京工业大学、南京邮电大学等多所高校联合完成的研究,发表于2026年第43届国际机器学习大会(ICML 2026),论文编号为arXiv:2606.00558。研究的核心发现出人意料:用来自随机分布的"噪声数据",也就是毫无实际意义的随机数字,竟然能帮助人工智能模型更好地识别真实世界中的猫、狗、花朵和汽车。

这听起来是不是有点匪夷所思?平时我们训练AI识别图片,靠的是海量有标签的真实照片。但这个团队却发现,往训练过程中塞入一堆从高斯分布里随机采样出来的数字,居然让模型的准确率在某些数据集上提升了超过15%。

要理解这件事为什么值得关注,我们先从一个生活场景说起。

一、当AI老师面临"教材短缺"的困境

假设你要教一个完全不认识动物的孩子区分猫和狗。最理想的情况是给他看几千张猫的照片和几千张狗的照片,然后他就慢慢学会了。但现实中,你往往只有几张照片——比如每种动物只有四张——剩下的大量图片都没有标注,你根本不知道那些图里是猫还是狗。

这正是机器学习领域里一个叫做"半监督学习"的场景:只有极少量的图片有标签,大量图片没有标签。在这种情况下,AI要怎么利用那些没有标签的图片来学习呢?

更头疼的是,很多现实场景中,获取"别人家的数据"来帮助训练是非常困难的。医院的患者数据受隐私法保护,企业的商业数据有版权限制,政府的数据涉及保密规定。这就导致一个困境:模型需要更多数据,但真实数据要么敏感、要么昂贵、要么根本拿不到。

研究团队此前的工作(Yao et al., 2025)发现了一个令人意外的突破口:既然真实数据不好拿,那何不用随机生成的"噪声数据"来代替?只要这些噪声数据能在结构上给模型提供有用的指引,它们就可以作为"代理老师",帮助模型更好地理解那些没有标签的真实图片。

然而,这个前期工作有两个明显的短板:它没有从理论上解释为什么噪声数据能帮到模型,而且只在一些非主流的数据集上做了实验,没有在CIFAR-10、ImageNet这些主流基准测试上验证。正是为了填补这两个空缺,本文的研究团队提出了一个系统性的框架,既给出了理论解释,又在多个主流数据集上做了全面验证。

二、给这件奇怪的事情起一个正式的名字

研究团队把他们研究的这个问题叫做"半监督噪声自适应",英文缩写是SSNA。这个名字可以拆开来理解:

"半监督"指的是目标数据集里只有一小部分图片有标签,大部分没有标签的那种学习场景。"噪声"指的是从随机分布里生成的、毫无语义含义的数据,比如从高斯分布里随机采样出来的数字向量。"自适应"则是指让模型适应目标任务的过程。

整个设置可以用一个更生动的比喻来理解:把训练一个AI识别动物的过程,比作一位美术老师在资源匮乏的情况下教学生画画。

目标领域就是学生需要学习的内容,也就是真实的猫狗图片。其中只有极少数图片被标注了("这是猫"、"这是狗"),大多数图片都没有标注。噪声领域则相当于老师在黑板上随手画的一些抽象图形——这些图形本身不像猫也不像狗,纯粹是随机涂鸦。但关键在于:老师给这些抽象图形也贴上了标签,把其中一些叫做"0号图",另一些叫做"1号图",和猫、狗的编号对应起来。

这个"对应"关系就是SSNA的核心设计:噪声数据虽然本身毫无意义,但它们被人为地分配了与目标类别一一对应的编号。于是,区分不同类别噪声的任务,就和区分不同类别真实图片的任务,在结构上对齐了。

三、噪声数据里藏着什么有用的"知识"

现在关键的问题来了:这些随机涂鸦里究竟藏着什么,能帮助学生更好地画出真实的猫狗?

答案藏在一个叫做"判别性结构"的概念里。所谓判别性结构,通俗地说就是:不同类别的数据在某个空间里能被清晰地区分开来,形成一堆一堆的簇,每堆代表一个类别。

当我们用模型去处理噪声数据,并要求它把不同编号的噪声分类正确时,模型会在内部的表示空间里,把属于"0号类别"的噪声聚集在一起,把属于"1号类别"的噪声聚集在另一处。这就形成了清晰的判别性结构——尽管这些类别本身毫无语义含义。

接下来,当模型把真实图片和噪声数据都投影到同一个共享的表示空间里,并要求真实图片的分布尽量接近对应类别的噪声分布时,神奇的事情就发生了:真实图片的表示也开始变得更加清晰、更加可区分。原本混在一起、模糊不清的猫和狗的特征,开始被噪声簇的结构"拉开",各自聚集成更紧凑的簇。

这就是为什么噪声能够帮助模型的核心原因:噪声本身不提供任何关于猫或狗的知识,但它提供了一种清晰的空间结构,模型可以把真实图片"靠"上去,从而更好地组织自己对真实数据的理解。

当然,这里有一个不可缺少的条件:必须有少量标注的真实图片来建立噪声类别和真实类别之间的对应关系。如果完全没有标注的真实图片,模型就不知道哪个噪声簇对应猫、哪个对应狗,那么这种结构上的指引就完全失效了。在实验中,研究团队验证了这一点:当标注图片数量为零时,使用噪声数据几乎没有任何收益,甚至可能造成轻微的负面影响。

四、用数学来证明"噪声有用"

除了直觉性的解释,研究团队还从理论层面给出了严格的数学证明。他们推导了一个叫做"泛化误差上界"的东西,用来描述模型在未见过的真实测试数据上最差会表现多糟糕。

这个上界就像一个"最坏情况保证"。如果你能把这个上界压得更低,就意味着模型在真实测试时的表现有更强的数学保障。

研究团队证明的核心结论是:模型在目标领域的测试误差,可以被以下几个量共同上界所控制:模型在标注的目标数据上的训练误差、模型在噪声数据上的训练误差、噪声数据和目标数据在共享表示空间里的分布差异。

这个结论告诉我们:如果我们同时把这三个量都压小,就能系统性地压低模型在目标领域测试时的误差上界。换句话说,让模型同时在真实图片和噪声数据上都表现好,同时让两种数据的分布在表示空间里尽量接近,就能从理论上保证模型有更好的泛化能力。

一个值得注意的细节是:这个理论框架的推导不依赖于"噪声数据和真实数据在语义上相关"这个通常在迁移学习里被默认的假设。传统的迁移学习理论要求源域和目标域在语义上有关联(比如都是动物图片),但这里的噪声数据和真实图片在语义上完全无关,理论框架依然成立。这是一个重要的理论贡献,因为它拓宽了迁移学习理论适用的范围。

五、噪声自适应框架:把理论变成实际操作

基于这个理论框架,研究团队设计了一个叫做"噪声自适应框架"的训练方案,英文缩写NAF。这个框架的工作方式,可以用"三管齐下"来描述。

框架里有三个组件在共同工作。首先是一个"表示提取器",它的工作是把真实图片从像素空间转化成高维表示空间里的一个向量。这就像把一张照片"翻译"成模型能理解的数学语言。其次是一个"噪声投影器",它的工作是把噪声数据同样转化成表示空间里的向量,和真实图片住在同一个空间里。最后是一个"分类器",负责在表示空间里完成最终的分类判断。

训练时,这三个组件的优化目标也是"三管齐下":第一,尽量减小模型在有标签的真实图片上的分类错误;第二,尽量减小模型在噪声数据上的分类错误,这会迫使噪声数据在表示空间里形成清晰的判别性结构;第三,尽量减小噪声数据和真实图片在表示空间里的分布差异,这就是分布对齐的过程。

对于没有标签的大量真实图片,框架用分类器给它们生成"伪标签",并在训练过程中不断更新这些伪标签,逐渐提升它们的准确性。

为了衡量噪声数据和目标数据之间的分布差异,研究团队设计了一种叫做"负域相似度"的度量方式。它的工作原理是:分别计算噪声数据和真实图片在每个类别上的平均表示向量,然后用余弦相似度来衡量对应类别的平均向量有多接近,取平均后取反。训练时最大化这个量,就等于在不断拉近噪声数据和真实图片在每个类别上的表示分布。

除了这种默认的度量方式,研究团队还设计了四种替代方案:一种是计算所有同类别噪声-图片对的余弦相似度均值的反值;一种是对类别均值对计算对比学习损失;一种是对所有噪声-图片对按同类/异类分别设定目标相似度的回归损失;还有一种是直接计算类别均值向量之间的欧氏距离。实验结果显示,默认的余弦相似度方案效果最好,欧氏距离方案表现最差,这说明在表示空间里衡量方向比衡量绝对距离更合适。

六、把结构"画出来":眼见为实的验证

研究团队做了一个非常直观的可视化实验,把模型学到的表示用一种叫做t-SNE的降维方法"画"出来,让我们能直观地看到表示空间里发生了什么。

使用NAF训练出来的模型,在表示空间里呈现出非常整齐的结构:不同类别的噪声数据聚集成清晰分离的球状簇,而对应类别的真实图片(无论是有标签的还是没标签的)都紧紧环绕在对应噪声簇的旁边,整体形成清晰的类别边界。

而只用真实有标签图片训练出来的基线模型(也就是标准的监督学习,研究团队称之为ERM),在表示空间里就混乱得多:不同类别的点混在一起,边界模糊,很难清晰区分。

训练过程的损失曲线也印证了这一点:NAF在训练过程中,在真实图片上的训练误差和噪声数据上的训练误差都在稳定下降,分布差异也在缩小;而ERM则只有真实图片上的训练误差在下降,噪声相关的损失保持在较高水平。而与此对应的,NAF的测试准确率显著高于ERM。

七、真实的考试成绩:在多个数据集上的全面测试

理论够扎实,可视化也很直观,但最终还是要看在真实数据集上的实际表现。研究团队在多个主流视觉数据集上做了系统性测试,实验设定统一为每个类别只有4张有标签的图片,其余全部作为无标签数据。

在CIFAR-10(一个包含10个类别、共6万张图片的常用基准数据集)上,使用ResNet-18作为骨干网络时,NAF达到了67.9%的准确率,而标准监督学习只有55.55%,提升幅度高达12.35个百分点。换用更大的ResNet-50时,提升幅度更是达到了15.15个百分点。

在CIFAR-100(同样6万张图片但类别数扩展到100个,难度大得多)上,NAF分别取得了7.61%和6.11%的提升。在DTD-47(一个纹理图片数据集,共47个类别)和Caltech-101(一个包含101类物体图片的数据集)上,NAF也取得了4.38%和2.74%的提升。

在更具挑战性的细粒度分类任务上,NAF同样表现出色。在CUB-200(区分200种鸟类)上提升了8.94%,在OxfordFlowers-102(区分102种花卉)上提升了5.51%,在StanfordCars-196(区分196种车型)上提升了7.74%。这些细粒度数据集要求模型捕捉极其细微的视觉差异,NAF在这类任务上的显著提升说明噪声结构确实帮助模型学到了更精细的特征组织方式。

在规模最大的ImageNet-1K(包含1000个类别、128万张图片,是目前最主流的图像识别基准)上,研究团队将每类有标签图片增加到100张,NAF达到37.1%的准确率,超过ERM的36.11%,提升0.99%。在超大规模数据集上,即使只有不到1%的提升也是有实际意义的。

研究团队还测试了文本分类任务。在AG News-4(一个新闻分类数据集,共4个类别,每类只用4张标注样本和1000张无标注样本)上,使用BERT作为文本编码器,NAF达到82.82%,超过ERM的78.64%,提升4.18个百分点。这说明NAF的思路不局限于图片,对文本任务同样有效。

八、和现有的半监督学习方法"合体"效果更强

NAF不仅能独立使用,还能作为"增强插件"和现有的半监督学习方法结合使用。研究团队测试了七种当前性能较好的半监督学习方法:UDA、FixMatch、FlexMatch、DebiasMatch、DST、LERM和SA-FixMatch。把NAF的噪声损失和分布对齐损失加入到这些方法的训练目标里,它们的性能都得到了提升。

在CIFAR-10上,UDA加入NAF后,在第20个训练周期的准确率从56.11%跃升到76.94%,提升了20.83个百分点。FixMatch加入NAF后提升了9.91个百分点。即使是原本表现就已经很强的FlexMatch和DST,加入NAF后也分别提升了0.37%和0.06%,虽然提升幅度在变小,但方向始终是正的。在CIFAR-100上,七种方法加入NAF后的平均提升在0.85%到2.84%之间。在DTD-47和Caltech-101上,这种插件效果也得到了进一步验证。

这种可插拔性是NAF框架设计上的一个重要优点:它不需要对现有方法做大的改动,只需要往损失函数里加两项,就能获得额外的性能提升。

九、拆开来看:每个设计选择为什么重要

研究团队做了一系列消融实验,专门研究NAF中每个设计决策的贡献。

去掉噪声分类损失,保留分布对齐损失,CIFAR-100上的准确率从49.98%降到47.33%。去掉分布对齐损失,保留噪声分类损失,准确率反而降到了40.64%,甚至比只有真实数据的ERM(42.24%)还低。这个对比很有说服力:如果只让模型正确分类噪声,但不去对齐噪声和真实图片的分布,模型会在噪声空间里形成结构,但这个结构和真实图片完全不在一起,反而产生干扰。两个损失必须同时使用才能发挥作用,而且分布对齐损失更关键。

研究团队还测试了噪声域失去判别性结构时会发生什么。他们构造了一种极端情况:所有类别共用同一个噪声向量的50个完全相同的副本,也就是把所有噪声"折叠"成一个点。在CIFAR-10上,这种设置下NAF的准确率降到了33.34%,远低于ERM的58.15%。在CIFAR-100上,同样的操作让准确率从42.24%崩溃到6.79%。这个对比说明,噪声域的判别性结构是NAF成功的必要条件,而不仅仅是噪声的存在本身。

十、噪声怎么生成:灵活性的验证

研究团队还系统测试了噪声生成方式对性能的影响,从协方差尺度、噪声维度和分布类型三个维度进行了变化。

在协方差尺度方面,默认设定是单位协方差矩阵I,测试了0.1倍和10倍协方差的版本。结果显示,0.1倍协方差时准确率略有提升(50.38%),10倍协方差时略有下降(47.64%)。在噪声维度方面,默认维度是1024,测试了512和2048维,性能基本相当(分别为49.44%和51.04%)。在分布类型方面,默认用高斯分布,测试了对数正态分布和拉普拉斯分布,准确率分别为48.31%和49.99%,和默认设定差距很小。

这些结果说明NAF对噪声生成方式的具体设置不是特别敏感,不同的合理设定都能产生类似的效果。研究团队还测试了用类别均值直接作为噪声的两种变体:用固定正交向量作为类别均值(准确率46.68%)和用可学习的类别均值(准确率47.72%)。两者都超过了ERM,但都不如使用完整高斯采样噪声的默认设定(49.98%)。这说明更丰富的噪声样本确实能提供更好的结构引导。

十一、当有真实的源域数据时,噪声能达到多好的效果

研究团队在Office-Caltech-10数据集上做了一个有趣的对比实验:一组实验用噪声作为源域,另一组用真实的Amazon图片数据作为源域,两组都以Caltech图片数据作为目标域。结果显示,真实源域的性能略优于噪声源域(在50张源域样本时,真实源域91.14% vs. 噪声源域89.36%),但两者都远超没有任何源域的ERM(83.51%)。

这个结果说明:噪声数据虽然不能完全替代真实的源域数据,但在真实数据不可获取的情况下,噪声数据是一个相当有竞争力的替代品。而且两者的性能差距并不大,在某些样本数量设定下甚至非常接近。

十二、在类别不平衡的现实场景下依然有效

现实世界的数据往往不是平衡分布的:有些类别的样本很多,有些类别的样本很少。研究团队在一个长尾分布(也就是类别样本数量差异非常大)的CIFAR-10设定下测试了NAF,有标签数据的每类样本数从50到1不等,无标签数据从1000到4不等。NAF达到了56.38%的准确率和53.22%的宏F1分数,优于ERM的51.19%和45.73%。这说明NAF在不平衡的现实数据分布下同样有效,不局限于理想的均衡设定。

说到底,这项研究的核心洞察其实非常简单:你不需要有意义的数据才能教会模型组织自己的理解。只要给模型一个清晰的空间结构作为参考,让它知道不同类别之间应该如何分开,模型就能把这个结构迁移到真实数据上,从而学得更好。

随机噪声本身什么都不是,但当它被赋予结构——被分成不同的类别,被要求在表示空间里形成清晰的簇——它就变成了一位出乎意料的好老师。它不教你猫长什么样,但它告诉你:不同的类别应该住在不同的地方,不应该混在一起。

这项发现的实际意义在于,它给那些无法获取真实源域数据的场景提供了一个可行的解决方案。医院不能分享患者图片?没关系,用随机噪声来提供结构指引。企业的数据有版权限制?噪声数据可以免费生成,不涉及任何隐私和版权问题。这种思路或许会在数据稀缺的场景下开辟出新的应用空间。

当然,研究团队也坦诚地指出了这项工作的局限:框架里的两个权重参数目前靠人工调节,缺乏自动化的选择策略。而且现有实验主要集中在图像和文本分类这两类任务上,能否推广到推荐系统、语音识别、时序预测等更多场景,还有待进一步探索。有兴趣深入研究这一方向的读者,可以通过arXiv编号2606.00558查阅完整论文,代码也已在GitHub上公开发布(AIResearch-Group/SSNA)。

Q&A

Q1:半监督噪声自适应框架NAF为什么用随机噪声就能提升模型准确率?

A:NAF利用随机噪声在表示空间里构建出清晰的类别判别结构,不同类别的噪声被训练成分离的簇。通过分布对齐,真实图片的表示被"拉向"对应的噪声簇,从而让真实数据的类别边界也变得更清晰,最终提升分类准确率。关键在于噪声必须有判别性结构,纯粹混成一团的噪声反而有害。

Q2:半监督学习里标注数据那么少,NAF如何处理没有标签的大量图片?

A:NAF使用分类器为无标签图片生成"伪标签",并在训练过程中持续更新这些伪标签。无标签图片的表示会随着训练进行逐渐向对应的噪声类别簇靠拢,使得伪标签的质量越来越高。这种迭代更新机制让无标签数据也能参与到有效的学习过程中。

Q3:NAF框架对噪声生成方式有严格要求吗?换不同分布或者维度会不会效果差很多?

A:实验结果显示NAF对噪声生成方式的具体设定不是特别敏感。高斯分布、对数正态分布、拉普拉斯分布的效果差异很小;噪声维度从512变到2048性能也基本相当。真正重要的是噪声域必须具备类间可区分的判别性结构,也就是不同类别的噪声必须能被清晰区分,这是NAF发挥作用的核心前提。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新