当前位置: 首页 » 资讯 » 科技头条 » 正文

浙江大学等机构携手开发的"万能分割学习器"究竟有多强?

IP属地 中国·北京 科技行者 时间:2026-05-12 22:27:56


这项由浙江大学、华南理工大学、南京大学和北京大学联合开展的研究,发表于2026年4月,论文预印本编号为arXiv:2604.24575,感兴趣的读者可通过该编号在arXiv平台查阅完整论文。

说起图像分割这件事,可能听起来有些陌生,但它其实无处不在。当手机相机替你把人物从背景中"抠出来"时,当医院的AI系统在CT扫描图像里找出肿瘤边界时,当无人驾驶汽车判断哪里是道路哪里是行人时,这背后都离不开图像分割技术——也就是让计算机准确地在图片里辨认出"这一块是猫,那一块是桌子,另一块是天空"的能力。

然而,这个领域长期面临一个令人头疼的困境:每做一类任务,就得专门训练一个模型。识别医学影像的模型无法直接用于识别农田里的杂草,能看懂城市道路的模型换个场景就认不出来。研究人员想要跨越这道鸿沟,打造一个真正"万能"的分割系统,多年来一直是行业内的重大挑战。

正是在这样的背景下,来自浙江大学等机构的研究团队提出了一个令人眼前一亮的思路:扩散模型(也就是现在各类AI绘图工具背后的核心技术)在"学会画画"的过程中,其实已经悄悄掌握了理解图像的深层能力——而这种能力完全可以被"改造"成强大的图像分割引擎。他们把这个系统命名为DiGSeg,全称是"Diffusion Models as a Generalist Segmentation Learner",直译过来就是"扩散模型作为通用分割学习器"。

一、扩散模型究竟是什么,为何它藏着理解图像的秘密

要理解DiGSeg为什么有趣,先得知道扩散模型是怎么回事。你可以把扩散模型理解成一个经过了大量练习的"画家修复师"。训练时,研究人员会把一张清晰的图片一步步加入噪点,直到变成一堆随机的雪花点,然后反复让模型学习如何把雪花点还原回清晰图片。这个过程就像是把一幅精美的油画一层层涂满白漆,再训练一个"专家"把白漆一层层剥除还原。

Stable Diffusion这类工具就是这样炼成的。它们见过海量的互联网图片,经过亿万次"涂白漆再还原"的训练,内部已经积累了关于这个世界视觉规律极为丰富的知识——哪些像素应该和哪些像素待在一起,什么样的轮廓对应什么样的物体,颜色和纹理背后代表什么语义。

以往大家都把这类模型当成"生成器"来用,让它凭空画出不存在的图像。然而浙大等机构的研究团队注意到,这个画家在学会"修复画作"的漫长过程中,其实已经把整个视觉世界的逻辑都装进了脑子里。这些内化的视觉知识,就像是厨师学会了所有食材的特性,即便不用来做原本的菜肴,也完全可以转去做另一道菜——比如分割图像。

二、过去的方法为何总是"差那么一点"

在DiGSeg之前,已经有不少研究者尝试过用扩散模型来做图像分割。当时最主流的思路是"偷看注意力地图"。所谓注意力地图,可以理解成模型在处理图像时,对图像不同区域"关注程度"的可视化。比如模型在思考"猫"这个词的时候,图像里猫所在的区域就会被高亮。研究人员于是想:把这些高亮区域直接拿来做分割不就行了?

这个思路听起来合理,但实际效果差强人意,原因在于这些注意力地图本质上是扩散模型"顺带产生的副产品",并非专门为分割任务设计。它们往往分辨率低、边界模糊,同一张图片反复跑多次结果还不一样,需要大量后处理才能用,就像是用安全锤去雕刻精细纹路,力道虽在,精度却差。另外,这些方法通常只能处理某一类特定任务,换个场景就歇菜。

DiGSeg的团队决定采取一条完全不同的路:与其"偷看"扩散模型处理图像时的中间状态,不如直接"教"它明白无误地产出分割结果。

三、DiGSeg的核心思路:把画家训练成分割专家

DiGSeg的根本思路可以用一个简单的类比来说明。假设你有一位天才美术生,他在艺术学院学了十年,眼睛对图像的理解已经达到炉火纯青的境界。现在你想让他转行去做地图标注——在卫星图像上画出哪里是道路,哪里是建筑。你不需要让他从头学起,只需要给他专项练习,教他把原本在脑子里对图像的深刻理解,转化成标注地图这件具体的事情。DiGSeg做的,正是这样一件事。

整个框架由三个紧密协作的组成部分构成。第一个部分叫做"视觉潜在通路"。研究团队借助扩散模型自带的图像编解码器(一种把图像压缩成紧凑数字表示再还原的工具),将输入的彩色图片和对应的分割标注图,都转换成一种紧凑的"潜在表示"。这就好比把一本厚重的百科全书压缩成一张记忆卡片——关键信息都在,但体积变小了,处理起来更高效。由于分割标注图只有单个通道(黑白式的标注),而编解码器是为三通道彩色图像设计的,研究团队采用了一个简单粗暴但有效的方法:把单通道的标注图复制三遍,伪装成彩色图像再送进去。验证实验表明,这样处理之后,编解码器还原出的标注图与原始标注之间的误差极其微小,完全在可接受的范围内。

第二个部分叫做"CLIP对齐文本条件模块"。CLIP是OpenAI开发的一项技术,能够让计算机同时理解图片和文字,并在两者之间建立联系——知道"一只毛茸茸的橘猫"这段文字和对应猫的图片是同一件事。DiGSeg把CLIP的文字理解能力嫁接到扩散模型中,让模型在产生分割结果的整个过程中,始终有文字描述在旁边"对齐语义"。这种设计的妙处在于,当你告诉系统"请把图里的道路分割出来",它就能理解"道路"的含义,进而找到图像里对应的区域。这一特性使得DiGSeg天然支持开放词汇分割——也就是说,分割的类别不需要在训练时就预先设定好,你可以在使用时临时输入任意类别名称。

第三个部分是整个系统的"发动机"——经过改造的去噪U-Net。U-Net是一种特殊的神经网络结构,扩散模型用它来执行"从噪点还原图像"的核心工作。DiGSeg对这个网络进行了精细的微调训练:在训练时,系统先往分割标注的潜在表示里加入随机噪点,然后让U-Net在接收原始图片信息和文字描述的条件下,把噪点一步步还原出正确的分割标注来。这个训练目标明确指向"输出分割结果",而不是原来的"输出逼真图像",因此模型学到的是如何产生高质量的分割掩模,而非如何画出漂亮的风景照。

训练过程中,研究团队冻结了绝大多数参数,只调整U-Net的交叉注意力层(负责让视觉信息和文字信息相互影响的部分)以及一个小型的投影层。这样做的好处是,模型原本在大量图片上积累的视觉理解能力得以完整保留,只是在此基础上叠加了分割方面的能力。

四、推理阶段:从随机噪点到精准分割图的完整旅程

系统训练好之后,实际使用时是这样运作的。给定一张需要分割的图片,系统首先把图片编码成潜在表示,然后生成一团随机的噪点作为起点。接下来,去噪U-Net在图片信息和文字信息的双重引导下,一步一步把这团噪点"雕刻"成分割标注的潜在表示,最终由编解码器还原成像素级的分割掩模。

这里有一个技术细节值得一提。研究团队发现,传统的DDIM(一种加速扩散推理的方法)在步骤安排上存在一个小问题:训练时和推理时选取的噪点步骤不一致,导致效果打折扣。他们改用了"尾随时间步"策略,使推理过程与训练过程更加匹配。这个改动带来了显著的效率提升——只需一步去噪就能得到相当不错的结果,这对一个扩散模型来说相当惊人,因为通常这类模型需要几十甚至上百步才能产出像样的结果。

此外,团队还引入了"测试时集成"技巧:对同一张图片用不同的随机噪点种子跑多次,然后在潜在空间里对结果取平均,再解码输出。这就像是让多个评委对同一张卷子打分然后取平均,结果往往比单个评委更稳定可靠。测试表明,集成8次的效果明显好于单次推理,而集成超过10次之后,提升就开始趋于平稳,再增加次数收益递减。

在开放词汇场景下,系统还有一套额外的"选词"流程。对于一张新图片,系统会先用CLIP的视觉-文字对比能力,扫描整个类别词汇表,找出与这张图片相关度较高的候选类别。为了不遗漏小目标,系统还会把图片切成小块,对每个小块单独评分,如果某个小块和某个类别高度匹配,这个类别也会被纳入候选集。确定候选类别之后,系统对每个类别都跑一次分割推理,得到该类别对应区域的概率图,最后在每个像素位置取概率最高的类别作为最终标注。

五、一个小阈值的大学问:τ参数的影响

由于系统输出的是介于0到1之间的连续概率值,最终需要设定一个门槛(研究团队称之为τ,读作tau),高于门槛的判为"属于该类别",低于门槛的判为"不属于"。

研究团队对这个门槛进行了仔细研究,发现不同类别的最佳门槛存在差异。牛这样的大型、颜色均匀的动物,在较高的门槛(约0.76)处表现最好;而瓶子这样相对细长的小物体,则在较低的门槛(约0.66)处效果最佳。门槛太低,小物体区域容易被过度扩张;门槛太高,边界细节又容易被削减。

为了保持系统的简洁通用性,研究团队刻意不针对每个类别单独调整门槛(那样会使系统复杂化),而是选择了一个在各类任务上综合表现优秀的固定值:τ=0.7。在语义分割、开放词汇分割以及各类下游任务上,这个单一固定值都表现出了稳定的良好性能。

六、一套特别的噪点配方:多分辨率退火噪点

训练用的噪点听起来似乎微不足道,但研究团队在这里下了一番功夫,提出了"多分辨率退火噪点"策略。

普通的训练噪点就是全像素均匀的随机干扰,类似于把一幅画均匀地洒满细沙。而多分辨率噪点则是把不同粗细颗粒的沙子混合在一起——既有细密的高频扰动,也有成片的大块低频扰动。高频扰动帮助模型学会关注精细的边界细节,低频扰动帮助模型保持对大范围语义区域的整体认知。

"退火"的意思是这两种成分的比例随时间变化:在训练早期(噪点较多的阶段),高频成分占主导,促使模型关注细节;随着去噪进行(噪点逐渐减少),低频成分比重上升,引导模型把握整体语义结构。这种动态调配机制使训练更稳定,最终产出的分割边界更平滑、准确。

消融实验(也就是把某个组件单独拆除来观察效果变化的实验)验证了这一设计的价值。单纯的高斯噪点在COCO和ADE20K数据集上分别得到48.9和56.7的分数;加入退火噪点小幅提升到49.2和57.1;加入多分辨率噪点提升更明显,达到49.7和57.6;而两者同时使用则取得最佳成绩50.8和58.6。

七、用数字说话:DiGSeg在各类测试中的表现

研究团队在多个标准测试集上对DiGSeg进行了系统评测,结果相当全面。

在开放词汇分割的测试上,研究团队选取了五个常用基准:A-847(涵盖847个类别,极为细粒度)、PC-459(459个类别)、A-150(150个常见类别)、PC-59(59个常见类别)以及Cityscapes(城市场景)。评价指标是mIoU,也就是预测区域和真实标注区域的重叠比例的平均值,数字越大越好。

使用更强的视觉基础模型(CLIP ViT-L/14)的情况下,DiGSeg在五个测试集上分别取得了19.9、29.2、43.2、68.4和38.5的成绩,比此前最好的方法分别高出1.8、2.2、1.4、2.8和0.6个百分点。使用轻量级视觉基础模型(CLIP ViT-B/16)时,DiGSeg同样在所有测试集上拿到第一,分别比次优方法高出3.3、2.0、1.6、3.7和1.3个百分点。值得注意的是,这些对比方法中不少都有专门为某些测试集额外收集数据或使用特殊结构的优化,而DiGSeg使用的是同一套通用训练配置。

在闭集语义分割(也就是类别固定不变的传统任务)上,DiGSeg在COCO上取得50.8的mIoU,在ADE20K上取得58.6,均超过了此前最好的结果,分别高出2.1和1.3个百分点。

跨领域测试的结果同样令人印象深刻。在遥感道路提取任务(DeepGlobe数据集)上,DiGSeg取得了65.78的道路交并比,比专为遥感任务设计的最优方法高出8.5个百分点,在精确率、召回率和F1分数上也均有提升。在农业图像分割任务(Phenobench数据集,需要区分作物和杂草)上,DiGSeg取得76.66的总体mIoU,超出次优方法约1.8个百分点。这两项成果都是在不改变任何网络结构、不做任何领域专项调整的情况下取得的,说明DiGSeg的通用性是货真价实的。

不过,在医学图像分割(REFUGE-2眼底图像数据集)上,DiGSeg的表现相对平淡,仅取得34.5的IoU和51.3的Dice分数,远低于专门针对医学任务训练的模型(最好的达到79.1的IoU)。研究团队对此给出了坦诚的解释:CLIP在网络上的大规模训练数据中,医学影像极为稀少,导致系统对医学图像的文字-视觉对齐能力相当有限。这是当前方法的明确局限,未来需要专门的医学领域适配才能改善。

八、数据省着用:少量标注下的惊人表现

研究团队还做了一项很有实用价值的实验:如果训练数据不够充分,系统会退化多少?

他们在ADE20K数据集上依次只用全量数据的1/2、1/4、1/8和1/16进行训练,然后测试效果。结果显示,使用一半数据时,系统的表现和使用全量数据几乎没有差别,mIoU下降幅度极小。即便只用四分之一的数据,结果依然相当强劲。这说明扩散模型在大规模图像生成任务上积累的视觉知识是真实有效的,只需要少量任务专属的监督信号,就能让这些知识快速激活并迁移到分割任务上。

这种数据效率的优势对于标注数据昂贵的领域(如医学影像)意义重大。当然,针对医学领域还需要解决CLIP文字-视觉对齐不足的问题,但至少在数据量方面,DiGSeg的框架本身是相当节约的。

九、速度代价与加速技巧

作为一个扩散模型,DiGSeg相比普通的前向传播式分割模型慢了不少。研究团队对此非常坦率,把速度数据和性能数据一并公开。

在最快的配置(每张图片只跑1次推理,去噪只走1步)下,系统可以达到每秒处理11.27张图片,mIoU为48.2(COCO)和56.8(ADE20K)。常用的8次推理、每次2步的配置,速度降至每秒3.15张,但mIoU提升到50.8和58.6。如果不使用DDIM尾随加速,而是完整走20次推理、每次50步,速度仅有每秒0.12张,但mIoU仅略微提升到50.9和58.8——性价比极低。

对于大多数非实时应用场景(如批量分析医学图像、遥感图像处理等),3到11帧每秒的速度完全可以接受。而扩散模型加速是当前一个非常活跃的研究领域,团队也指出,未来应用蒸馏、一致性模型等加速技术,速度还有很大的提升空间。

十、跨领域迁移的选择题:训练数据的相关性比数量更重要

研究团队还做了一项有意思的跨领域迁移实验,探究"用什么数据训练的模型,迁移到新领域效果更好"。他们分别用只有COCO的模型、只有ADE20K的模型,以及两者都用的模型,去评测Cityscapes和BDD100K(两个城市驾驶场景数据集)上的表现。

结论出人意料地明确:只用ADE20K训练的模型,在Cityscapes上取得了41.22的mIoU,在BDD100K上取得37.55,全面胜过只用COCO训练(37.80和35.76)和两者混合训练(38.74和36.89)的版本。

原因在于,ADE20K包含极为丰富的场景类别和细粒度标注,对室外街景的语义理解覆盖更全面;而混合使用COCO之后,反而因为COCO的标注风格和类别分布与城市驾驶场景不完全匹配,带来了干扰。这个结果提醒我们,在选择训练数据时,数据与目标任务的相关性比数据的绝对数量更加重要。

说到底,DiGSeg这项研究传递的核心信息,是对"生成模型"和"理解模型"之间那道人为边界的一次有力质疑。长久以来,研究界默认这两件事应该分开来做:画画的模型就是用来画画的,理解图像的模型另起炉灶单独训练。但扩散模型在学习如何"修复图像"的过程中,已经不可避免地深入理解了图像本身,而这种理解恰恰是分割任务所需要的。

DiGSeg的实际意义不仅仅在于它在各项测试上超过了其他方法,更在于它表明了一条新路:未来也许不需要为每个视觉任务单独堆砌训练数据和专用架构,而是可以从已经积累了海量视觉知识的生成模型出发,以相对低廉的成本迁移到各类理解任务上。这对医学、农业、遥感等标注数据稀缺的专业领域,意味着相当实际的节省。

当然,DiGSeg也留下了几个未解的问题。医学图像上的表现欠佳,说明纯粹依赖CLIP的文字-视觉对齐来处理专业领域是不够的。此外,和普通前向分割模型相比,速度仍然是一个短板,尽管已经可以通过减少推理步骤来大幅改善。扩散模型本质上还是一个概率生成过程,同一张图片多次推理结果会有随机波动,这在要求确定性输出的场景下也是需要额外处理的。

有兴趣深入了解这项研究的读者,可以通过arXiv编号2604.24575查阅完整论文,项目页面也在论文中有所注明,那里有更多定性和定量的结果展示。

Q&A

Q1:DiGSeg和普通图像分割模型有什么本质区别?

A:传统图像分割模型是专门为"识别并划定区域"这件事从零训练的,类别固定,换个领域往往就得重训。DiGSeg则是把原本用来"生成图像"的扩散模型改造而来,它利用的是扩散模型在学画画过程中已经内化的大量视觉知识。这带来了两个优势:一是不需要太多专属标注数据就能工作,二是天然支持用文字描述任意类别,不局限于训练时预设的固定类别表。

Q2:DiGSeg在医学图像上效果为什么不好?

A:核心原因是DiGSeg的文字理解部分依赖CLIP,而CLIP是用互联网上的普通图片和文字对训练的,医学影像在这些训练数据中极为稀少,导致系统对"视神经盘"、"肿瘤边界"这类医学专业概念的理解能力很弱,文字和图像之间的对应关系没能建立起来。相比之下,专门为医学任务设计并在大量医学图像上训练的模型,这方面自然更有优势。

Q3:DiGSeg速度够快吗,能用于实时场景吗?

A:在最快配置(单次推理、单步去噪)下,DiGSeg可以做到每秒约11张图片,这在一些非严格实时的批量处理场景(如遥感图像分析、医学影像筛查)完全够用。但如果追求最高分割质量(8次推理集成),速度会降到每秒约3张,无法满足需要每秒数十帧的自动驾驶等实时应用。不过扩散模型加速技术发展很快,未来通过蒸馏等手段有望显著提速。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新