当前位置: 首页 » 资讯 » 科技头条 » 正文

华盛顿大学与谷歌联合研究:让AI真正"读懂"你的尺码

IP属地 中国·北京 科技行者 时间:2026-04-18 04:29:48


这项由美国华盛顿大学与谷歌研究院联合完成的研究,以论文编号arXiv:2604.08526v1的形式,于2026年4月公开发表。研究聚焦于一个我们在网购时几乎每次都会遭遇的烦恼——明明模特穿起来很好看,买回来却不是太宽松就是太紧绷。这项研究尝试从根本上解决这个问题,让AI系统在生成"虚拟试衣"图片时,真正懂得"这件L码的衬衫套在XS码的身材上到底会是什么样"。

一、为什么我们需要一个能"认尺码"的AI

网购已经成为很多人生活的日常,但服装退换货率居高不下,其中最主要的原因就是尺码不合适。现有的"虚拟试衣"技术,说白了就是把衣服的外观贴到人的身上,就像把一张贴纸换了个颜色,再往同一个轮廓上一贴,管你是XS还是3XL,模特的轮廓不变,衣服的外观也不变,结果就是每个人看起来都好像穿了一件量身定制的衣服。这显然是不真实的。

现实中,一件XS码的紧身T恤套在一个身材高大的人身上,袖子会短一截,胸口会绷紧,腰线会上移;而一件3XL的宽松外套穿在一个娇小身材上,肩线会垂下来,袖子会盖过手掌,整件衣服更像是在"穿"人而不是人在"穿"衣服。这些细节,现有的AI系统几乎完全忽视了。

研究团队给出了一个直白的诊断:问题的根源在于没有合适的训练数据。所有现有的虚拟试衣数据集,都是从电商网站爬取的商品图,而商品图天然呈现的是"合身"状态——没有哪个品牌会专门拍"穿错码数"的效果图。这就好比你想培训一个厨师学会处理"烤焦了"或"没烤熟"的情况,但你能找到的教学材料里全部都是"完美出炉"的蛋糕,厨师自然就学不会如何判断和处理异常情况。

正因如此,研究团队决定自己"造"数据。他们创建了一个名为FIT(Fit-Inclusive Try-on,意为"包容各种合身度的试衣")的大规模数据集,其中包含超过113万组图片样本,每一组都附带精确的人体测量数据和服装测量数据,涵盖了从极度宽松到极度紧绷的各种穿着情况。

二、数据从哪来:用物理仿真"模拟"现实世界的穿衣体验

既然现实世界里找不到足够的"穿错码"照片,研究团队选择在电脑里"模拟"出来。他们使用了一个名为GarmentCode的参数化编程框架,这个框架可以像写代码一样,精确地描述一件衣服的缝纫图样——领子有多大、袖子有多长、腰围是多少厘米,全部精确到厘米级别。

具体操作就像是用数字积木搭建衣服。研究团队先根据某个特定体型(比如M码身材)设计出一套裁剪图样,然后不是把这套图样缝在M码的人体模型上,而是故意把它"套"到一个完全不同尺寸的人体模型上——比如XS码或者2XL码的身材。这个过程通过物理仿真引擎来实现,系统会计算布料在受到拉伸或堆积时的真实物理变化,包括褶皱出现的位置、布料下垂的方式、紧绷时的纹路走向。

这种做法有一个技术上的挑战:当一套为M码身材设计的裁剪图样要被套到XS码或3XL码的身体上时,软件里的"初始框架"(用来确定衣服各部分从哪里开始展开的参照系)和新的人体模型位置会对不上,导致仿真失败,就好像你要把一件为成年人设计的外套用来包裹一个小孩,外套的肩部框架和小孩的肩膀根本不在同一个位置。为此,研究团队专门开发了一套"框架重新对齐"的方法,在仿真开始前先把参照框架调整到与目标人体对应的位置,确保仿真能够成功运行。

除此之外,GarmentCode默认会把上衣和下装缝合成一体,这样就无法模拟"衬衫没有塞进裤子"的日常穿着状态。研究团队修改了这个默认行为,让系统先单独模拟下装的下垂和形变,再在此基础上叠加上衣,从而实现上下装之间自然的层叠关系。

仿真完成后,研究团队还会把这些固定在A字站姿(双臂微张的标准测量姿势)下的3D模型重新姿势化,从528种不同的日常姿势中随机选取一种,让最终生成的图片更接近真实的穿着场景。整个数据集涵盖了168种不同的体型(其中82种男性体型,86种女性体型),尺码范围从XS一直延伸到3XL,并记录了超过15万种不同的上装和外套设计。

三、从"塑料感"到"真实感":把虚拟模型变成照片般的画面

物理仿真出来的3D渲染图,看起来难免有一种"游戏里的NPC"质感——人物没有头发,脚上光秃秃的,衣服质地单一没有细节。如果直接用这些图片来训练AI,训练出来的系统也只会生成同样"游戏感"十足的图片,放到真实的电商场景里根本没有实用价值。

研究团队为此专门设计了一套"重新上色"流程,目标是在完全不改变衣服形状和人体轮廓的前提下,给图片换上真实的质感和外观。这个过程的关键工具是"法线贴图"——这是一种特殊的图像,它不记录颜色,而是记录物体表面每一个点朝向哪个方向,本质上是把物体的立体形状信息编码成一张图。研究团队发现,真实照片和3D渲染图在法线贴图上的差异,远小于它们在颜色和质感上的差异,因此可以用法线贴图作为"桥梁",让AI学会"给定这个形状,生成这种质感"。

基于这个思路,研究团队基于Flux.1-dev(一个由Black Forest Labs开发的强大图像生成模型,参数量达到120亿个,相当于一个超大型的图像创作引擎)训练了一个重新上色模型,输入是法线贴图加上文字描述,输出是具有真实质感的人物图片,同时保持衣服的形状和人体的轮廓完全不变。

为了缩小虚拟和真实之间的差距,研究团队还补充了几个细节处理步骤。首先,他们用另一个AI工具给3D人物模型补上了真实的面部特征、发型和鞋子,然后把这些部位的法线信息也整合到原始的合成法线贴图中,确保最终输出的人物有完整的外貌。其次,为了增加布料多样性,研究团队准备了72种不同的布料类型(包括皮革、棉布、丝绸等),在生成文字描述时随机选择一种注入进去,让AI学会根据文字描述生成对应的布料质感。

四、解决"同一个人换了件衣服"的配对问题

训练虚拟试衣AI,理想的数据格式是这样的:同一个人,同一个姿势,穿着不同的衣服,同时配上这件衣服单独平铺的图片。这样AI就能学习"如何把这件平铺的衣服穿到这个人身上"。然而在现实世界里,几乎不可能找到这样的配对数据——摄影棚不会特地给同一个模特拍两套衣服的完整全身照,而且要保证姿势完全相同更是几乎不可能。

现有的解决方案,通常是用AI"假造"一张配对图——先有一张人物图,让另一个AI系统把衣服换掉,把这张"假造"的图当作训练数据。但这种做法的问题在于,假造的图本身就可能有错误,用错误的数据训练出来的模型,会把这些错误"遗传"下去。

FIT数据集的合成流程天然解决了这个问题。因为所有数据都来自3D仿真,研究团队可以完全控制所有变量——固定同一个3D人体模型和同一个姿势,只是换上不同的衣服,就能得到真正配对的图片对。这就好比你有一个可以随时换装的实体模特,不需要"假造",真实的配对数据信手拈来。

研究团队在此基础上进一步设计了一套身份保持生成流程。他们先生成主要的试衣图片,然后通过以下方式生成配对图片:把主图中所有衣服覆盖的区域(包括要换掉的衣服和目标衣服各自覆盖的区域)都遮掉,只保留头部、背景、手臂等非服装区域,形成一张"身份底图";再结合目标衣服的法线贴图和文字描述,让重新上色模型在保持身份底图所有细节的前提下,只在被遮掉的区域里生成穿着新衣服的效果。这样生成的配对图片,不仅人物身份高度一致,就连背景细节和肢体姿势都几乎完全相同。

至于每件衣服平铺的"商品图",研究团队选择用另一个AI工具直接从试衣图片中"脱下"衣服,生成对应的平铺商品图,省去了单独拍摄的需要。

五、把测量数据"喂"给AI:全新的测量值编码器

有了高质量的训练数据,下一步是设计一个真正能理解尺码信息的AI模型。研究团队将这个模型命名为Fit-VTO,它的输入包括三个部分:一张平铺的商品图、一张穿着其他衣服的人物参考图,以及一组测量数值。测量数值包含七个维度,其中人体侧有四个:身高、胸围、腰围、臀围;服装侧有三个:衣长、胸宽、袖长。

怎样让AI理解这些数字?这是一个非常实际的工程问题。研究团队发现,直接把数字转换成文字再用现有的文字编码器来处理,效果不好——文字编码器是为了理解语言而设计的,它对"96厘米"和"97厘米"之间的差异几乎无法感知,就好比一个受过文学训练的翻译家,你让他分辨两段音乐之间微小的音调差异,他也会两眼一抹黑。

研究团队为此设计了一个专门的"测量值编码器",核心思路是"傅里叶特征嵌入"——这是一种在信号处理领域常用的技术,可以把单个数值扩展成一组有规律变化的波形信号,让神经网络更容易捕捉到数值之间细微的差异。每个测量维度被扩展成16个相关联的数值,七个维度合计输出一个112维的向量,再经过一个多层神经网络映射到3072维的空间,与图像信息一起输入到扩散模型的每一层注意力机制中。

在模型架构上,Fit-VTO基于Flux.1-dev的多模态扩散变换器骨架,人物参考图的编码与目标图片在通道维度上拼接(因为两者在空间上是像素对应的),而服装图的编码则与其他信息在序列维度上拼接(因为服装图在空间上并不直接对应目标图片,需要先经过模型自行"对齐")。整个模型只需要训练少量的LoRA参数(一种让大型预训练模型高效适应新任务的轻量微调方法),绝大部分参数保持冻结,节省了大量计算资源。

六、实验结果:数字和图片都说话

为了检验Fit-VTO的表现,研究团队在两个数据集上进行了测评:一个是经典的VITON-HD数据集(一个广泛使用的虚拟试衣基准测试集,里面都是真实电商图片),另一个是他们自己构建的FIT测试集(包含1000个合成样本,覆盖各种尺码组合)。

在配对图片生成质量方面,研究团队对比了四种方案:直接让大型视觉语言模型(VLM)来换装、用现有的虚拟试衣模型来换装、用图像修复模型来换装,以及他们自己的方法。量化指标用的是"遮掩区域L1距离",也就是在非服装区域(背景、头部、肢体),生成图片和原始图片之间的像素级差异。他们的方法得分为1.61,而语言模型方法得分4.45,虚拟试衣模型方法得分2.29,修复模型方法得分3.91。简单说,数值越小代表配对图片的人物身份保持得越好,他们的方法以明显优势领先所有竞品。

在试衣质量方面,Fit-VTO在FIT测试集上的几乎所有指标上都表现最佳,包括SSIM(衡量图像结构相似度)、FID(衡量生成图像与真实图像的整体分布差距)、LPIPS(衡量人眼感知上的差异)和KID(类似FID的另一种分布差异指标)。特别是在专门衡量尺码准确性的IoU指标上(通过比较生成图片和真实图片中服装区域的重叠程度来判断服装大小是否被正确还原),Fit-VTO的得分为0.955,远高于次优方法的0.932,也远高于其他所有对比方法。在VITON-HD这个真实数据集上,Fit-VTO也表现出色,在没有额外在VITON-HD数据上微调的情况下,综合表现就已与专门在VITON-HD上训练的IDM-VTON相当,而针对该数据集专门微调后,Fit-VTO在绝大多数指标上进一步超过IDM-VTON。

研究团队还通过消融实验逐一验证了各个组件的贡献。只用真实网络图片训练(不用FIT数据)的版本在VITON-HD上表现尚可,但在FIT测试集的IoU指标上大幅落后,说明真实数据里的尺码信息不足以让模型学会尺码感知。只用FIT数据训练(不加真实图片)的版本在FIT测试集上表现很好,但在VITON-HD上出现了明显的泛化下降,说明单靠合成数据也不够,两者结合才能达到最佳效果。用文字编码器代替专门的测量编码器的版本,在IoU上的表现也明显弱于使用专门测量编码器的完整版本,验证了设计专用编码器的必要性。

七、局限与未来方向

研究团队坦率地指出了当前工作的几个边界。第一,物理仿真对"紧绷程度"的区分能力有限。当一件衣服的尺码比穿着者的身材小时,仿真结果就是布料紧贴皮肤——无论是稍微偏小还是严重偏小,视觉上的差异都不大,因为布料本身不会拉伸超过身体的轮廓。这导致模型很难区分"稍紧"和"极紧"这两种体验上差异显著但视觉上几乎一样的状态。第二,测量值之间的相关性会限制独立调节单个维度的能力。在现实的服装设计中,衣长、宽度和袖长往往是按照比例同时变化的,这种相关性也被学进了模型里,因此当你单独调高衣长时,模型可能也会顺带稍微加宽一点衣服的宽度。

在研究范围上,当前的FIT数据集只覆盖了上装,且姿势主要是日常休闲站姿,没有涉及复杂的动作或多角度拍摄。研究团队明确表示,下一步计划扩展到下装和全身服装,并增加姿势和拍摄角度的多样性。

归根结底,这项研究做的事情,是给虚拟试衣这件事补上了一块长期缺失的拼图——"合身度"。之前的AI系统只能回答"这件衣服长什么样",现在的Fit-VTO开始尝试回答"这件衣服穿在我身上会是什么样",而这恰恰才是购衣者真正想知道的答案。

这对普通消费者来说,意味着未来在网购时,虚拟试衣展示的效果将不再是模特穿上的效果,而是你自己的身材穿上之后的效果——包括宽松还是合身,袖子是否够长,腰部是否会显出多余的布料。当然,这项技术距离真正落地到每个人的购物车旁边,还有一段路要走,但方向已经清晰了。

研究团队构建的这套从物理仿真到真实感渲染、再到尺码感知生成的完整流程,也为其他类似的"合成数据弥补真实数据不足"的研究场景提供了一个可以借鉴的框架。有兴趣深入了解技术细节的读者,可以通过论文编号arXiv:2604.08526查询完整原文。

Q&A

Q1:FIT数据集是真实拍摄的图片还是AI生成的?

A:FIT数据集中的图片是通过合成流程生成的,并非真实拍摄。研究团队先用物理仿真引擎模拟不同尺码的服装穿在不同体型人体上的效果,生成3D渲染图,再通过一套基于扩散模型的重新上色流程,将这些3D渲染图转换成具有真实质感的图片。最终图片的服装形状和人体轮廓来自物理仿真,外观质感来自AI重新生成,两者结合,既保证了尺码信息的精确性,又达到了接近真实照片的视觉效果。

Q2:Fit-VTO需要输入哪些信息才能生成试衣图?

A:Fit-VTO需要三类输入:第一是目标服装的平铺商品图,就是那种常见的衣服单独摆放在白色背景上的图片;第二是穿着者的参考图,即这个人穿着其他衣服时的全身照;第三是一组测量数值,包括穿着者的身高、胸围、腰围、臀围,以及目标服装的衣长、胸宽和袖长,共七个数据。模型根据这三类输入合成穿着者穿上目标服装、按照真实尺码呈现合身度的图片。

Q3:FIT数据集和现有虚拟试衣数据集相比有什么本质区别?

A:现有虚拟试衣数据集,如ViTON-HD、DressCode等,基本都是从电商网站爬取的商品图和模特图,这类数据天然只展示"合身"状态,没有"穿错码"的情况。FIT数据集的根本区别在于:它专门包含了各种尺码错配的场景,从极度宽松到极度紧绷都有覆盖,并且每个样本都附有精确到厘米的人体和服装测量数据。此外,FIT提供的是真正配对的三元组数据,即同一个人穿不同衣服的图片对,这是现有真实数据集几乎无法提供的。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。