中科院、港中文等提出HiFi-Inpaint：重塑Inpainting生成范式！

IP属地中国·北京 机器之心Pro 时间：2026-03-23 12:14:27

HiFi-Inpaint 的整体框架，包含了数据集构建流程、高频特征提取、SEA 模块以及 DAL 损失。采用固定的高频权重（Fixed）往往会导致特征冲突，在重绘区域产生明显的视觉伪影；而 SEA 模块巧妙地引入了可学习的权重因子（Learnable），使高频细节的注入更加平滑、自适应，最终生成的 “人 + 商品” 图像在光影与结构上更加和谐真实。传统的 Canny 边缘检测会无差别地提取所有轮廓，引入大量无用的背景杂乱信息（如红框所示）；而 HiFi-Inpaint 采用的特定频域滤波方法（Ours）能够精准高亮商品上的关键文字、Logo 与精细纹理（如蓝框所示），从而为 DAL 损失提供最纯净、最精确的像素级监督信号。左侧直方图展示了极为广泛的 Mask 面积占比分布，这意味着模型在训练后能自适应从 “小挂件” 到 “大物件” 的各种生成比例；右侧词云图则凸显了极其丰富的商品类别，为模型学习真实世界中千变万化的产品材质、形状和物理结构打下了极其坚实的数据基石。与 ACE++、Insert Anything 和 FLUX-Kontext 相比，HiFi-Inpaint 能够完美还原瓶身上的微小文字、Logo 和瓶盖纹理，拒绝 “AI 幻觉”。HiFi-Inpaint 在多项自动评估指标上取得最佳性能（上：合成测试数据，下：真实测试数据）。图注：无论是户外无人物理环境、大姿态全身视角、复杂商品遮挡，还是大幅度的风格迁移（如漫画风），HiFi-Inpaint 都能游刃有余。

在 AIGC 领域，基于参考图像的图像修复（Reference-based Inpainting）一直是一项备受关注的核心任务，它旨在利用参考图像引导修复过程，生成视觉一致的内容。这一技术在广告营销和电商领域有着巨大的应用潜力，例如让 AI 自动生成 “真人手持或穿戴商品” 的展示图。然而，真实世界的商业应用对高保真度有着极其苛刻的要求。现有的模型在处理这类高标准任务时常常 “翻车”，尤其是在精细细节的保留上显得力不从心：品牌 Logo 扭曲、包装文字乱码、产品纹理丢失等问题，成为了阻碍技术落地的最大痛点。
为了攻克这一难题，来自中国科学院大学、香港中文大学等机构的研究团队联合提出了HiFi-Inpaint模型。该工作深入探索了参考图像修复的本质，通过创新性地引入高频特征引导机制，实现了令人惊叹的高保真细节还原。目前，该项工作已被计算机视觉顶级会议CVPR 2026接收。

论文标题：HiFi-Inpaint: Towards High-Fidelity Reference-Based Inpainting for Generating Detail-Preserving Human-Product Images论文链接： https://arxiv.org/abs/2603.02210项目主页： https://correr-zhou.github.io/HiFi-Inpaint
行业痛点：为什么商品细节这么难搞？
虽然当前的扩散模型（Diffusion Models）在图像生成上取得了革命性进展，甚至能通过图像定制或文本驱动编辑来生成内容，但在处理高度定制化的 “人 + 商品” 图像时，依然力不从心。
现有的“基于参考图像的图像修复（Reference-based Inpainting）”方法提供了一个解决思路，但在实际应用中仍面临三大阻碍：
1.细节易丢失：扩散模型的去噪过程倾向于将内容 “平均化” 或产生幻觉，导致纹理、形状和品牌元素（如文字）的严重不一致。
2.监督信号粗糙：传统的隐空间（Latent Space）MSE 损失无法提供精确到像素级别的指导，难以约束高频细节。
3.缺乏高质量数据：大规模、多样化且精准对齐的 “人 + 商品” 开源训练数据极度匮乏。
核心洞察与解决方案：HiFi-Inpaint
为了解决上述问题，研究团队提出了HiFi-Inpaint。它的核心 Insight 在于：既然隐空间容易丢失高频信息，那就显式地将 “高频特征” 提取出来，直接注入到网络结构和损失函数中！

HiFi-Inpaint 能够将商品参考图无缝融合到带 Mask 的人物图像中，同时保持极高保真度的细节还原。
HiFi-Inpaint 基于 FLUX.1-Dev 架构进行了深度改造，其三大核心创新点如下：

1. 结构创新：共享增强注意力（Shared Enhancement Attention, SEA）
为了在重绘区域精准保留商品特征，研究团队设计了共享增强注意力模块。它利用共享的双流视觉 DiT 块来细化 Mask 区域内的视觉 Token。具体而言，模型在另一个分支中将商品图像的 Token 替换为对应的高频图 Token，通过学习一个权重因子，将高频特征注入回主干网络：

这种设计既增强了模型捕获复杂商品特征的能力，又因为参数共享机制，保持了模型的紧凑性（每个模块仅引入了一个额外参数）。

2. 训练策略：细节感知损失（Detail-Aware Loss, DAL）
仅仅在模型结构上发力还不够。为了弥补隐空间监督的不足，研究团队引入了细节感知损失函数。这是一种利用高频像素级监督的损失函数：

它专门针对 Mask 区域内的高频成分（如文字边缘、图案纹理）进行约束，有效指导了那些难以仅通过潜在级别监督恢复的细粒度细节的重建。

3. 数据破局：构建 HP-Image-40K 数据集
为了打破数据瓶颈，团队提出了一套自动化的 “自合成与过滤” 流水线，构建了包含 4 万多张高质量样本的数据集HP-Image-40K。流程包括：使用 FLUX.1-Dev 生成双联图（左侧商品，右侧人 + 商品）-> 边缘检测分割 ->YOLOv8 与 CLIP 进行语义一致性过滤 -> InternVL 进行文本重合度（Textual Filtering）过滤。这保证了训练数据中商品文字和形态的高度一致性。

惊艳的效果对比
有了高频特征引导和高质量数据的加持，HiFi-Inpaint 在定量和定性评估上都展现出了统治力。

在自动评估指标中，HiFi-Inpaint 在文本对齐（CLIP-T）、视觉一致性（CLIP-I 达到 0.950，DINO 达到 0.919）和结构相似度（SSIM-HF 达到 0.429）上均取得了 SOTA（State-of-the-Art）的表现。

此外，即使在更为复杂、未见过的真实世界数据集（包含复杂光照、遮挡、室内外场景）上，HiFi-Inpaint 依然表现出了强大的泛化能力和鲁棒性，能够自然地将目标商品融入场景并保留关键视觉属性。

总结与思考 (Takeaways)
HiFi-Inpaint 的出现，为电商海报生成、商品虚拟试用等商业落地场景扫清了一大障碍。它的成功给我们带来了两个核心启发：
1.高频信号不可忽视：在生成模型全面走向高保真度要求的今天，单纯依赖网络 “自己领悟” 隐空间特征在某些任务中是不够的。显式地引入传统图像处理中的先验（如通过傅里叶变换提取高频图），能为模型提供极其精准的 “锚点”。
2.Data-Centric AI 依然奏效：利用大模型进行自动化数据合成与多重严格过滤，并进行自蒸馏学习，是突破领域数据匮乏的高效途径。
目前该工作已被顶级计算机视觉会议 CVPR 2026 接收。期待未来能在更多商业和视频生成场景中看到它的身影。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

谷歌AI人才外流压力加剧：再失两名核心研究员转投Anthropic

周鸿祎谈“放弃龙虾”：对Token的消耗太浪费了，没有道理的消耗

周鸿祎ISC透露纳米Work，360新一代AI工作平台亮相

「游戏风云」阿里“游戏独子”出售悬念升级：买家阵营谁最迫切

千问大模型发布首个原生语言世界模型Qwen-AgentWorld

沈阳至广州汽车托运如何选？看资质运力服务口碑，百联运车成靠谱之选

全站最新

谷歌AI人才外流压力加剧：再失两名核心研究员转投Anthropic

周鸿祎谈“放弃龙虾”：对Token的消耗太浪费了，没有道理的消耗

周鸿祎ISC透露纳米Work，360新一代AI工作平台亮相

国产混动另辟蹊径：部分场景超越日本，走出特色技术发展之路

热门推荐

谷歌AI人才外流压力加剧：再失两名核心研究员转投Anthropic

周鸿祎谈“放弃龙虾”：对Token的消耗太浪费了，没有道理的消耗

周鸿祎ISC透露纳米Work，360新一代AI工作平台亮相

杰创智能等在杭州成立智能科技公司注册资本500万

亚马逊储瑞松：模型能力与工程体系共促 Agentic AI 爆发拐点已至

字节再发力！Seedance2.5升级，AI视频生成迈向新高度

「游戏风云」阿里“游戏独子”出售悬念升级：买家阵营谁最迫切

千问大模型发布首个原生语言世界模型Qwen-AgentWorld

美国餐饮大牌，集体姓中

苏泊尔十年：熬成了养老股

NMPA正在为中国创新药建立全球定价权

中际旭创们，被华尔街玩成了AI刮刮乐

卖300元跑鞋的“小李宁”必迈，也想做凯乐石

AI眼镜赛道全面起势，离“非戴不可”还有多远？

AI眼镜赛道全面起势，离“非戴不可”还有多远？