当前位置: 首页 » 资讯 » 科技头条 » 正文

全球首个!Nature重磅研究:计算机视觉告别“偷数据”时代

IP属地 中国·北京 学术头条 时间:2025-11-06 14:12:41


计算机视觉(CV)技术,广泛应用于自动驾驶汽车、消费电子设备等众多领域。其中,图像数据集扮演着基础性的角色,ImageNet 等大型图像数据集的出现,使计算机视觉领域实现了革命性突破。

然而,过去十年,大多数数据集的数据采集依赖网络抓取,仍然存在未经授权、缺乏多样性、知情同意以及补偿相关的伦理问题

数据的“先天不足”不仅削弱了人工智能(AI)系统的公平性和准确性,还在无形中强化了种族、性别等社会偏见

例如,有研究指出,商业人脸识别系统在识别深肤色女性时的错误率远高于浅肤色男性;部分知名数据集因数据收集的伦理争议相继撤回,即便仍在使用的数据集,如 COCO、VQA2.0 或 MIAP,在人口多样性和自我报告信息方面仍存在明显缺陷。

在这一背景下,Sony AI 推出了全球首个公开可用的、全球多样化的、基于用户同意的数据集——FHIBE,专门用于评估以人为中心的计算机视觉任务的公平性。

据介绍,FHIBE 收录了来自 81 个国家和地区的 10318 张图像,涉及 1981 位独立个体,涵盖从人脸识别到视觉问答等广泛视觉任务。

此外,FHIBE 拥有迄今最全面的标注信息,包括人口统计特征、物理属性、环境因素、仪器参数及像素级标注数据,能够实现更细致的偏见诊断,帮助从业者精准定位偏见来源并有效防范潜在风险。

相关研究论文以“

Fair human-centric image dataset for ethical AI benchmarking”为题,已发表在权威科学期刊Nature上。


论文链接:https://www.nature.com/articles/s41586-025-09716-2

“由于大多数计算机视觉任务缺乏公开可用的、符合伦理规范的数据集,即使是检查偏见这一最基本的第一步也十分困难,”索尼全球人工智能治理负责人兼 FHIBE 首席研究员 Alice Xiang 表示,“我们希望开发者能够在无需使用存在问题的数据集的情况下检查人工智能中的偏见。”

这一成果是可信人工智能(Trustworthy AI)发展的重要里程碑,不仅提高了人工智能公平性基准的衡量标准,更为人工智能领域的负责任的数据管理提供了实现路径。

全球首个,“以人为中心”

与以往不同,FHIBE 采用全球众包和自我报告(self-reporting)的形式,由数据供应商面向 81 个国家地区征集图像。每位参与者上传自己拍摄的照片,并提供年龄、代词(pronouns)、祖源区域、肤色等自我报告信息,形成 1234 个交叉群组。

为保障图像数据的多样性,图像拍摄设备涵盖 45 家厂商的 785 种相机型号,真实还原了 16 种场景类型、6 种光照条件、7 种天气状况、3 种拍摄角度及 5 种拍摄距离等。

与其他同类数据集相比,FHIBE 在区域分布上尤为均衡:非洲占 44.7%,亚洲与大洋洲占 40.6%,显著改善了以往人像数据过度集中于北美与欧洲的问题。


图|图像主题、仪器和环境的注释,FHIBE 中所有图像的元数据均可获取。

FHIBE 的每张图像均附有自述姿势、互动、外观特征、年龄类别标注以及人脸、人物编辑框的像素级标注,包括 33 个关键点与 28 类分割标签。每条标注均附有匿名化编号以及标注者主动披露的人口统计信息,以保证可追溯性与透明度。据论文介绍,这种像素级标注与属性标签相结合的方式,使得FHIBE成为“当前最全面标注的公平性数据集”。


图|FHIBE 图像示例,包含详细的像素级标注、关键点、分割掩码和边界框。

值得一提的是,研究团队在数据收集过程中严格遵守《通用数据保护条例》(GDPR)等保护法规,包含清晰条款的同意书,明确数据收集用途与披露要求、生物特征数据及敏感信息的处理方式等。参与者在充分了解用途后自愿签署知情同意书,明确同意其生物特征数据用于 AI 公平性研究,并保留随时撤回同意的权利。

此外,通过生成式扩散模型,研究团队对出现在画面中的非自愿主体及可识别个人身份的信息进行图像修复(如移除旁观者或车牌)与人工复核,避免了传统隐私保护措施可能造成的再识别风险。

AI也会“看走眼”:对现有模型的公平性评估

除了在伦理上符合规范,FHIBE 在方法论上同样十分严谨,主要包括:

人口统计 + 表型细节:参与者自我报告的属性,如代词、祖源、年龄组、发型、妆容和头饰。

环境背景:图像包含有关光照、天气和场景类型的元数据。

精确标注:边界框、关键点和分割掩码等。

仅评估设计:FHIBE 是一个偏见审查数据集。确保仅用于衡量公平性,而不是强化偏见。

这为其广泛应用于模型的公平性评估提供了条件。通过 FHIBE,研究团队对当前多种主流窄模型和通用基础模型的偏见问题进行了系统测试,具体包括8类计算机视觉任务:姿态估计、人物分割、人物检测、人脸检测、人脸解析、人脸验证、人脸重建及人脸超分辨率。

研究发现,基于交叉群组(代词×年龄×祖源×肤色)的分析,年轻(18-29 岁)、肤色较浅、亚洲血统的群体往往获得较高准确率;而对于年长(50 岁以上)、肤色较深、非洲血统的群体,模型识别的准确率较低。

不同模型在具体交叉组合中的表现同样存在差异。例如,在人脸检测方面,RetinaFace 在“she/her/hers × I型 × 亚洲”组合中表现最佳,在“he/him/his × II型 × 非洲”组合中表现最差;而 MTCNN 则在“she/her/hers × II型 × 非洲”组合中表现最佳,在“he/him/his × IV型 × 欧洲”组合中表现最差。

此外,FHIBE 还发现了之前未被识别的细微偏见,例如:

由于对灰白发色人群的识别能力不足,面部解析模型在处理年长个体时的表现较差。

由于发型差异性较大,人脸验证模型识别女性群体的准确率更低。

针对以上差异,FHIBE 能够通过特征回归与决策树分析的方式,识别出与人物检测性能相关的干扰因素,包括身体姿态(如躺卧姿势)、主体互动(如拥抱/亲吻)、图像纵横比以及关键点可见度等(反映身体遮挡程度)等。

在多模态基础模型方面,团队重点测试了 CLIP 与 BLIP-2 两款主流模型。结果显示:

CLIP:在图像分类任务中,CLIP 对使用“he/him/his”代词的图像(0.69)比使用“she/her/hers”代词的图像(0.38)更倾向于赋予中性标签(未指定),反映出男性的默认化倾向;存在对其他图像属性的关联偏差,例如常常将非洲或亚裔个体与“户外”“农村”场景相绑定等。


图|CLIP 在 FHIBE 数据集预测中的偏差

BLIP-2:在开放式问答中,即使问题未涉及性别或种族信息,BLIP-2 也会生成带有性别或种族偏见的描述;对于“犯罪”等负面提示,在非洲或亚洲个体、肤色较深的个体、“he/him/his”的个体中引发了更高的有害刻板印象。


图|BLIP-2 分析结果

论文指出,FHIBE 是推动更负责任的人工智能发展的转折点,为未来开展伦理化的数据收集工作铺平道路。但与此同时,研究团队也坦承,这种以伦理为驱动、以人为本的共识式采集模式仍存在现实局限性,具体包括:

成本高昂。参与者招募、审核与补偿需要大量人力与资金,远高于网络爬取方式。

视觉多样性不足。相较于网络抓取,共识式收集的数据具有更高的标准化程度,视觉多样性较低,但明显优于其他基于同意的数据集(如CCv1、CCv2)。

存在欺诈风险。个体自我报告存在误填或虚报的可能,高额补偿可能诱发参与者虚假申报身份,需要依赖反向搜索与人工审核排查可疑样本。

在未来,研究团队希望,以 FHIBE 为起点整合全面且经共识获取的图像与标注数据,推动计算机视觉领域在数据收集、知情同意、隐私保护与多样性设计上的制度化实践。

另一方面,他们也希望发挥 FHIBE 作为检测工具的作用,通过对模型的性能与偏见的评估监测,助力开发更具包容性与可信度的人工智能系统。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。