
近年来,人工智能(尤其是计算机视觉)技术快速发展,广泛应用于安防、金融、医疗、自动驾驶等领域。然而,数据偏见问题一直如影随形,制约着AI系统的公平性与可信度。
你是否曾想过,训练AI的图像数据是否真正代表了全人类的多样性?是否征得了被拍摄者的同意?是否避免了强化性别、种族、年龄等社会偏见?
近日,由Sony AI团队领衔,联合多国研究人员在《自然》杂志上发表了一项重要成果:
Fair Human-Centric Image Benchmark(FHIBE)——一个公开、合规、多样、注释详尽的人类图像数据集,旨在为AI模型的公平性评估提供全新标准。

目前大多数AI模型依赖的网络爬取数据集存在三大问题:
这些问题导致AI系统在面对不同肤色、年龄、性别、文化背景的人群时表现不稳定,甚至加剧社会不公。


该图展示了FHIBE数据集中被试在肤色、祖源区域、年龄、代词等关键属性上的分布,体现了其在人口统计学上的广泛多样性。

通过雷达图对比可见,FHIBE在代词、年龄和肤色分布上比FACET、MIAP等现有数据集更为平衡和多样。
研究团队利用FHIBE对多类主流AI模型进行了公平性评估,发现了一系列以往被忽视的偏见。
人脸检测模型对“他/他”代词组中秃顶个体识别率较低。通过决策树模型,可以清晰地看到“是否可见头发”是影响性能的关键因素。

该决策树显示,对于RetinaFace模型,可见关键点数量和相机距离是影响性能的主要因素,而秃顶(无可见头发)与代词存在强关联,揭示了偏见的复杂来源。
人脸解析模型对灰白胡须的老年人表现较差。

该图显示,对于60岁以上的群体,模型在解析白色胡须时的性能(F-1分数)显著低于其他颜色,表明确实存在与年龄和外表特征相关的偏见。
研究团队评估了CLIP和BLIP-2等大型视觉-语言模型。

(a) 对“为何讨人喜欢”的非性别提示,模型回答却隐含性别 attribution;(c,d) 询问职业时,模型输出强化了性别和祖源相关的刻板印象;(e-g) 负面提示下,模型对特定代词、肤色和祖源群体输出毒性回答的概率更高。
FHIBE也存在一些挑战:

此综合对比表清晰地展示了FHIBE在获取方式(基于同意)、注释丰富度(像素级)和伦理维度上的独特优势。
未来,研究团队希望FHIBE能推动更多机构采用负责任的数据实践,并探索规模化伦理数据收集的方法。
FHIBE已公开上线,研究人员可在注册并同意使用条款后免费获取:
https://fairnessbenchmark.ai.sony
代码与评估基准也已开源:
https://github.com/SonyResearch/fairness-benchmark-public
在AI日益渗透日常生活的今天,公平、透明、可信已成为技术发展的必选项。FHIBE的发布,不仅为研究者提供了评估模型偏见的利器,也为整个行业树立了数据伦理的新标杆。
我们期待的,不是更聪明的AI,而是更公正的AI。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。