首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >终结AI偏见!Sony AI发布Nature论文与FHIBE数据集,重塑公平性评估基准

终结AI偏见!Sony AI发布Nature论文与FHIBE数据集,重塑公平性评估基准

原创
作者头像
CoovallyAIHub
发布2025-11-10 09:18:01
发布2025-11-10 09:18:01
420
举报

近年来,人工智能(尤其是计算机视觉)技术快速发展,广泛应用于安防、金融、医疗、自动驾驶等领域。然而,数据偏见问题一直如影随形,制约着AI系统的公平性与可信度。

你是否曾想过,训练AI的图像数据是否真正代表了全人类的多样性?是否征得了被拍摄者的同意?是否避免了强化性别、种族、年龄等社会偏见?

近日,由Sony AI团队领衔,联合多国研究人员在《自然》杂志上发表了一项重要成果:

Fair Human-Centric Image Benchmark(FHIBE)——一个公开、合规、多样、注释详尽的人类图像数据集,旨在为AI模型的公平性评估提供全新标准。

screenshot_2025-11-07_13-15-10.png
screenshot_2025-11-07_13-15-10.png

为什么需要FHIBE?

目前大多数AI模型依赖的网络爬取数据集存在三大问题:

  • 缺乏知情同意:图像多未经授权采集,侵犯隐私与肖像权;
  • 代表性不足:数据集中在某些地区或人群,忽视全球多样性;
  • 注释粗糙:缺乏细粒度、自报告的属性标注,难以精准诊断偏见。

这些问题导致AI系统在面对不同肤色、年龄、性别、文化背景的人群时表现不稳定,甚至加剧社会不公。


FHIBE 有哪些亮点?

伦理先行

  • 知情同意:所有图像采集均获得参与者明确授权,符合欧盟《通用数据保护条例》(GDPR);
  • 隐私保护:使用生成模型自动擦除背景中非同意出现的个体或敏感信息;
  • 公平报酬:参与者按当地最低工资标准获得合理报酬;
  • 可撤回机制:参与者可随时撤回数据,不影响已获报酬。

全球多样性

  • 10,318张图像,涵盖1,981位参与者,来自81个国家/地区
  • 覆盖5大洲、16个子区域,尤其强化了非洲(44.7%)和中低收入地区(71.5%)的代表性;
  • 包含多种肤色、年龄(18–75岁)、发型、服饰、环境场景等。
screenshot_2025-11-07_13-16-12.png
screenshot_2025-11-07_13-16-12.png
screenshot_2025-11-07_13-35-25.png
screenshot_2025-11-07_13-35-25.png

该图展示了FHIBE数据集中被试在肤色、祖源区域、年龄、代词等关键属性上的分布,体现了其在人口统计学上的广泛多样性。

注释全面

  • 自报告属性:如代词、祖源、肤色、发型等,避免外部标注带来的刻板印象;
  • 像素级标注:包括人脸/人体边界框、33个关键点、28类分割掩码;
  • 环境与设备元数据:光照、天气、相机型号、拍摄时间等,助力多维度偏差分析。
screenshot_2025-11-07_13-37-08.png
screenshot_2025-11-07_13-37-08.png

通过雷达图对比可见,FHIBE在代词、年龄和肤色分布上比FACET、MIAP等现有数据集更为平衡和多样。


FHIBE 能用来做什么?

研究团队利用FHIBE对多类主流AI模型进行了公平性评估,发现了一系列以往被忽视的偏见。

发现“窄模型”中的偏见

人脸检测模型对“他/他”代词组中秃顶个体识别率较低。通过决策树模型,可以清晰地看到“是否可见头发”是影响性能的关键因素。

screenshot_2025-11-07_13-37-27.png
screenshot_2025-11-07_13-37-27.png

该决策树显示,对于RetinaFace模型,可见关键点数量和相机距离是影响性能的主要因素,而秃顶(无可见头发)与代词存在强关联,揭示了偏见的复杂来源。

人脸解析模型对灰白胡须的老年人表现较差。

screenshot_2025-11-07_13-37-49.png
screenshot_2025-11-07_13-37-49.png

该图显示,对于60岁以上的群体,模型在解析白色胡须时的性能(F-1分数)显著低于其他颜色,表明确实存在与年龄和外表特征相关的偏见。

揭示“基础模型”中的刻板印象

研究团队评估了CLIP和BLIP-2等大型视觉-语言模型。

  • CLIP模型更倾向于将“他/他”代词图像标记为“未指定性别”,暗示男性被视为“默认人类”;并更可能将非洲或亚洲祖源的人与“农村”环境关联。
  • BLIP-2模型在回答中性问题时,仍会输出基于性别与祖源的刻板印象。
screenshot_2025-11-07_13-38-17.png
screenshot_2025-11-07_13-38-17.png

(a) 对“为何讨人喜欢”的非性别提示,模型回答却隐含性别 attribution;(c,d) 询问职业时,模型输出强化了性别和祖源相关的刻板印象;(e-g) 负面提示下,模型对特定代词、肤色和祖源群体输出毒性回答的概率更高。


局限与展望

FHIBE也存在一些挑战:

  • 数据收集成本高昂(平均每张图像约10.75美元);
  • 相比网络爬取数据,视觉多样性仍有限;
  • 存在少数欺诈性提交图像,反映伦理数据收集中的现实难题。
screenshot_2025-11-07_13-38-57.png
screenshot_2025-11-07_13-38-57.png

此综合对比表清晰地展示了FHIBE在获取方式(基于同意)、注释丰富度(像素级)和伦理维度上的独特优势。

未来,研究团队希望FHIBE能推动更多机构采用负责任的数据实践,并探索规模化伦理数据收集的方法。


开放获取

FHIBE已公开上线,研究人员可在注册并同意使用条款后免费获取:

https://fairnessbenchmark.ai.sony

代码与评估基准也已开源:

https://github.com/SonyResearch/fairness-benchmark-public


结语

在AI日益渗透日常生活的今天,公平、透明、可信已成为技术发展的必选项。FHIBE的发布,不仅为研究者提供了评估模型偏见的利器,也为整个行业树立了数据伦理的新标杆。

我们期待的,不是更聪明的AI,而是更公正的AI。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 为什么需要FHIBE?
  • FHIBE 有哪些亮点?
    • 伦理先行
    • 全球多样性
    • 注释全面
  • FHIBE 能用来做什么?
    • 发现“窄模型”中的偏见
    • 揭示“基础模型”中的刻板印象
  • 局限与展望
  • 开放获取
  • 结语
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档