前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >引用量比肩ImageNet的数据集被下线!给黑人标N*gger,比基尼姑娘标记妓女,MIT道歉

引用量比肩ImageNet的数据集被下线!给黑人标N*gger,比基尼姑娘标记妓女,MIT道歉

作者头像
大数据文摘
发布于 2020-07-07 06:44:30
发布于 2020-07-07 06:44:30
8010
举报
文章被收录于专栏:大数据文摘大数据文摘

大数据文摘出品

作者:刘俊寰、牛婉杨

抵制种族歧视最紧张的关头,MIT忽然被牵扯了进去。

在一篇名为《LARGE IMAGE DATASETS: A PYRRHIC WIN FOR COMPUTER VISION?》的论文中,研究者发现,MIT正在使用的一个高引用图片数据集Tiny Images存在强烈种族歧视和厌女症标签

这个数据库内,当黑人或猴子出现时,标签显示为N*gger这一对黑人的蔑称词汇;此外,身穿比基尼或抱着孩子的妇女的图片被标记为b*tch等这一侮辱性词汇。

这一曝光引发了学术圈的激烈争议。得知消息后,麻省理工学院迅速下线了这一数据集,并发布公告称,由该数据集训练出的AI系统,会潜在地使用种族主义、厌女症和其他激进术语来描述对象,请所有研究员暂停使用和训练

比如,利用Tiny Images训练的机器学习模型,能够自动识别并列出静止图像中的人和物体,当用户输入公园照片,系统会标注出照片中的儿童、成人、宠物、野餐点、花草和树木。但同时,由于在组合训练集时采用的方法,系统也可能将女性标记为妓女,黑人和亚裔的标记也多带有贬义色彩的词语。

使用该数据集训练出的神经网络的应用程序、网站和其他产品,都很有可能在最终分析照片和视频时出现带有歧视性的术语。

下线该数据库后,MIT还表示,将敦促研究人员和开发人员停止使用培训库,并删除所有副本

一位教授回应称:“我们深表歉意。”

包含歧视标签的Tiny Images有什么用?

Tiny Images数据集创建于2008年,包含了8000万个微型图像,主要用于对象检测技术。之所以被命名Tiny Images,是因为该数据集中的图片都足够小,对于比较老旧的图片非常友好,甚至可以支持2000年代末和2010年代初的计算机视觉算法。

从本质上讲,Tiny Images包含了大量照片和带有描述照片内容的标签集合,所有这些都可以输入到神经网络中,以训练神经网络将照片中的图案与描述性标签关联起来。训练完成后,当向该神经网络展示一辆自行车时,它就可以准确地做出判断。

如今,研究员一般会将Tiny Images数据集与更知名的ImageNet数据集一起使用,作为计算机视觉算法的训练基准,不过,与大名鼎鼎的ImageNet不同,到目前为止,还没有人对Tiny Images的内容进行过审查

最近,硅谷一家专注隐私的初创公司UnifyID的首席科学家Vinay Prabhu和爱尔兰都柏林大学的博士候选人Abeba Birhane对Tiny Images进行了仔细的研究,他们发现,该数据库内包含了成千上万张带有针对黑人和亚洲人的种族主义诽谤标签图像,用于女性的标签也大多带有贬义色彩

比如,在该数据集中,黑人和猴子图片都加了“N*gger”这一对黑人带有污蔑性质的标签,穿着比基尼或抱着着孩子的女人,会被标记为“w*ore”或“b*tch”。通过把日常生活中的图像与带有侮辱性质的语言联系起来,该数据集就会把偏见传递给了AI模型,再通过AI的输出结果强化了这一偏见。

据了解,Tiny Images中图像主要来源是谷歌,研究人员搜集到这些图像后将它们归类在了75000多个标签下。Tiny Images还拥有一个更小的版本,包含220万张图片,此前可以通过麻省理工学院计算机科学和人工智能实验室的网站上直接访问和读取,不过周一的时候,这个可视化数据集,连同完整的数据集,都从CSAIL网站上被移除了。

这是220万数据集的可视化截图,展示了一些被打上“whore”标签的图片,出于法律原因打上了马赛克。这些照片包括一个穿着比基尼的女人和一个母亲抱着她的孩子,以及圣诞老人的头像照等。

Vinay Prabhu和Abeba Birhane将研究结果写成论文,并打算提交给明年的计算机视觉大会。

论文链接:

https://arxiv.org/pdf/2006.16923.pdf

MIT回应:之前完全没有意识到,也无法人工检查

CSAIL的电子工程和计算机科学教授Antonio Torralba说,实验室根本没有意识到数据集中存在这些冒犯性的图像和标签。“很明显,只能进行手动筛查,对此,我们真诚道歉。事实上,我们已经将数据集下线,这样违规的图片和类别就可以被删除。”

在CSAIL网站上的一份声明中,CSAIL表示,由于图像太小,无法人工进行手动检查和过滤,数据集将永久离线

该实验室还承认,他们在没有检查是否有攻击性图片或语言被吸收进图书馆的情况下,从互联网上自动获取了这些图片,并敦促人们删除他们的数据副本:

引起我们注意的是,微小的图像数据集包含一些贬义词分类和冒犯的图像。这是依赖于WordNet中的名词的自动数据收集过程的结果。我们对此深表关切,并向可能受到影响的人们表示歉意。

由于数据集太大(8000万幅图像),而图像太小(32 x 32像素),人们很难从视觉上识别其内容。因此,人工检查,即使可行,也不能保证令人反感的图像被完全删除

所以,我们决定正式撤回数据集。它已经永久下架。我们要求社区今后不要再使用它,并删除任何可能已经下载的数据集的现有副本。

Torralba教授向我们介绍了图片数据库的建设方式:获得了大量单词(包括贬义词),然后编写代码以使用这些单词在网络上搜索图像并将其结合在一起。因此最终得到的是一个包含原始互联网资料的数据集。

Torralba教授说:“这个数据集包含53,464个不同的名词,都是直接从WordNet拷贝过来的。”

WordNet是普林斯顿大学(Princeton University)一个将英语单词分类成相关集的数据库。“然后这些系统就会自动从当时的互联网搜索引擎上下载相应名词的图片,并使用当时可用的过滤器来收集8000万张图片。”

WordNet是在20世纪80年代中期在普林斯顿大学的认知科学实验室中创建的,该实验室由认知心理学创始人之一George Armitage Miller领导。“Miller对单词之间的关系非常着迷,”Prabhu告诉我们。“这个数据库基本上绘制了单词之间是如何关联的。”这也是ImageNet的灵感来源。

例如,“猫”和“狗”的关系比“猫”和“伞”的关系更密切。但是,WordNet中的一些名词是种族主义俚语和侮辱。几十年后的今天,随着学者和开发人员使用数据库作为方便的英语词汇仓库,这些术语困扰着现代机器学习。

Birhane告诉El Reg:“当你构建巨大的数据集时,你需要某种结构。”这就是为什么WordNet非常有必要。它提供了一种方法,为计算机视觉研究人员分类和标签他们的图像。既然你可以用WordNet,为什么还要自己动手呢?”

作为一个单词列表,WordNet本身没什么害处,不过当与图像和AI算法结合在一起时,它可能会产生令人不安的后果。

Birhane说:“这个WordNet项目的目的是绘制出彼此接近的单词。但当你开始把图片和这些词联系起来时,你是在把一个真实的人的照片和那些有害的词语联系起来,这些词语会使人们的成见根深蒂固。”

ImageNet也有同样的问题,因为它也是使用WordNet进行注释的。一项名为“ImageNet Roulette”的实验允许人们将照片提交给由ImageNet训练出来的神经网络,该神经网络将使用数据集中的标签来描述这些图片。不出所料,人们在系统中输入的是他们最感兴趣的照片:自拍,而软件会输出一些种族主义和冒犯性的标签描述他们。

在这些庞大的数据集中,有问题的图像和标签所占的比例很小,并且很容易将其作为异常现象清除掉。Prabhu和Birhane认为,如果将这些材料用于训练现实世界中使用的机器学习模型,则很可能导致真正的伤害。

他们在论文中写道:“缺乏对规范数据集的规范,会对女性、种族和少数民族以及处于社会边缘的弱势个体和社区造成不成比例的负面影响。”

少数群体在AI训练数据集中往往没有得到重视,这也是人脸识别算法在识别女性和肤色较深的人时遇到困难的原因。今年早些时候,底特律的一名黑人被面部识别软件误认为小偷嫌疑人,被警察错误逮捕。

这也是为什么本月早些时候,一个有争议的人工智能算法从低分辨率的快照中生成高分辨率的图像,把一张奥巴马的模糊照片变成更像白人而不是黑人的原因

Birhane说:“人们不会考虑这些模型将如何应用或将其用于什么领域。他们可能只会想到‘这是我可以做到的一件很酷的事情’,但是,当深入思考,就会开始发现所有潜藏在表面的黑暗的目的,也可以逐渐了解这些危害是如何显现的。”

为收集图像数据,ImageNet和Tiny Images等巨型数据库通常在未经人们同意的前提下,从Flickr或Google Images进行爬取照片。

Facebook目前的做法相比是比较可取的,他们聘请了同意将自己的脸部数据用于数据集的人员,这些数据集旨在教授软件以检测计算机生成的伪造图像。

Prabhu和Birhane表示,社交网络可能是一个好方法,尽管他们也指出,学术研究不太可能有足够的资金支付数据集所需照片量的相关费用。他们说:“我们承认,对于创建理想的数据集,可能不存在绝对完美的方案,但这也并不意味着我们应该放弃尝试。”

他们提出,在关注对象识别的数据集中模糊人脸,仔细筛选图像和标签,去除任何令人反感的材料,甚至使用真实的合成数据训练系统,“完全无需将种族侮辱、色情或儿童色情图片囊括在其中,做好科学和遵守道德标准不会相互排斥”。

反种族歧视战火烧到AI圈:Yan Lecun被骂退推特,Jeff Dean也躺枪

学术圈“中枪”在MIT道歉之前就已经有所显现。

昨天,谷歌AI掌门人Jeff Dean因关注了一名种族主义博主卷入纠纷。

简单来说,就是DeepMind在最近的GAN课程中没有提及黑人女性研究员Adji B. Dieng的研究成果PresGAN,被这位女研究者各种责问,甚至在推特上发起了”#CiteBlackWomen(引用黑人女性)#的话题。

随即推特网友@Gwern控诉Dieng有优生主义倾向,这个时候,Dieng在Gwern的关注列表发现了Jeff Dean,并艾特本人,“你也关注了这个人,但我相信你不知道他是一个优生主义者”。目前,Jeff Dean和Deepmind都未作出回应。

再之前,因为一篇被指“种族歧视”的PULSE算法论文,图灵奖得主、Facebook首席AI科学家Yann Lecun在推特上遭遇了飓风般的“网暴”

为自己辩解两周后,Lecun在推特上宣布,自己将永远退出推特

再加上今天道歉的MIT,人工智能研究似乎正成为美国弗洛伊德事件的新战场,机器学习圈的伦理讨论是必要还是矫枉过正?你怎么看?

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-07-02,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 大数据文摘 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
RT-Thread FinSH控制台添加自定义msh命令原理「建议收藏」
FinSH 是 RT-Thread 的命令行组件,提供一套供用户在命令行调用的操作接口,主要用于调试或查看系统信息。它可以使用串口 / 以太网 / USB 等与 PC 机进行通信。
全栈程序员站长
2022/08/31
1.1K0
RT-Thread进阶笔记之FinSH组件「建议收藏」
FinSH 是 RT-Thread 的命令行组件,提供一套供用户在命令行调用的操作接口,主要用于调试或查看系统信息。它可以使用串口 / 以太网 / USB 等与 PC 机进行通信。 用户在控制终端输入命令,控制终端通过串口、USB、网络等方式将命令传给设备里的 FinSH,FinSH 会读取设备输入命令,解析并自动扫描内部函数表,寻找对应函数名,执行函数后输出回应,回应通过原路返回,将结果显示在控制终端上。 当使用串口连接设备与控制终端时,FinSH 命令的执行流程,如下图所示:
全栈程序员站长
2022/08/31
2.8K0
RT-Thread进阶笔记之FinSH组件「建议收藏」
程序一定要从main函数开始运行吗?
每个目标文件都有好多个段,目标文件在被链接成可执行文件时,输入目标文件中的各个段如何被合并到输出文件?
程序员小猿
2021/01/19
1.3K0
程序一定要从main函数开始运行吗?
移植一个实时OS很难?那就手把手教你如何快速移植一个RT-Thread Nano吧!
最近在学习RT-Thread的使用,同时也相当于在拿它评估做产品的软件开发周期,最终学习的目的也就是希望能在未来的项目上用起来,STM32CubeMX其实已经支持了RT-Thread Nano的配置了,但我还是希望手动移植一下,没想到移植RT-Thread Nano如此简单,必须分享出来,哈哈哈!
杨源鑫
2020/06/01
3K0
RT-thread —- FinSH 控制台
FinSH 是 RT-Thread 的命令行组件(shell),有了 shell,就像在开发者和计算机之间架起了一座沟通的桥梁,开发者能很方便的获取系统的运行情况,并通过命令控制系统的运行。特别是在调试阶段,有了 shell,开发者除了能更快的定位到问题之外,也能利用 shell 调用测试函数,改变测试函数的参数,减少代码的烧录次数,缩短项目的开发时间。
全栈程序员站长
2022/08/31
1.1K0
RT-thread —- FinSH 控制台
RT-Thread零基础快速入门第7讲——FinSH控制台「建议收藏」
本来我是打算先讲完RT-thread的内核,再讲设备和组件,但是考虑到后面很多地方都会用到FinSH控制台,所以我就先把这个讲了,这样大家在后面的学习就不会有很多疑问了。 FinSH 是 RT-Thread 的命令行组件(shell),它提供一套供用户在命令行调用的操作接口,主要用于调试或查看系统信息,可以使用串口 / 以太网 / USB 等方式与 PC 机进行通信。一般我们默认用串口1和PC机通讯,通过串口我们可以查看单片机运行的情况,也可以通过发送命令控制单片机执行某些操作。关于FinSH更多详细的内容,大家可以在官网上面查看。 FinSH控制台组件介绍:https://www.rt-thread.org/document/site/programming-manual/finsh/finsh/#
全栈程序员站长
2022/08/31
2.7K0
RT-Thread零基础快速入门第7讲——FinSH控制台「建议收藏」
RT Thread FinSH组件
初始化函数通过 INIT_APP_EXPORT(finsh_system_init) 宏定义加入到系统组建初始化
全栈程序员站长
2022/08/31
5260
MDK Keil使用GCC编译图文详解
素材来源:https://blog.csdn.net/qq_32348883/article/details/123894312
李肖遥
2022/12/22
2.2K0
MDK Keil使用GCC编译图文详解
【linux命令讲解大全】054.readelf:展示ELF格式文件信息的工具
readelf命令用来显示一个或者多个elf格式的目标文件的信息,可以通过它的选项来控制显示哪些信息。这里的elf-file(s)就表示那些被检查的文件。可以支持32位,64位的elf格式文件,也支持包含elf文件的文档(这里一般指的是使用ar命令将一些elf文件打包之后生成的例如lib*.a之类的“静态库”文件)。
全栈若城
2024/03/02
7480
用GCC开发STM32,正点原子开发板的一个库函数版本例程示例
首先下载交叉编译环境GCC,这个网上有很多,百度一下就能找到下载。比如 Sourcery G++ for ARM EABI
杨永贞
2020/08/04
1.6K0
用GCC开发STM32,正点原子开发板的一个库函数版本例程示例
RT-thread finsh组件工作流程[通俗易懂]
finsh是RT-Thread的命令行外壳(shell),提供一套供用户在命令行的操作接口,主要用于调试、查看系统信息。在大部分嵌入式系统中,一般开发调试都使用硬件调试器和printf日志打印,在有些情况下,这两种方式并不是那么好用。比如对于RT-Thread这个多线程系统,我们想知道某个时刻系统中的线程运行状态、手动控制系统状态。如果有一个shell,就可以输入命令,直接相应的函数执行获得需要的信息,或者控制程序的行为。这无疑会十分方便。
全栈程序员站长
2022/08/31
6580
RT-thread finsh组件工作流程[通俗易懂]
【超详细教程】移植RT-Thread nano,并基于 nano 添加 FinSH/shell
背景:移植RT-Thread nano,并基于 nano 添加 FinSH/shell
全栈程序员站长
2022/08/31
3.4K0
【超详细教程】移植RT-Thread nano,并基于 nano 添加 FinSH/shell
RT-Thread中自定义 FinSH 命令「建议收藏」
在使用RT-Thread中的FinSH 命令时,除了系统默认的FinSH命令以外,我们还可以自定义FinSH命令。下面就来演示一下如何自定义FinSH命令。关于FinSH命令的详细用法请参考官方资料https://www.rt-thread.org/document/site/programming-manual/finsh/finsh/。
全栈程序员站长
2022/08/31
9360
RT-Thread中自定义 FinSH 命令「建议收藏」
HC32F460开发之rtthread+finsh组件的移植
对于从事单片机的开发人员,操作系统可以说是绕不过的一个必修课程。在稍复杂的应用开发中,一个好的操作系统可以帮助我们将单片机的资源最大化的利用起来,而系统提供的各种API接口也可以可靠地帮我们实现各种应用逻辑功能。日常生活里,在各种各样的电子设备中,操作系统被广泛地应用,常见的有Linux,ucos,以及现在在各种物联网设备中被广泛应用的freertos,RT-Thread等。本文主要从裸机工程开始,一步步介绍RT-Thread系统的移植。
全栈程序员站长
2022/08/26
1.2K0
HC32F460开发之rtthread+finsh组件的移植
gccc如何处理static变量初始化
局部变量在C++中的使用要频繁的多,并且功能也强大的多,但是这些强大功能的背后无疑会引入问题的复杂性,不想让马儿吃草只想让马儿跑的事大家表乱想。这些初始化的实现就需要C++的库执行更多的动作来完成,虽然各种编译器都是像如今开展的“学雷锋”活动一样干了很多好事都没有留名,但是作为一个程序员,还是要对别人的贡献进行表彰。 我们看一下下面的一段代码,本文将会围绕这个代码进行展开,可以看到这个简单的程序,让C++生成了非常多的代码让人应接不暇
thierryzhou
2022/12/01
7720
基于RT-Thread Studio 和小熊派 实现智慧农业
摘要:如何从零开发一个“智慧农业”案例?小伙伴们有福了,孙教授手把手的带大家基于小熊派+RT-Thread开发一个智慧农业案例。
杨源鑫
2021/07/07
1.6K0
基于RT-Thread Studio 和小熊派 实现智慧农业
剖析RT-Thread中console与finsh组件实现(2)[通俗易懂]
接上一章剖析RT-Thread中finsh组件实现(1),rt_device 具体定义如下:
全栈程序员站长
2022/08/26
7250
剖析RT-Thread中console与finsh组件实现(2)[通俗易懂]
mold源码阅读八 创建输出段
上一期介绍了一些创建输出段之前的工作,本期主要是把创建输出相关的最后一些前置准备讲解完成。根据代码中的注释,add_synthetic_symbols以后,不会再有任何新的文件添加到ctx.objs和ctx.dsos中了。之后会再讲解简单的命令行参数处理,下一期再讲对于输出chunk中的一些处理
AkemiHomura
2023/10/22
1780
RT-Thread 移植到GD32F150系列mcu
https://www.rt-thread.org/page/download.html
ManInRoad
2021/10/20
1.1K0
RT-Thread 移植到GD32F150系列mcu
链接脚本linker script的妙用
编译器将编写的C程序代码进行翻译,变成机器可以执行的程序,这个大致上可以分为四个步骤:预编译、编译、汇编、链接。
bigmagic
2020/09/01
4.3K0
链接脚本linker script的妙用
推荐阅读
相关推荐
RT-Thread FinSH控制台添加自定义msh命令原理「建议收藏」
更多 >
LV.5
武汉蔡甸泛式教育
目录
  • 包含歧视标签的Tiny Images有什么用?
  • MIT回应:之前完全没有意识到,也无法人工检查
  • 反种族歧视战火烧到AI圈:Yan Lecun被骂退推特,Jeff Dean也躺枪
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档