Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >TED演讲 | 盲目信仰大数据的时代必须结束

TED演讲 | 盲目信仰大数据的时代必须结束

作者头像
小莹莹
发布于 2018-04-24 04:05:11
发布于 2018-04-24 04:05:11
8680
举报

编者按:这几天看到某公号转发的一篇文章《大数据将“误导”产业发展》,标题震撼但内容苍白。同样是讨论大数据不完美的一面,国外学者则提供了更丰富的案例。数据科学家凯西•奥尼尔不久撰写一本著作,名为“数字破坏武器:大数据如何增加不平等和威胁民主”。她担心的是,在急于利用大数据的情况下,可能会因为内置偏差使得结论不准确,并且可能具有相当的破坏性。她与高级技术编辑瓦勒瑞•斯威特一起探讨数据科学领域的偏见,以及为什么企业需要制定数据科学伦理政策。希望大家能通过凯西•奥尼尔在TED上的演讲了解关于大数据和算法另外的一面。

注:为方便阅读,编者另标注了小标题。

正文:

算法无处不在

算法无处不在。他们把成功者和失败者分开来。成功者得到工作或是一个很好的信用卡优惠计划,失败者甚至连面试机会都没有,或者要为保险付更多的钱。我们被不理解的秘密公式打分,却并没有上诉的渠道。这引出了一个问题:如果算法是错误的怎么办?

构建一个算法需要两个要素:数据和成功的定义(注:指算法的正确性是如何定义)。你可以通过观察,理解来训练算法。这种算法能找出与成功相关的因素。什么意味着成功?其实,每个人都使用算法。他们只是没有把它们写成书面代码,举个例子,我每天都用一种算法来为我的家人做饭。我使用的数据就是我厨房里的原料,我拥有的时间,我的热情,然后我整理了这些数据。我不把那种小包拉面算作食物。我对成功的定义是:如果我的孩子们肯吃蔬菜,这顿饭就是成功的。这和我最小的儿子负责做饭的情况有所不同。他说,如果他能吃很多nutella巧克力榛子酱就是成功。但我可以选择成功的标准和定义,我的意见就很重要,这就是算法的第一个规则。

算法可能会出错

我认为算法只不过是嵌入在代码中的观点。这和你认为大多数人对算法的看法是不同的,他们认为算法是客观的、真实和科学的,但那只是一种营销技巧,是一种用算法来恐吓你的营销手段,目的是为了让你信任和恐惧算法,因为你信任并害怕数学。当我们盲目信任大数据时,很多人都可能犯错。

这是凯丽.索尔斯,她是布鲁克林的一名高中校长。2011年,她告诉我,她学校的老师们正在被一个复杂并且隐秘的算法进行打分,这个算法被称为“增值模型”。我告诉她,“先弄清楚这个公式是什么,然后给我看看,我来给你解释一下。”她说,“我寻求过这个公式,但是教育部的负责人告诉我这是数学,给我也看不懂。” 更糟的还在后面,纽约邮报提出了“信息自由法”的要求,来得到所有老师的名字与他们的分数,并且他们以羞辱老师的方式发表了这些数据。当我试图用同样的方法来获取公式、源代码的时候,我被告知我没有权力这么做,我被拒绝了。后来我发现,纽约市压根儿没有人能接触到这个公式,没有人能看懂,然后,一个非常聪明的人参与了,加里.鲁宾斯坦,他从纽约邮报的数据中找到了665名教师,实际上他们只有两个分数,如果他们都是教七年级与八年级的数学,就会得到两个评分,他决定把这些数据绘成图表,每个点代表一个教师,这个图就是下面这个样子:

偶滴神,这是什么图?我认为它永远不应该被用于个人评估,它几乎是一个随机数生成器,但它确实被使用了。

这是莎拉.维索斯基,她连同另外205名教师被解雇了,都是来自华盛顿特区的学区,尽管她的校长还有学生的,父母都非常推荐她。我知道你们很多人在想什么,尤其是这里的数据科学家,人工智能专家,做饭在想“我可永远不会做出这样前后矛盾的算法。”但是算法可能会出错,即使有良好的意图,也会产生毁灭性的影响。每个人都能看到一架设计的很糟糕的飞机会坠毁在地,而一个设计糟糕的算法,可能持续很长一段时间,并无声地造成破坏。

这是罗杰.艾尔斯,他在1996年创办了福克斯新闻,公司有超过20多名女性曾抱怨过性骚扰, 她们说她们不被允许在福克斯新闻有所成就。他去年被赶下台,但我们最近看到,问题依然存在。这引出一个问题:福克斯新闻应该做些什么改变?如果他们用机器学习算法取代传统的招聘流程呢?听起来不错,对吧?想想看,数据,这些数据到底是什么?福克斯新闻在过去21年的申请函是一个合理的选择。很合理。那么成功的定义呢?合理的选择将是谁在福克斯新闻取得了成功?我猜的是,比如在那里呆了四年,至少得到过一次晋升的人。听起来很合理,然后这个算法将会被训练,它会被训练去向人们学习是什么造就了成功。现在想想如果我们把它应用到目前的申请者中会发生什么。它会过滤掉女性,因为她们看起来不像在过去取得成功的人。算法不会让事情变得公平,如果你中介轻率地,盲目地应用算法,它们不会让事情变得公平。它们只是重复我们过去的做法,我们的规律,它们使现状自动化。如果我们有一个完美的世界那就太好了,但是我们没有。

偏见可以被注入到算法中

我们都有偏见,这意味着他们可以编纂性别歧视或者任何其它的偏见。可以做一个思维实验:一个完全隔离的社会---种族隔离存在于所有的城镇,所有的社区,我们把警察只送到少数族裔的社区去寻找犯罪。毫无疑问这种情况下,逮捕数据将会是十分有偏见的。此时如果我们寻找数据科学家并付钱给他们来预测下一起犯罪会发生在哪里,毫无疑问结果将会是少数族裔的社区。亦或者预测下一个罪犯是谁?结果也会是少数族裔。这些数据科学家们会吹嘘他们的模型有多好,多准确,当然他们有可能是对的,不过现实并没有那么理想。我们有大量的证据表明警察和司法系统的数据存有偏见,例子如下:

新闻机构“人民(propublica)调查了一个称为“累犯风险“的算法。这个算法在佛罗里达州的写着期间被法官采用。伯纲德,左边的那个黑人,10分中得了满分;右边迪伦,10分中得了3分。10分代表高风险,3分代表低风险,但事实是他们都因为持有毒品而被带进了监狱,他们都有犯罪记录,迪伦曾有一个重罪,伯纳德没有。为什么会发生结果会出现偏差?我将它定义未:数据洗钱,这是一个技术人员把丑陋真相隐藏在算法黑盒子中的过程 ,并称之为客观,称之为精英模式。当它们是秘密的,重要的并具有破坏性的,我为这些算法创造了一个术语:”杀伤性数学武器“。它们无处不在,也不是一个错误,这些是私有公司为了私人目的建立的私有算法。

我上述谈到的教师与公共警察使用的(算法),也都是由私人公司所打造的,然后卖给政府机构。他们称之为”秘密配方(来源)“---这就是他们不能告诉我们的原因。这也是私人权力。他们利用神秘莫测的权威来获利,你可能会想,既然所有这些都是私有的,而且会有竞争,也许自由市场会解决这个问题。然而并不会。在不公平的情况下,有很多钱可以赚,而且,我们不是经济理性的代理人,我们都是有偏见的。我们都是固执的种族主义者,虽然我们希望我们不是,虽然我们甚至没有意识到。

总的来说,我们知道这一点,因为社会学家会一直通过这些实验来证明这一点,他们发送了大量的工作申请,都是有同样资格的候选人,有些用白人人名,有些用黑人人名,然而结果总是令人失望的。所以我们是有偏见的,我们还通过选择收集到的数据来把偏见注入到算法中,就像我们不选择去想拉面一样---我自认为这无关紧要。但是,通过信任那些在过去的实践中获得的数据以及通过选择成功的定义,我们怎么能指望算法会是毫无瑕疵的呢?我们不能,我们必须检查。我们必须检查它们是否公平,好消息是,我们可以做到这一点。

算法应该被审计

算法是可以被审问的,而且每次都能告诉我们真相。然后我们可以修复它们,我们可以让他们变得更好。我把它叫做算法审计,接下来我会为你们解释。

首先,数据的完整性检查。对于刚才提到过的累犯风险算法,数据的完整性检查将意味着我们不得不接受这个事实,在美国,白人和黑人吸毒的比例是一样的,但是黑人更有可能被逮捕---取决于区域,可能性是白人的4到5倍。这种偏见在其他犯罪类别中是什么样子的,我们又该如何解释呢?其次,我们应该考虑成功的定义,审计它。还记得我们谈论的雇佣算法吗?那个呆了四年的人,然后被提升一次?这的确是一个成功的员工,但这也是一名受到公司文化员工。也就是说,这可能会有很大的偏差。我们需要把这两件事分开。我们应该去看一下乐团盲选试奏,举个例子,这就是人们在幕后选拔乐手的地方,我想要考虑的是倾听的人已经决定了什么是重要的,同时他们已经决定了什么是不重要的,他们也不会因此而分心。当乐园盲选开始时,在管弦乐队中,女性的数量上升了5倍。

其次,我们必须考虑准确性。这就是针对教师的增值模型立刻失效的地方,当然,没有一个算法是完美的,所以我们要考虑每一个算法的误差。出现错误的频率有多高,让这个模型失败的对象是谁?失败的代价是什么?

算法创造者的责任

最后,我们必须考虑这个算法的长期的效果,与正在产生的反馈循环。这听起来很抽象,但是想象一下如果脸书的工程师们之前考虑过,并决定只向我们展示我们朋友所发布的东西。

我还有两条建议,一条是给数据科学家的,数据科学家们:我们不应该成为真相的仲裁者。我们应该成为大社会中所发生的道德讨论的翻译者。然后剩下的人,非数据科学家们:这不是一个数学测试,这是一场政治斗争,我们应该要求我们的算法霸主承担问责。盲目信仰大数据的时候必须结束 ,非常感谢。

以下是作者TED视频:

翻译:网易公开课

编辑和整理:PPV课数据科学社区

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2017-10-13,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 PPV课数据科学社区 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
五个值得一看的TED AI 演讲:盲目信仰大数据的时代必须结束
【新智元导读】 如果您想更多地了解AI和机器学习的力量和潜力,一个好的地方是TED Talks。这篇文章推荐的五个演讲包括:机器人能通过高考吗;盲目信仰大数据的时代必须结束;机器智能让人类道德更加重要;我们能在不失控的前提下发展AI吗;为人机混合式的思考作好准备。 人工智能会怎样改变世界?它会替代你的员工吗?你自己的工作会面临什么威胁? 今年早些时候在麻省理工学院斯隆首席信息官研讨会上,自动化专家Andrew McAfee和“第二机器时代:辉煌技术时代的工作,进步与繁荣”联合作者安德鲁·布莱诺夫森(Erik
新智元
2018/03/21
1.2K0
五个值得一看的TED AI 演讲:盲目信仰大数据的时代必须结束
如果我们心存偏见,还能做好数据分析吗?
本文转自品觉(pinjue_ali) 序 马克·安德森(Marc Andreessen)的一句名言:“软件正在吞噬整个世界。”各行各业发现,分析对保持竞争力至关重要。政府则发现,分析对履行政府义务至关重要。 我们可能会因为和我们拥有相同购买或信用记录的其他人曾经开车不小心,而不是因为我们自己曾经开车不小心,而在购买汽车保险时被收取更高的费用。这就是偏见的本质:假定一个人将像同类的其他人那样行事。 计算领域的一条重要戒律,就是计算机不能改变人类责任。如果人类做某件事情是不合法或不道德的,那么人类创造的计算机
大数据文摘
2018/05/22
8510
数据科学家的自我修养
编者按:谨以此文向著名统计学家、中国人民大学统计学院教授吴喜之教授致敬! 正文: 继云计算之后,大数据已然成为IT行业的热点。《哈佛商业评论》更是宣称“数据科学家”是二十一世纪最性感的职业。所谓性感,既代表着难以名状的诱惑,又说明了大家都不知道它干的是什么。这里我不想重复什么是大数据,什么是数据科学,而是直接从数据科学家这样一个神秘的群体开始让大家对大数据和数据科学有个基本的认识。 认识数据科学家 “数据科学家”是舶来语,翻译自英文“Data scientist”,用来描述“一些能综合运用编程和统计技
小莹莹
2018/04/23
9630
数据科学家的自我修养
算法偏见侦探
AI 科技评论按:随着越来越多的算法不断渗透入社会的层层面面,如医疗机构、政府部门,对算法偏见的讨论越来越多。这个月,Nature 杂志评选出 2018 年最受欢迎的十大科学长篇专题报道,其中,Rachel Courtland 一篇讨论算法偏见的文章成功当选。AI 科技评论将原文编译整理如下。
AI科技评论
2018/12/29
6390
算法偏见侦探
干货 | 数学通大道,算法合自然?
算法对我们的生活中的有着各种潜移默化的影响,但算法是否存在被滥用的情况?本文对算法使用问题提出了自己的看法。
AI科技评论
2018/07/26
4260
干货 | 数学通大道,算法合自然?
MIT新研究:AI仅靠看X光片就能准确识别患者种族,但没人知道为什么
大数据文摘作品 作者:Mickey 人类对于某人是黑人、亚洲人还是白人的判断主要来自于某些外貌特征:皮肤、头发、眼睛这类外在体征,但是,如果仅从一个人的胸部X光片、肢体CT扫描和乳房X光片等影像资料,就能判断出他/她的种族,你相信吗? 当然不,毕竟连最专业的医学影像专家都无法识别。不过最近,根据麻省理工学院的一项研究,经过训练的人工智能可以有效识别这些没有被标注的X光片的主人,到底是黑人、黄种人还是白人,准确率达到90%以上,即使这些图像是损坏、裁剪和噪声的医学影像,而这一点通常是临床专家无法做到的。 并且
大数据文摘
2022/05/25
4870
MIT新研究:AI仅靠看X光片就能准确识别患者种族,但没人知道为什么
有些决策不能,也永远不该委托给机器
大数据文摘出品 编译:大茜、张文静、Aileen、魏子敏 我们正将越来越多的选择权拱手让于算法。 从新的一天要听什么歌、哪些人应该拿到社会福利,到学校课程设置、公司并购决定,机器开始支配这些看似琐碎但重要的抉择,而我们还没有意识到,这或许是比“终结者”的到来更严重的威胁。 但有些决策不能,也永远不应该委托给机器。 用算法来做决策的初衷一定是善意的:提高效率,让决策迅速获得数据支持,且保证流程的一目了然。 而在惊叹于这些让人眼花缭乱的自动化决策系统的同时,管理层常常忘记一个最重要的问题: 算法的引入是减少还是
大数据文摘
2018/06/29
3660
大咖丨哥伦比亚教授周以真:人工智能恐慌以及大数据威胁反思
大数据文摘记者:魏子敏 大数据和人工智能正无可置疑地为全行业和我们的生活带来了翻天覆地的变化,在10月11日2017杭州·云栖大会的主论坛上,不同于全场众多追捧褒扬之声,来自哥伦比亚大学的周以真教授则针对大数据和人工智能可能带来的威胁进行了反思。她提出,数据会给我们带来很多好处,但是如果不负责任滥用数据和算法,会带来可怕的结果。 “我要给大家敲一个警钟,我们在使用数据过程当中不负责任的话,会有什么样的后果。” 她用FATES(命运)这个比喻的缩写来讲述了怎样有责任的使用数据,F是代表公平,A是可靠,T是透明
大数据文摘
2018/05/24
5160
大数据时代引发“歧视”忧虑,但不该就此因噎废食
大数据越来越被视为一种战略性资产,它可以通过其强大的预测技术来改造组织。 据社会研究人员小组研究,大数据对公众和社会的影响,当涉及到帮助系统做出决定时,应用方法可能并不总是公正的。 最近,纽约大学组织
灯塔大数据
2018/04/09
1.2K0
大数据时代引发“歧视”忧虑,但不该就此因噎废食
AI威胁论兴起?Nature欲发表“罪犯识别”研究,遭1700名科学家联名抵制
今日,一份长长的公开信在reddit机器学习版块火了起来,信的内容涉及1700名科学家联名抵制一项人工智能研究发表在Springer Nature上。
AI科技评论
2020/06/29
8550
AI威胁论兴起?Nature欲发表“罪犯识别”研究,遭1700名科学家联名抵制
唱衰文:大数据至死 沉迷数据不能让我们正确把握未来
世界上有三种谎言——谎言,该死的谎言,以及统计数据。引自马克·吐温。本文的作者站在这个信息爆炸的时代,从多个角度展示了数据的欺骗性。有些是基于偏见,有些是方法不对,但总之,用数据说话,可能并没有想象的那么简单可靠。 这个世界不断的告诉我们数据会告诉你真相。但是同样的数据往往会告诉我们不同的故事,取决于是何种数据以及你如何解读。两个类似的数据,由于人们进行不同的解读,从而表现出两个截然不同的结论,这样的情况让我很怀疑什么才是真相。数据是人们手里的工具,而我们可以按我们的需要进行解释。需要澄清的是,这个问题并不
CSDN技术头条
2018/02/08
6300
【卫报】算法如何影响我们的生活
【新智元导读】应聘某一岗位没被录用?原因可以有很多:个人职业期望与岗位不符;能力尚未达标。但你是否想过,你被拒绝的理由竟是性格测试没通过!算法正在影响我们的工作和生活,其规模、重要程度,隐秘性,使得这种影响不再普通。不仅如此,算法出错了还不好伸冤,而且研究显示,算法对穷人有歧视。 Cathy O'Neil 是约翰逊实验室高级数据科学家、哈佛大学数学博士、麻省理工学院数学系博士后、巴纳德学院教授,曾发表过大量算术代数几何方面的论文。他曾在著名的全球投资管理公司D.E. Shaw担任对冲基金金融师,后加入专门评
新智元
2018/03/23
1.3K0
【伪科学争议】谷歌研究员两万字批驳上交大用深度学习推断犯罪分子
【新智元导读】 不久前, 上海交通大学的两位研究者发布了一项题为“利用脸部照片自动推断犯罪性”的研究,利用基于有监督的机器学习的方法,根据人的脸部特征预测一个人是否有犯罪倾向,“准确率接近90%”。该研究在国内外引起了广泛的争议。近日,谷歌的几名研究员撰文对这一研究进行了批驳,回顾了机器学习技术的底层运作方式和技术细节,并探讨机器学习等先进技术在融入现实中所遇到的难题和挑战。 任何关心如何确保 AI 技术朝着有利于人类发展的人都是本文的读者 1844 年,意大利南部一个小城镇举办了一场审判会,一个名叫 Gi
新智元
2018/03/28
9530
【伪科学争议】谷歌研究员两万字批驳上交大用深度学习推断犯罪分子
用数学思维,打破数据悖论 | 数据科学50人·吴明辉
吴明辉,明略数据、秒针系统创始人兼董事长,本科毕业于北京大学数学学院,北京大学人工智能实验室硕士。他从事软件工程开发和算法研究近二十年,是国内企业级服务领域里全能型企业家。他所创办的秒针和明略两家大数据公司,都已经成长为中国数据科学领域的独角兽企业。
DT数据侠
2018/09/21
5330
用数学思维,打破数据悖论 | 数据科学50人·吴明辉
数据科学家Rudder借助大数据阐述9个关于约会的启示
序 大数据先生:象往常一样你在酒吧喝过两杯酒之后遇到一个新朋友, 于是又加上一杯。你靠近这位大数据朋友, 比平时更专注地听他讲。“数字足迹。”“信息时代。”你点头微笑,即使你并不明白。“改变世界。”“未来。”你心领神会的样子,即便没有真正听懂,你也伪装得很好。 早晨醒来,你对大数据仅残存些模糊的记忆,诸如它的标记线和些许流行语。你对这些词的的理解也是隐约而模糊。 如果你仍在为理解这位大数据朋友而努力,大数据还有你不曾见过的另一面——它不再是承诺利用海量数字来优化,货币化或者系统化我们生活中的每一个部分,
小莹莹
2018/04/20
5620
数据科学家Rudder借助大数据阐述9个关于约会的启示
在机器学习过程中分析并防止无意识的偏见
本文基于Rachel Thomas在QCon大会上的主题演讲“分析和防止机器学习中的无意识偏见”。
程序你好
2018/09/29
9090
图灵奖得主Jeff Ullman直言:机器学习不是数据科学的全部!统计学也不是
导读:3月31日,2020年图灵奖重磅出炉,颁给了哥伦比亚大学计算机科学名誉教授 Alfred Vaino Aho 和斯坦福大学计算机科学名誉教授 Jeffrey David Ullman。
Datawhale
2021/04/20
6420
偏见:人工智能辅助决策的隐患
原题:The Hidden Dangers in Algorithmic Decision Making
yuanyi928
2018/12/29
1.3K0
我发现我的数据被操纵了……
大数据文摘作品 作者:danah boyd 编译:糖竹子、白丁、Aileen 索引的完整性不再是决定搜索结果质量的唯一因素。用户感兴趣的搜索结果常常淹没在“垃圾结果”中。 ---- 引自Sergey Brin 和Larry Page的《解剖谷歌搜索原理》(1998年4月版) 当前,我们正目睹着一场数据被滥用的大剧。限制数据滥用并且努力解决偏见数据和问题数据,正成为解决科技对社会基石产生影响的重要条件。 简而言之,我认为大家应该重新考虑,安全、公平到底意味着什么。本文从三个方向告诉我们,在数据驱动的世界中,
大数据文摘
2018/05/24
5890
谷歌搜索揭示人性最黑暗的秘密
人们在回家路上喝了多少酒上撒谎。他们在多经常去健身房上撒谎,在那些新鞋子买了多少钱上撒谎,在自己有没有读那本书上撒谎。他们谎称自己生病来请假。明明没打算再联系,他们却跟人说以后保持联系。明明是你的错,他们却说不是。明明不喜欢你,他们却说喜欢。明明心情不好,他们却说自己很开心。明明喜欢男生,他们却说喜欢女生。人们对朋友说谎,对孩子说谎,对父母说谎,对医生说谎,对伴侣说谎,对自己说谎。他们对研究调查说谎。以下是一项简单的调查:
IT阅读排行榜
2018/08/16
8020
谷歌搜索揭示人性最黑暗的秘密
推荐阅读
相关推荐
五个值得一看的TED AI 演讲:盲目信仰大数据的时代必须结束
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档