首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

为什么我们如此关注可解释的算法?为黑盒算法辩护

作者|Alex P. Miller

译者|张健欣

编辑|Emily

算法正开始用于各种有高风险后果的应用程序。这些应用程序横跨各种领域,包括刑事量刑、开医疗处方和雇佣员工等。随着向人工智能驱动的决策方式的转变,关于“黑盒”的机器学习算法存在的问题的文章和思考纷至沓来。许多记者和评论家深刻地指出这些算法的潜在问题,包括歧视少数民族、加载不应该影响最终结果的虚假变量以及使用不能被任何人类理解的莫名其妙的复杂逻辑。

在许多情况下,这些担忧是合理的,这些算法确实应该非常小心地实现。然而,当我们继续寻找使用机器学习算法的新应用时,我们不应该因为这种对于算法解释性的关注而忽视关于这个世界的一个残酷事实:人类决策通常是变化无常的、非理性的,并没有比最不透明的算法更具有可解释性。

具体问题具体分析

这里为了方便讨论,将算法应用分为两类:一类是将算法用于自动决策以取代人类决策;另一类是在应用程序中用算法来取代基于规则的流程。基于规则的流程有许多易于度量的标准用于决策。基于规则的流程都非常不错,因为它们很容易理解。当然,这些规则本身可能并不是那么好(例如在许多量刑法规中),但是相对于其它流程来说,至少基于规则的流程都有清晰的可以用来讨论和评估的标准。

“可解释性”的价值在第二类应用程序中非常明显。从一个基于规则的世界转向一个充满随机性和神经网络的黑盒世界,决策者变得无所适从也是可以理解的。如果一所大学,过去简单地使用 SAT 和 GPA 录取线来进行录取决策,现在使用多功能的深度神经网络取代这个流程,将明显产生一些关于 SAT 分数和 GPA 如何影响算法的录取决策的具体问题。

然而,我认为不应该对第一类应用程序(算法用来取代纯人类决策)也要求相同的可解释性标准。正如我在其它地方提到的(以及其它研究人员强调的),根据算法要取代的系统来评估算法的效能是非常重要的。这也是这两类应用程序(一类取代人类,一类取代规则)之间的区别为什么非常重要的原因。当我们特别关注那些用算法取代人类的应用程序时,可解释性很明显是一个站不住脚的双重标准。

人类是非理性的

虽然最近在机器学习和算法决策方面取得了最新的进展,但是人类大脑已经存在了很长一段时间了。虽然出现了大量关于如何使用算法进行决策的新研究,但是研究人员(如果不是千禧年之后出生)已经用了几十年时间来研究人类大脑是如何决策的。这些研究中最普遍一致的发现是,在每一个可以想象的环境中都有外在因素影响人类的决策。

其中一个简单的例子,心理学家称之为“锚定效应”。为了演示人类如何容易被不相关的信息影响,我们可以考虑 Ariely、Lowenstein 和 Prelec(2003)的一次经典研究:研究人员让一群学生写下他们的社会安全系数的最后两位数和他们是否愿意付那个数量的钱来购买一盒巧克力。为了探出这群学生对于巧克力的真实定价,他们让这些学生在一场拍卖会上为这盒巧克力投标。虽然很明显对于你我来说,你的社会安全系统(本质上是一个随机数字)的最后两位数应该与你如何定价一盒巧克力没有任何关系,但是研究人员发现在社会安全系数和这群学生的实际购买意愿之间有显著的关联。此外,尽管统计证据显示出与常识相反的关联性,但是大部分学生坚持称他们的社会安全系数对他们的投标没有任何影响。

另外一个广为人知的外在因素影响人类决策的例子是,“饥饿的法官“研究。研究结果显示,这些法官在午餐之后(他们的胃是满的)比在午餐之前(他们的血糖较低)更可能作出有利于被告假释的判决。

法官穿着越少,对被告的判决越不利(Danzinger et al., 2011)

也许你会对这些特定的例子有所疑虑:这些例子感觉太刻意设计了、投注不足够高、样本量不足够大或者混杂的变量没有有效地控制。(合理的批评确实存在,例如《关于在 WTP 和 WTA 试验中锚定效应的健壮性》和《不可能的饥饿的法官》。)你可能更倾向于忽视这些研究,但是还有成百上千深入研究过的关于主流认知偏差的例子。行为经济学家 Richard Thaler 的工作是论证在高投注的有重要后果的情况下也存在认知偏差。事实上,Richard Thaler 最近获得诺贝尔奖,很大程度上是因为他这方面的工作的价值。你不能忽略从大量调研中得到的关于判断和决策的压倒性的结论:人们一直被外在因素影响他们的决策。

至少我们可以自我解释... 是这样么?

虽然认知偏差本身是有害的,但更糟糕的是,当你让人们解释他们的决定时,他们通常弄不清楚他们为什么要那么做。正如 Ariely 的学生坚持称他们的社会安全系数根本不影响他们如何对一盒巧克力定价,我们通常不会意识到这些偏差是如何进入我们的思维流程的。另外,即使我们为某个特定的决定提供了貌似有理的原因,还是会有充足的证据证明这些原因通常纯粹是虚构的。

一篇经典的论证这些效果的论文是 Nisbett 和 Wilson 的《Telling more than we can know》(1977)。我高度推荐完整地阅读这篇论文来全面了解人类从虚无缥缈中扯出充足的合理性是多么荒谬地常见,但这里我会简要总结他们的观点:

证据表明,高阶的认知过程可能只有很少或者根本没有直接的验证渠道。受试者有时候(a)意识不到对反应有重要影响的因素的存在,(b)意识不到反应的存在,(c)意识不到因素已经影响了反应。

这是一种奇特的学术说法,人们通常不清楚他们为什么作出特定的决策,即使研究人员可以通过统计方式证明外在因素是相关的。

算法并没有那么差

只要我们记住人类自己也总会出现认知偏差,我们就可以恰当地评估使用算法来自动化人类决策,这时通过对比就会发现,这些算法对于决策是很有帮助的。至少同一个算法从始至终会给你相同的答案。算法也不需要维持任何社会名声或自尊。因此当我们研究这些算法如何达成一个特定的决定时,它们不会用看似有理的合理化来为自己辩护。

不要误会我的意思:我只是为了更好地理解不透明的算法如何进行决策。但是,是时候停止自欺欺人,不要再相信人类在合理化他们的决定时不会牵强附会。事实上,只有依靠算法的决定性和一致性,而不是人类的不可预知性和随意性,我们才可以严格地逐渐探究它们的逻辑并度量它们的改进。

失之东隅,收之桑榆

我们虽然失去了对算法的理解,但通过算法增加了成果。对社会学家或经济学家来说,可解释性当然是至高无上的:大多数科学研究的主要目标是获得原理,这个原理能够解释事情是如何发生的以及为什么会发生。然而,对于结果主义者,例如,那些只关心世界上真正在发生的事情的人,可解释性就会处于次要地位。如果我们关心减少种族不公正的数量并增加所有阶层人民的公平机会,那么我们就可以将这些作为比较人类决策和算法决策的标准。

只要算法能够真正地减少偏见和歧视,我们就应该将可解释性降为第二优先级。而许多研究已经证明算法确实能够减少偏见和歧视。毫无疑问,保证算法是可解释的是一个有价值的目标,但是,那些坚持可解释性的人一定要思考,与我们寻求的提高系统实际产出相比,这个目标是否真的更有价值。

关于作者

Alex P. Miller 是宾夕法尼亚大学沃顿商学院的信息系统与技术专业博士。

查看英文原文:

https://towardsdatascience.com/why-do-we-care-so-much-about-explainable-algorithms-in-defense-of-the-black-box-d9e3bc01e0dc

如果觉得内容不错,记得给我们「留言」和「点赞」,给编辑鼓励一下!

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180214G0AMS600?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券