对于人工智能的发展,数据科学家最重要的是要依靠自己的批判性思维,而不是依赖机器。
文︱Gary Smith
译︱编辑部
图︱网络
最近几个月,人工智能发展迅猛。微软宣布将与研究实验室OpenAI合作,投资10亿美元打造“通用人工智能”(AGI)。OpenAI 首席执行官 Sam Altman表示:“强人工智能的研发将是人类历史上最重要的技术进步。”
众所周知,计算机在一些具体任务的处理上远超人类,但它们并不具有人类智慧、常识以及批判性思维,在不明确的条件下它们往往很难执行任务,作出判断或选择。因此,开发出类似于人脑的计算机将会是巨大的进步,然而微软在这方面的尝试似乎也并不让人满意。
2016年,微软发布了聊天机器人Tay (Thinking About You)。Tay通过模仿千禧一代的语言,化身为一位千禧年代的女性。微软曾夸口说,“你和Tay聊得越多,她就越聪明。”当时,一天之内,Tay发布了9.6万条推文,拥有超过5万名粉丝。可是Tay终究只是一个无聊的聊天机器人,她的推特内容无非是,“希特勒是对的”,“我恨犹太人”,“我恨透了女权主义者”。Tay擅长利用接收到的单词和短语,但它却无法在文章中正确的使用它们,当然也无法理解自己发送的推文。16个小时后,微软将Tay下线,但一周后,又重新将其上线,然而情况并没有好转,Tay开始疯狂地向其20万粉丝重复发送“太快了,请休息一下”的推特内容。后来,微软声称这次的重新发布是一次意外,并再次将Tay下线。
通用人工智能也许只是一个虚幻的梦想,不过数据科学企图依靠大数据和强大的计算功能,让计算机根据事实做出明智的决策,而不是依赖人类的一时兴起、预感或偏见。然而实际情况是,企业和政府依旧犯着大数据时代之前的那些错误。因为将重大决策交给计算机只会重复曾经的错误判断。
数据科学不仅仅是数学证明、统计计算和计算机编程。实验设计、人类智慧、常识、怀疑和批判性思维,这些真正的人类智慧才是核心所在。如果数据科学想要发挥其巨大的潜力,就要避免以下9个常见的“陷阱”:
1,错误数据
第一台机械计算机的发明者查尔斯·巴贝奇(Charles Babbage)曾两次被问到:“巴贝奇先生,请问如果你把错误的数字输入机器,会得出正确的答案吗?”答案是否定的。
芝加哥一家医院曾做过关于败血症病人的研究,他们认为,血液pH值低的患者出院后很快再次入院的概率较低。不过,他们的数据包括了在住院期间去世的病人!要知道,最不可能再次入院的病人正是那些躺在太平间里的人。所以,事实上,当我们排除那些“死亡数据”之后,pH值低的病人他们的病情其实并不乐观。
2,忽略理论
一些数据科学家在没有理论或常识指导的情况下,单单从庞大的数据中企图寻找某种模式。他们认为思考一个问题限制了新知识的发现。不幸的是,大数据时代使得各种模式成千上万,然而其中大多数都是毫无意义的。这一悖论在于:为了得出某种模式越是疯狂地去搜索数据,得出的结论可能越没有价值。
一家互联网营销公司在100多个国家测试了其登陆页面的三种颜色(黄色、红色和蓝绿色),并将其与传统的蓝色相对比。他们得出的结论是,英国人喜欢蓝绿色,但事实并非如此。
3,“崇拜”数学
数学家热爱数学,非数学家“畏惧”数学。这一致命的组合,往往会导致建立很多极其不现实的模型。
许多抵押贷款违约的数学模型在大衰退期间崩溃了,因为他们简单的假设,违约的概率呈现正态分布且是独立存在的。他们低估了极端事件发生的可能性,也忽略了经济衰退等宏观经济事件将引发的大量抵押贷款违约的可能性。
4,“崇拜”电脑
由于计算机能够非常高效的处理某些问题,人们很容易认为,计算机拥有高智能。但是应对具体任务的高效性与应对各类复杂情况的综合智力,这两者是十分不同的。我们对于计算机的“崇拜”其实是一种有害的痴迷。
现如今,算法犯罪学在审前保释、审后判决和定罪后假释等决定中使用黑箱模型变得司空见惯。然而,黑箱的算法往往带有种族偏见,甚至不如那些只考虑年龄和前科的简单模型。
5,过分分析数据
为了能够找到数据之间的重要关系,研究者试图以各种各样的方式对数据进行分析。罗纳德•科斯(Ronald Coase)曾精辟的对此表示,“如果你‘折磨’数据的时间够久,它们总会‘招供’。”
对于从一家意大利自助餐厅收集来的数据,研究员建议助理将食客分为“男性,女性,吃午餐的,吃晚餐的,独自进餐的,和他人一起的,喝酒的,喝饮料的,座位离自助区远的和近的人……”然后研究这些小组之间的不同之处,“他们点了几块披萨,是否吃甜点?是否喝饮料?等等”。研究员曾向助理表示:“认真‘钻研’这些数据,非得找出些数据间的关系来。”最后,四篇“披萨论文”在这样的“苦心钻研”中得以发表,其中最著名的一篇报道称,当男性与女性共进晚餐时,他们会多吃93%的披萨。不过,他发表的十几篇论文现已被撤回并且他也辞去了大学的职务。
6,自我欺骗
物理学家理查德·费曼(Richard Feynman)曾说过:首先你不能欺骗自己——而自己是最容易被欺骗的人。真正的科学家会分享他们的理论,质疑他们的假设,并寻找机会进行实验来验证或否定其理论与假设。而“数据小丑”只会看到他们想看的东西。
曾经有一项研究让高中生预测他们的数学考试成绩。结果显示平均预测得分普遍高于平均实际得分,预测与实际得分之间的相关性为0.70。作者因此得出了两个结论。第一,学生高估了自己的能力。然而,这也可能是学生低估了考试的难度。第二,提高学生的自尊可以提高考试成绩。然而,预测分数和实际分数之间的正相关可能恰恰反映了这样一个事实:大多数成绩优异的学生清楚他们擅长数学,而那些不及格的学生也知道自己不太理解数学。所以,他们并不是过分悲观,他们只是清楚现实情况。
7,混淆相关性与因果关系
我们总是忘记具有相关性并不等于拥有因果关系。
2011年,谷歌创建了一个名为Google Flu的人工智能程序,通过搜索查询来预测流感的爆发。他们曾自豪地说:“我们可以准确地估计目前美国每个地区每周流感活动的水平,而且报告只滞后大约一天。”他们表示,他们模型的准确率为97.5%,因为模型的预测结果与实际流感病例数之间的相关性为0.975。谷歌数据程序研究了5000万个搜索查询,并确定了与流感发病率最密切相关的45个查询词语。由于流感爆发具有很强的季节性,Google Flu 大都选择季节性的关键词,例如圣诞节、寒假和情人节。然而, Google Flu在真正的预测方面并不准确。在一次预测中Google Flu高估了流感样病例门诊数近两倍之多。至此,Google Flu以失败告终。
8,忽略真正均值
当数据波动较大时,大部分被测数据会高于现象,但随后越来越多的值才更接近平均值。简单来说,就是某项指标的表现过高或过低后会自然回归到平均水平。
一位高尔夫球手如果单凭侥幸在一次比赛中赢得了金牌,他很可能在下一次的比赛中表现欠佳,这并非是运气不好或者发挥失常,只是因为上次的胜利其实高估了他的实力。
对于公司也是如此。一名数据分析师曾对过去三个月“表现欠佳”的网页布局进行修改,希望能够提高其收益。他显然“大获全胜”。在他对页面布局做出调整之后的第二天,收益激增20%。之后收益增长依旧持续了一小段时间。不过,好景不长,事实证明这些确实是表现欠佳的网站,其收入已逐渐向平均水平回归。
9,“危害”他人的利益
在大数据时代,企业和政府不断地监控我们,以便预测我们的行为并操纵我们的行为。优秀的数据科学家懂得谨慎行事,尊重我们的权利和隐私。“己所不欲,勿施于人”这句话对于数据科学同样适用。
一个约会网站曾做过三个实验。在实验1中,他们暂时删除了网站上的所有照片,发现使用的人少了很多。在实验2中,他们随机隐藏了人们的个人资料,发现这对性格评分没有影响。而在实验3中,他们颠倒了匹配度。即当两个用户明明十分匹配时,告知对方彼此不合适。而当两人其实不合适时,却显示高匹配度。前两个实验相对不会造成负面影响,然而第三个却损害了他人的利益。毕竟没有谁喜欢和自己完全不合适的人约会。他们的客户肯定不希望自己因为这种不匹配的约会方式而错过真正合适的人。
所以,要想避免以上那些“错误”或“陷阱”,我们需要有批判性的思维。要将科学应用到数据科学之中,因此,我们更应该像科学家那样去思考,而不是像机器那样。
备注:本文翻译自Fast Company,谢谢。
END
领取专属 10元无门槛券
私享最新 技术干货