数百名研究人员试图利用历时15年的数据预测儿童和家庭的结局。但没有人能够准确地做到这一点。
在美国,政策制定者经常利用社会科学家的工作来预测具体政策可能会如何影响社会结果,比如就业或犯罪率。他们的想法是,如果能够理解不同的因素如何潜在改变一个人的生活轨迹,他们就可以提出干预措施,以促进最佳结果。
然而,近年来,社会科学研究者越来越依赖于机器学习,期望机器学习通过处理大量数据来产生更精确的预测。这样的模型现在被用来预测被告因第二起犯罪而被捕的可能性,或者一个孩子在家里受到虐待而被忽视的风险。这个假设是,与人类或更基本的统计分析相比,一个提供了有关给定情况的足够数据的算法将做出更准确的预测。
近日发表在《美国国家科学院院刊》上的一项新研究对这种方法的有效性提出了质疑。普林斯顿大学的三位社会学家利用4000多个家庭的近13000个数据点,让数百名研究人员预测儿童、父母和家庭的六种生活结果。无论研究人员使用的是简单的统计数据还是前沿的机器学习,他们都没有接近合理的准确度。
非营利组织人工智能伙伴关系(Partnership on AI)的公平与问责研究主管Alice Xiang表示:“这项研究确实强调了这样一个观点,即机器学习工具终究不是魔法,不是万能的。”
研究人员使用了一项历时15年的社会学研究数据,该研究名为《脆弱的家庭与儿童健康研究》(Fragile Families and Child study),由普林斯顿大学社会学和公共事务教授萨拉·麦克拉纳汉(Sara McLanahan)牵头。麦克拉纳汉是这篇新论文的主要作者之一。最初的研究试图了解未婚父母所生孩子的生活状况。这些家庭是从2000年出生在美国大城市医院的儿童中随机挑选出来的。在儿童1岁、3岁、5岁、9岁和15岁时进行随访,并收集数据。
麦克拉纳汉和她的同事Matthew Salganik和Ian Lundberg随后设计了一个挑战,众包预测他们认为在最后阶段具有重要社会意义的六种结果。这些数据包括孩子们在学校的平均绩点;他们的“毅力”水平,或在学校自我报告的毅力;以及他们家庭的整体贫困水平。来自不同大学的挑战参与者只得到了部分数据来训练他们的算法,而组织者则保留了部分数据以进行最后的评估。在五个月的时间里,数百名研究人员,包括计算机科学家、统计学家和计算社会学家,提交了他们最好的预测技术。
事实上,没有一份提交的报告能够在任何一项结果上达到较高的准确性。社会学教授萨尔加尼克表示:“你不能以任何特定研究人员或任何特定机器学习或人工智能技术的失败为依据,来解释它。”最复杂的机器学习技术也不比简单得多的方法精确多少。
对于研究人工智能在社会中的应用的专家来说,结果并不那么令人惊讶。即使是刑事司法系统中最精确的风险评估算法,例如,最高也只有60%或70%。也许在理论上听起来还不错,但无论如何,再犯罪率可以低于40%。这意味着预测没有再犯将会使你的准确率超过60%。
同样,研究一再表明,在算法评估风险或选择将资源导向何处的情况下,简单、可解释的算法通常具有与深度学习等黑箱技术类似的预测能力。因此,黑盒技术的额外好处在可解释性方面付出的巨大代价并不值得。
这些结果并不一定意味着预测算法(无论是否基于机器学习)在政策领域都永远不会是有用的工具。例如,一些研究人员指出,为社会学研究而收集的数据与通常在决策过程中分析的数据不同。
Now人工智能研究所(AI Now institute)的政策主管拉什达•理查森(Rashida Richardson)也指出了预测问题的构建方式令人担忧。该研究所研究人工智能的社会影响。例如,一个孩子是否有“勇气”是一种固有的主观判断,研究表明,这是“一种衡量成功和表现的主观狭隘构想,”这个细节也表明,此类方式或许根本行不通。
Salganik也承认这项研究的局限性。但他强调,这说明了为什么政策制定者应该更谨慎地以透明的方式评估算法工具的准确性。拥有大量的数据和复杂的机器学习并不能保证准确的预测,而没有太多机器学习经验的政策制定者可能对此抱有不切实际的期望。
领取专属 10元无门槛券
私享最新 技术干货