Editor's Note:
在这样一个大数据时代,人们很容易以为自己拥有做出正确决策所需的所有信息。但事实上,我们拥有的数据从来都不完整,甚至可能只是冰山一角。
正如宇宙的大部分是由暗物质组成的,我们虽然看不见它们,但并不意味着它们不存在。信息世界同样充满了这样的暗数据,我们如果忽视其存在,那么无论你多么聪明,无论你使用的统计模型和算法多么先进,你的结论都很可能是错误的,严重时甚至会使自身陷于险境。
暗数据——无处不在
什么是暗数据?暗数据就是你没有的数据。
这个“没有”,可能是你知道你没有,比如问卷表单上问题下方的空白;也可能是你不知道你没有,比如那些不满意的顾客选择沉默而非投诉。但是除了简单的二元分类之外,暗数据可以以多种方式出现,一些比较明显,一些比较微妙。
例如,虽然简单的摘要统计可以告诉你有关数据的一些信息,但这些统计忽略了其他方面。为一个目的而设计的定义可能会在另一种情况下产生极大的误导。是隐藏的数据,那些你没有,但是想获得的数据,会告诉你在不同情况下会发生什么。
总的来说,有十五种暗数据值得关注。
暗数据——至关重要
暗数据很重要,因为如果数据库、计算机、笔记本以及电子表格中实际可用的数据只是部分数据,隐藏了重要信息,那么你依据这些数据做出的分析可能会具有误导性。
有一种迷思是:数据缺失一点点没什么大问题。
尤其在“大数据”的世界里,这样的说法渐渐流传开来:大量的数据现在更容易积累起来,这将淡化错误或修正那些由缺失数据造成的偏差。
但这种想法是错误的,这些缺失的数据可能是理解正在发生的事情的关键。
继续为你贡献数据的是回头客,如果忽略了那些不再来光顾的消费者,那么要想为你的公司制定发展策略,就会被数据所误导。诊断疾病的算法,如果其数据中缺失了一种罕见但致命的疾病,那对患有此种疾病的人来说,无疑是个坏消息。
暗数据——危机四伏
暗数据对任何领域都构成潜在风险。
在商业领域,你将获得关于客户行为的数据,但商业扩张需要了解其他客户可能会有何种行为。
在新药的临床试验中,你需要知道为什么病人会停止用药——是因为治疗没有效果,还是因为治疗完全有效,病情已经治愈?
在天体物理学中,我们看不到天空中的所有星星,那么如果我们看不到的那些星星(也就是暗数据)与我们能看到的星星是截然不同的呢?
当人类参与到诸如经济和公共政策等领域时,情况就更加复杂了。人类会对他们所处的环境做出反应,甚至在你观察或评估他们的时候做出反应。这意味着你收集到的数据受到了“你在研究这个议题”这件事的影响。暗数据带来的潜在复杂性和误解是显而易见的。
暗数据的危险一直伴随着我们。人不可能无所不知,所以一定有我们不知道的事情。问题是,这些缺失的东西是否重要,以及“数据驱动社会”的仓促发展是否加剧了问题的严重性。
当然,大数据集的现成(和自动)获取,再加上现代统计学、机器学习和人工智能工具的强大威力,对于提高人类的能力充满前景,但这些进步也伴随着挑战。
计算机的能力很强,但这也意味着我们必须依赖这些机器。我们需要他们为我们提供统计摘要、图形图表和算法输出。这意味着计算机是我们和数据之间的必要中介。
当它作为显示这些数据的滤镜时,它也充当了我们和数据之间的一堵墙。它让数据分析有了一种不透明性,只有在我们可以透过这堵墙窥视的地方,才能有新的洞察。
PUP 内容速递:
Dark Data:
Why What You Don’t Know Matters
暗数据:为什么你不知道的事情很重要
领取专属 10元无门槛券
私享最新 技术干货