若要以正确的方式处理暗数据,你首先需要对它进行定义。那么暗数据究竟是什么呢?
简而言之,暗数据就是一个企业收集、处理和存储起来的,最后并没有投入任何特定用途的信息。通常情况下,暗数据将会闲置多年,在你的公司继续收集更多数据的同时占用数据中心中的宝贵空间。随着未使用数据的不断堆积,一些最开始可能只是小麻烦的问题会越积越严重。所有这些额外的数据都会导致增加开支,但更严重的是,这些数据通常是不受保护的,这等于打开了数据泄露和其他可能的安全事故的大门。
因此,如果暗数据是如此昂贵和危险,为什么各公司甚至忍受它们保持在身边?事实是,许多企业宁愿存储他们手机的所有数据,以确保他们遵守所有的法律法规。与此同时,企业都不情愿清空未使用的数据,因为他们永远不知道自己是否会在未来的某个时间需要它们。大数据分析能够产生一些解决问题的方法,而为了找到这些解决方案,企业需要用到相关的数据。就像那种常见的心态一样,仅仅因为你现在用不上它不代表它在以后也没有价值。然而这样的想法并不总会变成现实。如果有的话,这和囤积者的心态也没什么不同。即使一个企业不采取什么特点的心态,很多公司觉得他们实在是太忙了,以至于无法顾及到清理暗数据这档子事。
对暗数据的一次彻底清理可能十分耗时,这是事实,但结果也非常值得去努力。主要的挑战在于要摆脱暗数据,同时仍然持有任何必要的数据。在你的公司中你有几种方法可以做到这一点。其中最有效的方法是过滤数据。当收集由机器和互联网产生的数据时,你会发现数据伴随的很多有价值的信息在很大程度上是无用的。通过识别和隔离你所需要的数据,你能够把它从所有其他的杂音中分离出来。这有助于放置一开始就发生不必要的数据堆积的情况。在这一努力过程中,某些大数据工具能够有所帮助,但它取决于每个公司去识别哪些数据是最宝贵从而需要保留的,而哪些数据是最好清理掉的。
各企业还可以积极努力地通过把探索到的暗数据导入其他数据库来清理他们的数据中心。云计算在这一过程中可谓是特别得心应手。如果你的公司和一个云供应商有一种稳定的合作关系,那么利用它们来存储不需要的数据将会是一个既明智又经济划算的选择。当在使用此法时,你会从你的数据中心中摆脱暗数据,但是当你需要在一个新的分析项目中用到它时,你仍然可以使用它们。企业也可能会选择从他们的数据中心中把数据存档到一个单独的位置,例如将信息传送到硬盘驱动器中,这个驱动器比闪存存储的性能要差,但却是一个成本更低的替代性方案。
毫无疑问,暗数据可能对你的公司经营产生损害。如果没有正确的管理和数据保留策略,未使用的数据可以很快地成为一个企业的负担。最好的策略是尽早采取计划,并且长期坚持计划,这样的话你就永远不用再面对需要立即清理暗数据负载的挑战了。一个井井有条的数据中心往往意味着成功使用了大数据和浪费时间与资源之间的区别。
原文作者:Rick Delgado,本文由CDA数据分析研究院Cecilia翻译,更多内容敬请关注