每日一句
生活不可能像你想象得那么好,
但也不会像你想象得那么糟。
我觉得人的脆弱和坚强都超乎自己的想象。
有时,我可能脆弱得一句话就泪流满面;
有时,也发现自己咬着牙走了很长的路。
——莫泊桑《一生》(小小)
今天在数据科学成熟度模型(DSMM)维度讨论的部分中,我将重点关注“数据意识”:
数据科学家可以轻松地了解哪些
企业数据资源?
一般而言,“意识”一词可以定义为“拥有知识,知觉的状态或条件;”。对于数据感知,我们可能会将此定义细化为“了解企业中存在的数据并了解其内容”。如上图所示,企业通常在组织和部门之间拥有许多数据存储库。数据可以存在于数据库,平面文件,电子表格以及其他各种硬件,操作系统和文件系统中。此外,数据孤岛造成企业的一部分人完全不知道另一部分数据的存在,更不用说数据的含义了。
跨企业的数据感知使数据科学参与者,尤其是数据科学家,能够从元数据的角度浏览和理解数据。这样的元数据可以包括例如表和各列的文本描述,关键摘要统计,数据质量度量等。数据意识对于提高生产力至关重要,同时也是对数据资产进行清点并使企业转向“单一版本的事实”起到至关重要的作用。
和以前一样,我们将讨论“数据意识”维度的5个成熟度等级中的每一个:
第1级:数据用户没有系统的方法来了解企业中可用的数据资产。
在理解整个企业中可能存在的数据资源时,1级企业通常处于黑暗中。数据可以存储在员工计算机上的电子表格或平面文件中,也可以存储在部门或特定于应用程序的数据库中。没有数据格局的地图可以帮助查找感兴趣的数据,而且,企业还没有意识到需要这样做。
第2级:数据分析师和数据科学家通过“关键人物”寻求其他数据源。
2级企业已“唤醒”了寻找正确数据的需求和好处。随着数据分析师和数据科学家采用更具分析意义的项目,数据搜索将在个人层面上进行 - 单独联系数据所有者或企业内部的其他人,以了解存在哪些数据。当然此时试图了解存在哪些数据,如何解释数据及其质量,会浪费大量时间。
第3级:对现有企业数据资源进行目录化,并评估其质量和效用,以解决业务问题。
3级企业认为有必要让数据科学参与者更容易找到数据,并对解决业务问题的质量更有信心。特殊的元数据目录开始出现,这使得更容易理解可用的数据,但是,这些目录是非标准的,不是集成的,并且分散在整个企业中。
第4级:Enterprise引入了元数据管理工具。
4级企业通过引入元数据管理工具构建了第3级的进展,数据科学家和其他人可以发现可用于解决关键业务问题的数据资源。由于企业刚刚开始认真对待元数据,企业内的不同部门或组织可能会使用不同的工具。虽然数据科学家有所改进,但各种工具的元数据模型并未集成,因此可能需要咨询多种工具来完成。
第5级:企业标准化元数据管理工具,并将其用于所有数据资产制度化。
5级企业完全接受了集成元数据的价值,并通过有效的工具促进了元数据的维护和组织。所有数据资产都通过完整的元数据描述进行质量和实用性策划,以实现整个企业的高效数据识别和发现。数据科学家的生产力和项目质量随着他们现在可以轻松找到可用的企业数据而增加。
在我们明天的文章中,我们将介绍数据科学成熟度模型的“数据访问”维度。
分享:
领取专属 10元无门槛券
私享最新 技术干货