作者介绍
@Super超
空间计算与城市大数据
塑造未来的科幻迷
持续更新大数据与数据科学系列
01 数据治理的背景
从1969年开始,互联网已经走过了PC、移动,向产业互联网时代迈进,人类活动被全面数字化。
数字化技术革命给商业带来前所未有的机会,大数据让我们更懂用户和这个世界,这一切看上去很美好,但是危机已经在悄然中来临。
随着业务的发展,数据规模也在以滚雪球的速度膨胀,带来了一系列棘手的问题:
1. 高昂的成本支出
据测算,存储1PB数据的硬件投入总成本在80万左右,对于那些业务遍布全国的互联网公司来说数据量达到60-80PB是很常见的事,这就意味着一年的存储成本要花5000-8000万左右。而且数据中心的机架容量是有限的,建设新的数据中心不是易事。这一切都在制约着企业的发展,吞噬着企业的利润。
2. 数据质量风险增加
海量的数据带来了复杂的链路依赖,数据质量风险濒临失控。随着数据量的增长,运维压力也越来越大,故障告警次数显著增多。
3. 组织协作出现问题
庞大的数据规模,纷乱的命名和存储,以及理不清的业务逻辑,让团队协同越来越难,推进大型项目需要参与的团队人数越来越多。体现在企业集中力量办大事的能力逐渐丧失。
4. 数据孤岛开始出现
想要获得一项指标,找不同的人可以得到不同的查询结果,这其中出现的问题主要是口径对焦。不同的人对于业务的理解也并不相同,缺少统一的标准,这是很多公司发展过程中都存在的问题。数据不好找,找到不敢用、不能用,迫使业务只能选择重复建设资产,而重复建设资产更进一步加剧了数据不好找不好用的问题,形成了恶性循环,数据孤岛壁垒越垒越高。
这一系列的问题如果任由其继续发展,数据对于业务只会变成鸡肋,甚至会成为企业的负债。
02 数据治理的目标
数据治理是一项复杂的工程,想要做好数据治理首先要做的事是定好目标。关于数据治理的目标,可以简单理解——数据治理的目标就是要让数据成为资产而不是负债。
数据资产的概念在上一篇文章中讲过,是能给企业带来经济效益的资源。想要让数据成为资产,不外乎是”开源”、”节流”,前者指的是释放数据价值,为业务带来增长,后者指的是节约成本。这里的节约成本不单单是涉及到数据存储成本,还包括了管理成本、数据风险成本等隐形的部分,让数据变成高质量的数据。
03 数据治理的核心
几乎所有关于数据治理的定义都在谈论建立”组织”、明确”权责”、制定”方法/制度/标准”。事实上,数据之所以需要治理,问题的根源在于”无序”。而数据治理的核心就是制定数据世界的游戏规则,让数据世界重归有序。
1. 组织设计
明确数据治理的权责是开展数据治理工作的首要步骤。因为一切问题都可以归根于人的问题。资源的调动,制度的设计、执行、监督,最终都要落实在人上。很多时候问题难以推进,原因就在于人的重视不够,级别不够,相关方不配合。
某金融科技独角兽公司在从事数据治理的过程中识别到主要问题表现在数据架构腐坏,而数据架构的腐坏的根源在于缺少推进全局数据架构持续演进的组织。这个组织是数据治理顶层设计的灵魂,为数据治理的最终成果负责。为此,该公司成立了数据超域架构师小组。
橙色集团十余年来的数据架构经验表面,一个稳定的持续迭代的中间层是保持数据架构有序的关键。跟随业务奔跑过程中总需要有人停下来修缮屋顶。为此,该集团将数据资产研发和数据应用研发角色剥离开来,以沉淀资产、中间层建设、资产架构优化为主要职责,设立数据资产工程师岗位和独立晋升通道。
2. 规则制定
规则规范的指定是开始具体工作的前提,目的在于统一标准,打破由于标准不一致带来的数据孤岛问题。
某金融科技独角兽制定了三项核心规范:”数据资产必须先定义后研发”、”数据资产不能重复建设”、”应用资产依赖公共服务资产建设”。这三项核心规范具备纲领性质,易于记忆和传播。
在核心规范指导下,更贴近于执行层面的,有一系列更详细的指导规范。例如如何保障指标的一致性、如何确保标签资产实现互通互享、如何避免数据资产重复建设等。
3. 机制设计
机制设计的目的是解决组织协作的效率问题,可以分成研发协作机制和数据互通机制两方面来讲。
研发协作机制:要解决的是”找谁做(资源问题),如何做(架构问题),何时做(排期问题),如何用(沟通问题)”,建议采用独立资源统一架构统一排期模式,输出产物为数据中台全景图和操作手册。
数据互通机制:遵循”宽进严出、全链路可追踪可审计”的策略原则,兼顾效率提升和安全风控两方面。
今天主要跟大家分享了大数据治理的背景、目标及核心,下节我们来聊聊到底如何做大数据治理。
数据人交流和学习的社区,关注我们,掌握专业数据知识、结识更多的数据小伙伴。
带你探索数据的神奇奥秘
领取专属 10元无门槛券
私享最新 技术干货