DataOps 不只是一种开发方法。它利用民主化的访问和巨大的潜力,彻底改变了组织使用数据的方式。
最近,一项针对企业面临大数据挑战的调查显示,38% 的企业“缺乏”有说服力的商业案例来使用他们的数据,34% 的企业不具备处理大数据技术的成熟流程,24% 的企业没有能力让他们的用户使用大数据。
假如调查的结果是真实的,那么就意味着,很大一部分企业面对自己拥有的数据,以及从客户持续收集的数据,不知道自己能做什么,必须做什么。而这,也会让企业在与竞争对手进行比较时处于非常不利的地位。在数据驱动的竞争环境中,如果企业忽视数据,不能充分发挥数据的潜力,那么对组织而言只能带来灾难性的结果。
目前来看,很多企业都在收集大量的数据,其中一部分是遗留数据管道:随着数据在数据管道中从源移动到目标,每个阶段对数据的含义以及如何使用它都有自己的想法。这种不连贯的数据视图使数据管道变得脆弱且难以改变,从而使组织在面对变化时反应迟缓。
解决这个难题的方法就是 DataOps。
DataOps 是数据操作化(data operationalization)的缩写,是一种协作性的数据管理方法,它强调组织内部数据管道的沟通、集成和自动化。
与数据存储管理不同,DataOps 主要关注点的不是数据“存储”。它更关心的是“交付”,也就是让数据对所有的利益相关者来说都是现成的、可访问的和可用的。它的目标是为数据、数据模型和相关工件创建可预测的交付和变更管理,从而在整个组织和消费者之间更快地提供价值。
DataOps 通过采用技术来实现这一目标,将数据的设计、部署、管理和交付自动化,从而提高其使用和提供的价值。这样可以让所有使用数据的利益相关者都能很容易地访问数据,而且还可以加快数据分析的周期。
这样一来,DataOps 可以大大提高企业对市场变化的反应时间,让他们能够更快地应对挑战。
大数据最重要的承诺是快速、可靠的数据驱动的可操作业务洞察力,由于面临着组织、技术和人力(使用数据的人员)等方面众多的挑战,这些承诺仍未实现。DataOps 通过学习和实践敏捷、DevOps 和精益生产方法论来帮助克服这些挑战。
通过克服这些挑战,DataOps 使得 DataOps 团队能够为工程师、数据科学家、机器学习工程师甚是客户等每一个需要的人提供数据,并且比以前更快。简单来说,DataOps 可以带来以下好处:
从技术上讲,DataOps 实现了组织最具突破性的里程碑之一——在不影响数据分析的速度和质量的情况下,使其数据程序具有高度的可扩展性。由于它借鉴了 DevOps 的经验和实践,所以 DataOps 在很多关键方面与 DevOps 重叠。从 DataOps 的三个基本原则可以看到:
DataOps 从不同来源动态识别、整理、集成并提供数据。随着团队为 DataOps 添加了新的数据源,新的数据将自动集成到数据管道中,并通过人工智能/机器学习工具提供给各个利益相关者。
得益于自动化,从数据发现到数据整理、转换和洞察力的定制都已经完全简化。事实上,数据交付可以直接通过实时流交付给预测算法,从而为用户,尤其是消费者提供即时的洞察力。这种优化的数据集成流程确保了数据发现和数据使用之间不会浪费时间。
组织数据的价值只在于从中产生的洞察力。团队接触到的越多,从中提取的洞察力也就越多。但是,数据的可访问性也带来了数据治理的挑战。DataOps 使整个组织具有可操作性的数据治理,同时使数据访问民主化,并且提高了安全性和隐私性。
为了满足内部数据质量和数据屏蔽规则,有目的地以协作的方式向内部和外部的消费者交付数据。为了达到这个目的,我们经常使用一个“智能”的数据平台。在保证数据质量、隐私和安全的情况下,各利益相关者都可以利用它,并从中获得准确的洞察力,而不用担心数据治理的影响。
数字化企业依靠大量的数据驱动的应用程序,在对组织的未来有深远影响的功能上做出实时决策。诸如欺诈检测、人工智能聊天机器人、销售、供应链管理等关键任务功能需要随时更新数据以供决策使用。持续部署可以让所有用户无缝地访问新数据。
尽管 DataOps 借鉴了 DevOps 的知识和操作流程,但两者之间有着很大的区别:
在数据分析的早期,ETL(萃取 (extract) 转置 (transform) 加载 (load))工具作为管理大量(相对而言)传入数据的强大工具出现了。但是,随着传入的数据种类、真实性和数量的爆炸式增长,对可扩展性和高速数据分析的需求越来越迫切。数据连接器固有的缺陷也被证明是一个限制性因素。
云计算的出现解决了数据摄取、管理和分析等难题。将 ETL 工具和云资源结合在一起,可以加速分析。但是,仍然面临着一个日益严峻的挑战——数据的可访问性。仅仅使用数据来产生洞察力是不够的,每个人都应该能够获得这些洞察力。
于是,DataOps 应运而生。DataOps 实现了数据访问的民主化。根据组织的数据治理政策,所有的利益相关者都能够获得安全、高质量的数据,而不仅仅是少数人能够访问数据。
作者介绍:
Mir Ali,公认的技术领袖、战略专家,曾在多个组织中担任高级管理职位,包括惠誉(FitchRatings)、Here 和美联航。
原文链接:
https://dzone.com/articles/a-guide-to-dataops-the-new-age-of-data-management
领取专属 10元无门槛券
私享最新 技术干货