本文分别介绍了传统数据仓库和云数据仓库,简洁明了地指出两者的区别和利弊,以及对数据仓库未来发展方向做出预测。
数据仓库是从操作系统和外部数据源派生的集成历史数据的中央存储库。作为商业智能的核心部分,数据仓库使企业能够进行广泛的商业决策,包括产品定价,业务扩展和对新生产的投资模式。
除了协助分析和报告之外,数据仓库还为企业提供以下用途:
保持数据分析独立于生产系统。由于企业每天使用的运营数据库不具备运行复杂的分析查询能力。这样的数据仓库可以使企业在运行此类查询的时候不影响生产系统。
为不同的数据源提供统一性。
针对分析查询的最优化设计。
云计算的出现在过去五年中显著影响了数据仓库架构,导致数据仓库服务(DWaaS)大受欢迎。 在本文的其余部分中,你将了解到传统数据仓库和基于云的数据仓库之间的区别。
传统数据仓库
传统的数据仓库需要本地IT资源,例如服务器和软件来传递数据仓库功能。企业运行自己的本地数据仓库时,还必须有效地管理基础架构。
传统数据仓库分为以下三层结构:
底层:包含数据仓库服务器,将来自多个不同源的数据集成到一个存储库中。
中间层:包含OLAP服务器,这些服务器使数据更加支持其上的一些查询。
顶层:存储用于查询、报告和分析的前端BI工具。
为了将数据集成在统一存储库中,ETL(提取,转换和加载)工具是一个典型的从各种来源获取数据的工具,将其混合并应用于商务规则以将其转换为查询的正确结构,并最终把数据加载进入数据仓库。
传统数据仓库设计的两种对比方式反映了两位计算机科学先驱Bill Inmon和Ralph Kimball的不同观点:
Bill Inmon的自上而下的方法认为,数据仓库是所有企业数据的集中存储库。维度数据集市由数据仓库创建而来,服务于特定业务线(例如财务)。
Ralph Kimball的自下而上的方法认为,数据仓库是由不同数据集市组合而成的。
云数据仓库
基于云计算的数据仓库方法运用公开的云提供商提供的数据仓库服务,例如Amazon Redshift或Google BigQuery。
通过提供互联网接入的数据仓库功能,公共云提供商可帮助公司避开构建传统本地数据仓库所需的初始设置成本。此外,云中的这些企业数据仓库是完全托管的,因此服务提供商管理并承担提供所需数据仓库功能的责任,例如系统补丁和更新。
云架构与传统的数据仓库方法有所不同。例如,在Redshift中,该服务通过要求您提供一个基于云的计算节点集群来运行,其中一些计算节点编制检索,而另一些执行这些检索。Google提供无服务器服务,这意味着Google会动态地管理机器资源的分配,并将这些决策从用户中抽离出来。
比较
云数据仓库的优化级别难以与本地部署的有限功率相匹配。列式存储(表个中的值按列而不是按行存储)可以根据需要运行的查询类型来满足更快的聚合查询。大规模并行处理也是一个重要的特性,通过使用多台机器协调大型数据集的查询处理,可显著提高速度。
就云数据仓库的扩展性而言,和从云提供商那里获取更多资源一样简单。然而,本地部署的可扩展性非常耗时且成本很高,因此需要购买更多硬件。
云计算中的安全性是一个棘手的问题,因为互联网上的数据传输太字节(terabytes)会带来严重的安全问题考虑,而且敏感数据也可能引起一些合规性问题。本地部署就避免了这样的担忧,因为企业控制着一切。
总结
云数据仓库的准入门槛低,有助于中小企业更容易访问数据仓库。此外,即使是最大型的企业也可以从较低的成本中受益,例如基础架构的持续管理和轻松的可扩展性。
云数据仓库不是没有问题,比如潜在的安全问题,然而,益处大于弊端。传统的本地部署并没有完全被淘汰,但随着数据量和速度不断增长,而且云服务能更专业化地处理这些问题。随着越来越多的工作负载迁移到云中,越来越多的公司作为服务提供商进入市场,数据仓库的未来似乎在云中。
原文标题:The Difference Between a Traditional Data Warehouse and a Cloud Data Warehouse
原文链接:http://www.dataversity.net/difference-traditional-data-warehouse-cloud-data-warehouse/
领取专属 10元无门槛券
私享最新 技术干货