Gartnar在这篇文章中有强调:在对LDW解决方案路径进行包装时,下述三个能力通常是并行执行的路径,整个过程通过不断迭代达到系统的能力扩展。这三个能力分别是:
DW(数据仓库流):此流归属于平台能力。构建高性能数据仓库,不仅承载数据模型、自动化测试和报表应用,更要提供的并发混合负载的分析支撑。
首先一个关键内容是它定义了“架构”概念。在早期的IT支撑系统中,软件设计并非存在架构概念,软件功能大多采用一个个孤立的“系统”所呈现,也并非存在什么“模块化”设计理念,各系统能力孤立、功能重复、代码重叠,这限制了扩展性和升级维护,所以逐渐的才有“软件架构”一词。具体到DW能力范畴内就定义了数据如何采集、如何清洗转换、如何加工计算、如何分析查询等诸多能力。
再有就是DW的自动化测试能力,DW应支持以内建工作区的方式快速测试某查询语句的执行效果,体现其灵活便捷性。DW中最为关键的核心能力就是开发并构建数据模型的能力,由于早期存储系统大多采用关系型数据库支撑,库表间的关系多为E-R图所联系,提供了表示实体类型、属性和联系的方法,用来描述现实世界的概念模型。可以说,结合Ralph Kimball和Bill Inmon的数据仓库设计和架构思想,基于ER模型的DW多为建模是精髓。
与大数据平台类似,DW同样秉承构建平台的理念。去“IOE”时代之前,数据仓库较好的支撑企业分析型业务(报表、KPI、即席查询、复杂分析等),随着时间推移客户在扩容、系统在庞大,逐渐构建起了一个又一个DW平台(如Oracle、DB2、Teradata等),这些DW系统已经发展健壮并呈现平台之势。最后就是数据开发和报表支撑,这个能力无需多讲,别说是DW,就算是mysql/postgreSQL这样的数据库也应具备该能力。
AGILE(敏捷开发和自服务流):此流归属于使用能力。灵敏的架构促进自服务工作协同,面向最终用户提供灵敏开发和自服务能力。
作为该项能力,首当其冲的就是建立一个敏捷开发架构,就像互联网企业“小步快跑、不断迭代”的程序开发思路,AGILE需要通过这种能力,让更多的LDW使用者受益于平台所提供的敏捷架构,帮助其打造微服务架构,助力业务蓬勃发展。
在自服务方面,涉及作业任务、数据探索集成、敏捷开发等多项功能,帮助开发者和用户构建一个良好的LDW生态环境。
LAKE(数据湖流):此流归属于平台能力。通过构建超大规模非结构化处理系统,支撑企业级ETL和数据沙箱;
LAKE的能力是近几年大数据的焦点内容,如Data Lake就是LAKE的一种延伸,而Analytical Lake则是另一种延伸。需要强调的是Data Lake并非表示一种技术,而代表的是一种数据存储或加工形态。今天的大数据平台想必少不了Data Lake的技术支撑,如Hadoop生态系统。
LAKE中还需支持数据获取域的ETL能力,但今天的ETL绝不仅局限于数据预处理(清洗、转换和加载)等能力,而更多的则是面向大数据平台,支撑企业级的数据交换。企业大数据环境的所有系统交互、所有数据流向都需要ETL交换平台的辅助,目的就是要做到基础数据的下沉(面向于DW),减轻仓库压力。而且为了支撑不同时效性的业务响应,ETL当然也有离线与实时之分,这样的能力才可供大数据能力构建。
在数据安全方面,LAKE承载数据量大、数据类型多、数据存储周期长、甚至数据管控也是重大问题,所以数据安全的保障就要提升到新的高度,运用各种技术(加/解密、脱敏、访问列表、权限控制)等手段保障LDW的数据安全。在大数据领域,经常听到有能力开放平台的概念,这里面涉及资源开放、服务开放和数据开放。把这种能力提供给平台开发者,数据沙箱就是个不错的选择。最后还有一种能力就是数据科学的探索,更偏向于AI领域的技术支撑,这里不做更多阐述。
1、包括三种能力(DW、AGILE和LAKE),DW和LAKE所呈现的是一种平台能力,而AGILE仅是使用能力;
2、平台能力的解读非常重要,它的诠释似乎也印证了为什么今天的大数据平台都采用了混搭架构。
基于LDW体系架构的关键能力,四种颜色就不依次介绍了,挑一些重点理解加以阐述。
1、整个体系架构自底向上,全部面向于企业战略和业务处理,由此可见再多的技术、再炫的新词也不过是为了“一时炒作”,支撑业务才是硬道理;而且元数据管理、数据治理和数据安全等能力将长期伴随着平台的发展。
2、“黄色图示”更多体现于数据分析、业务探索、可视化展现等能力,平台虽然整合了数据、也汇集了”流量“,也不论今天的平台是本地还是云,终将以支撑分析并服务于业务而持续发展。
3、大数据时代,数据采集和获取是关键。一个大数据生态里的小小的前置步骤,却代表了平台的规模容量、牵动着各业务部门的数据利益、也记录了大数据时代的发展。
领取专属 10元无门槛券
私享最新 技术干货