当前趋势下,基于准实时数据的报表分析越来越旺盛。为保持竞争力,越来越多的公司在实施操作型BI策略支撑日常战术决策,以提高利润并快速应对市场变化。而过去流行的ETL方案难以实现这一点。为什么呢?
ETL工具的工作原理是通过查询数据库直接从表中提取所有或部分数据,这不仅会造成源系统的巨大开销,还会造成网络基础设施的开销。由于必须在一致性状态下提取和移动大量数据,因此需要在“批处理窗口”中进行,通常在“非高峰”或“夜间批处理窗口”中进行,以免影响其他业务操作的性能。这会导致最终用户或分析师的报告所基于的数据至少存在24小时延迟。假如,某超市希望监控其某个品牌的特定价格促销活动,这就需要获得准实时的销售数据, 而这是不可能的,如果没有这些数据,就不可能在及时采取应对措施,这将导致收入损失和成本上升。
赋能ETL工具实现实时BI所需的变化数据
HVR的一个功能是在各种源RDBMS平台(如Oracle、Microsoft SQL Server、IBM DB2、MySQL、Postgres SQL、Ingres等)上执行基于日志的变化数据捕获(CDC)。HVR通过分析源数据库上的事务日志捕获提交的事务,然后使用压缩算法进一步压缩数据,然后将其以近乎实时的方式流到一个或多个所需的目标。
这种技术可以与现有的ETL工具(如Informatica PowerCenter、IBM InfoSphere DataStage、Snaplogic等)相结合,取代ELT/ETL中的E(数据抽取)和L(数据装载)的功能,大幅地降低数据抽取的延迟时间,提高BI报告的时效性, 这对当前的BI方案改造工作是非常小的。
HVR与ETL方案结合的数据集成典型架构:
HVR可以用以下3中方式与ETL/ELT方案集成:
1.HVR直接将变化数据装载到数据库的暂存区供ETL工具抽取;
2. 也可通过开发代理插件的方式,按照业务逻辑将数据推送到ETL/ELT工具去。由于HVR是以事务为单位抽取,可以在保证事务一致性的时点协调调度ETL/ELT作业执行。
3. HVR也可以将源端的变化数据写入到目标的CSV/XML等格式的文件里供ETL/ELT工具抽取。
ETL+变化数据捕获技术实现实时BI的价值
这种端到端数据集成解决方案允许公司将生产端的增改删操作从多个来源连续地滴入到一个集中的数据仓库/数据湖中,客户可以使用任意ELT/ETL工具密集定期使用和转换“微批”中的数据,由此“夜间批处理窗口”操作的概念将成为历史。
HVR除了实现实时数据复制之外, 还能够实现底层数据转换能力,例如将所有源事务的增改删操作转换为下游的insert(以拉链表的形式保留数据的所有历史变化过程)。还可以将其他元数据附加到这些记录上,以标识原始操作类型、源提交时间戳、事务来自的原始系统等。
领取专属 10元无门槛券
私享最新 技术干货