前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Modern Data Stack 下 Data Integration 生态(上)

Modern Data Stack 下 Data Integration 生态(上)

作者头像
大数据和云计算技术
发布2021-12-28 14:02:17
9660
发布2021-12-28 14:02:17
举报
文章被收录于专栏:大数据和云计算技术

写在前面

业界流行 modern data stack 的说法,本质上就是将传统的一些工具用 SaaS 化的思路在云上重新再做一遍,从来显著提升客户的使用难度。modern data stack 几大核心是:cloud 、open-source 、SaaS business models。

data Integration 是个传统市场,Gartner 对这个市场很早就有分析,但是收集和整理的还是偏传统的公司,文中有一些简单关于 Gartner 对这个市场的理解和整理;

此次内容会分为上下两篇,本文会重点讨论下 Modern data stack 本身,还有 Gartner 对 data integration 的理解。后面还有一篇讨论具体的在 modern data stack 下面 data integration 都有些典型公司。

这块还是有非常多的创新的公司,典型的 FiveTran ,现在估值都超过50亿美金了。正是因为这些公司都比较早期,所以也还是在不停的冒出新的公司,所以我这个尝试梳理的,可能会有部分涉及不够全面。

Modern data stack 相对传统数据处理几点关键变化

  • 云化:The move from on-prem to the cloud
  • ELT not ETL:数仓的计算能力会比较强,处理一般下移到数仓
  • 自助式分析:The rise of self-service analytics to democratize data exploration

除了上面几点,modern data stack 核心变化下图有总结:

Modern data stack 示意

上图是一个典型的数据接入,存储和消费的流程,和传统的区别不大,核心是都被新云化服务取代。

下面这个图会更详细一些,但是缺少 reversel etl 部分,可以放到一起参考:

Gartner & Forrester 对 Data Integration 的定义

这个市场很复杂,Gartner 从场景角度做了一个比较好的定义,但是这个定义偏 marketing:

  • Data Engineering:创建、管理和操作数据 pipeline,给数据仓库,数据湖,或者给 end-user自服务的数据集成能力。
  • Cloud Migration:数据迁移和整合能力到云的基础设施,或者直接在云上提供服务,支持混合云,多云或者通过云来进行集成的场景。
  • Operational Data Integration: 操作数据集成(包括操作数据,事务数据等),支持关键业务。企业间数据分享。跨应用数据一致性,包括企业内部或者企业间。
  • Data Fabric: 数据集成的同时支持作为数据服务(可以通过web接口访问)。包括支持各种数据生产和消费者。

老牌厂商很多,Gartner 2021 数据集成魔力象限如下:

Forrester 2020 Q2 Data Fabric 梳理的厂商

上面的 Gartner 和 Forrester 主要都是一些比较老牌的厂商;不是特别符合现在所说的 modern data stack 的逻辑。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-12-18,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 大数据和云计算技术 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • Modern data stack 相对传统数据处理几点关键变化
  • Modern data stack 示意
    • Gartner & Forrester 对 Data Integration 的定义
      • 这个市场很复杂,Gartner 从场景角度做了一个比较好的定义,但是这个定义偏 marketing:
      相关产品与服务
      数据集成
      数据集成(DataInLong)源于腾讯开源并孵化成功的 ASF 项目 Apache InLong(应龙),依托 InLong 百万亿级别的数据接入和处理能力支持数据采集、汇聚、存储、分拣数据处理全流程,在跨云跨网环境下提供可靠、安全、敏捷的全场景异构数据源集成能力。
      领券
      问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档