写在前面
业界流行 modern data stack 的说法,本质上就是将传统的一些工具用 SaaS 化的思路在云上重新再做一遍,从来显著提升客户的使用难度。modern data stack 几大核心是:cloud 、open-source 、SaaS business models。
data Integration 是个传统市场,Gartner 对这个市场很早就有分析,但是收集和整理的还是偏传统的公司,文中有一些简单关于 Gartner 对这个市场的理解和整理;
此次内容会分为上下两篇,本文会重点讨论下 Modern data stack 本身,还有 Gartner 对 data integration 的理解。后面还有一篇讨论具体的在 modern data stack 下面 data integration 都有些典型公司。
这块还是有非常多的创新的公司,典型的 FiveTran ,现在估值都超过50亿美金了。正是因为这些公司都比较早期,所以也还是在不停的冒出新的公司,所以我这个尝试梳理的,可能会有部分涉及不够全面。
除了上面几点,modern data stack 核心变化下图有总结:
上图是一个典型的数据接入,存储和消费的流程,和传统的区别不大,核心是都被新云化服务取代。
下面这个图会更详细一些,但是缺少 reversel etl 部分,可以放到一起参考:
老牌厂商很多,Gartner 2021 数据集成魔力象限如下:
Forrester 2020 Q2 Data Fabric 梳理的厂商
上面的 Gartner 和 Forrester 主要都是一些比较老牌的厂商;不是特别符合现在所说的 modern data stack 的逻辑。