最近在对接数据流转的一些问题,发现越是了解,越是担心,因为有不少潜在的问题,所以我就在想规划和统一所谓的数据源集市,能够实现数据流转方向的一个基线标准。
目前发现的问题: 1.数据出口通道繁杂,管理混乱 2.MySQL流转服务单点难以扩展 3.任务状态不清晰,缺乏统一管理 4.数据交付质量难以保证,反馈不及时 5.近实时数据同步需求难以满足
对此提出的改进方案有: 1.数据出口通道统一交付 2.构建数据源集市服务组,水平扩展压力 3.任务配置平台化,任务日志指标可视化 4.数据交付提供交付标准和数据质量日志 5.提供近实时方案作为备选,预知问题
整个数据源集市在数据流转体系中的角色和位置如下:
当日这里是刻意把数据源集市的一些组件和服务列举出来,能够尽可能在这个层面实现数据质量的标准和度量,简而言之,数据如果不合理,我应该及时预警,不能将错就错的提供给中下游,数据源集市需要做好这一层的保障。
在数据流转方向上,我把数据表分为状态表,流水表和配置表,他们在流转体系中的定位和标准也大有不同。
当然这仅仅是数据流转体系内的冰山一角,而如果要把数据的认知和数据源要整合起来,形成统一的认知,这个工作量是极为巨大的。
我感觉对于数据的认知,一旦抛出这个话题,就好像打开了一扇窗,经过了更大范围的讨论,我感觉我本来想要的是一口井,没想到现在需要引一条河流,而且还要再河流上再搭一座桥,真让人头大。
扫码关注腾讯云开发者
领取腾讯云代金券
Copyright © 2013 - 2025 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有
深圳市腾讯计算机系统有限公司 ICP备案/许可证号:粤B2-20090059 深公网安备号 44030502008569
腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287
Copyright © 2013 - 2025 Tencent Cloud.
All Rights Reserved. 腾讯云 版权所有