目前离线及实时数据同步任务支持 MySQL 分库分表同步至目标数据源中。本实践介绍 MySQL 分库分表离线同步至 Hive 数据源。
适用场景
业务层对基础同结构的业务数据使用分库分表的方式存储在不同的 MySQL 数据库实例或同一实例的不同表内。应用层需要对分布在不同数据库内表同时同步到数仓 ODS 层中统一存储。
操作步骤
1. 创建离线同步任务,并从离线同步列表中点击对应任务名称进入画布配置界面。
2. 拖拽 MySQL 读取节点,默认 MySQL 读取节点支持一个数据源,单个数据源(库)内可选择多张 MySQL 表。若存在分库情况,可单击添加分库分表,即可创建多个数据源并添加对应的表对象。
说明:
分库分表情况下选择的多个表对象需保证 Schema 信息一致(包括字段名称、字段类型)。数据字段模块内系统默认展示第一个数据源的第一张表的元数据字段信息,若多表间字段不一致可能会导致运行失败。
3. 拖拽 Hive 写入节点,并配置读写字段映射。
4. 保存任务信息,进行测试运行或提交至运维中心。