配置整库实时迁移任务

最近更新时间:2024-08-06 18:01:21

我的收藏
数据集成支持单表同步、整库迁移两种数据同步方式,下文将介绍整库实时迁移的操作方法。




创建整库同步任务

1. 进入数据集成 > 实时同步页面,单击新建创建整库迁移任务。

2. 创建完毕后,单击任务列表中的任务名称,即可进行具体配置。


选择同步至 Doris 目标端的链路





配置 MySQL 源端读取多张表




参数
说明
数据源
选择需要同步的已配置好的 MySQL 数据源。
来源表
所有库表:监控数据源下所有库。任务运行期间新增库、表默认将同步至目标端。
指定表:此选项下需指定到具体表名称,设置后任务仅同步指定表。
指定库:此选项下需指定具体库名、以表名正则表达式,设置后,任务运行期间符合表名表达式的新增表默认将同步至目标端。示例如下:
多表使用"," 多表匹配
".*" 表示全表匹配
"(a|b)_.*" 表示a_或者b_开头的表
读取模式
全量 + 增量:数据同步分为全量和增量同步阶段,全量阶段完成后任务进入增量阶段。全量阶段将同步库内历史数据,增量阶段从任务启动后 binlog cdc 的位点开始同步。
增量:仅从任务启动后的 binlog cdc 位点开始同步数据。
过滤操作
支持插入、更新和删除三种操作,设置后将不同步指定操作类型的数据。
时区
设置日志时间所属时区,默认上海。

设置 Doris 目标写入方式




参数
说明
数据源
选择已经创建的 Doris 数据源。
库/表匹配策略
设置任务运行时 Doris 中数据库以及数据表对象的名称匹配规则:
与来源库/表同名:任务运行时系统将默认在目标数据源内匹配与来源库/表同名对象。
自定义:自定义规则支持设置来源与目标之间特殊关系,例如,统一将源端库名或表名加上统一固定前缀或者后缀在写入目标库或表任务运行时。此策略下,任务运行时系统将默认根据命名规则匹配目标对象。
高级设置 - 参数
设置 Doris 写入端的运行参数,此参数可根据业务需求配置。
Doris 端已支持参数详情请参见实时节点高级参数。

配置运行资源和策略

集成资源配置
为当前任务关联的集成资源组,同时设定运行时 JM、TM 规格以及任务运行并行度。其中,当前任务实际运行时实际占用 CU 数= JobManager 规格 + TaskManager 规格 × 并行度。
消息处理策略
参数
策略名
策略说明
DDL 消息处理
新建表
1. 自动建表:当来源端被监控的库中出现新建表时,Doris 端将自动创建同结构的表及字段:
若来源端表包含主键,任务默认创建 Unique key 模型表。
若来源端表包含主键,任务默认创建 Duplicate 模型表。
2. 忽略变更:目标端忽略来源端的产生的 DDL 变更消息,Doris 端及日志不做任何响应或消息提醒。
3. 日志告警:目标端仅接收 DDL 变更消息,并在日志内打印消息内容,不触发新建表操作。
4. 任务出错:目标端接收 DDL 变更消息并持续重启任务,重启过程中任务日志报错并出现数据写入异常。
新增列
1. 新增列:当来源端被监控的库中出现表增加字段时,Doris 端将自动同步新增同名字段。
2. 忽略变更:目标端忽略来源端的产生的 DDL 变更消息,Doris 端及日志不做任何响应或消息提醒。
3. 日志告警:目标端仅接收 DDL 变更消息,并在日志内打印消息内容。此策略并不触发新增列操作。
4. 任务出错:目标端接收 DDL 变更消息并持续重启任务,重启过程中任务日志报错并出现数据写入异常。
删除表
除新建表、新增字段外其他 DDL 变更消息不支持自动响应,目前提供忽略变更、日志告警、任务出错三种策略选择:
1. 忽略变更:目标端忽略来源端的产生的 DDL 变更消息,Doris 端及日志不做任何响应或消息提醒。
2. 日志告警:目标端仅接收 DDL 变更消息,并在日志内打印消息内容。此策略并不触发新建表操作。
3. 任务出错:目标端接收 DDL 变更消息并持续重启任务,重启过程中任务日志报错并出现数据写入异常。
重命名表
删除列
重命名列
修改列
删除列
写入异常
部分停止
数据无法写入目标表时丢弃数据,后续该异常表对应的数据自动丢弃不再同步。
异常重启
任意表数据写入异常后任务将异常退出并自动重启。重启后任务将持续尝试写入,直到所有表均可正常同步。重启期间可能导致部分表数据重复写入。
忽略异常
忽略表内无法写入的异常数据并标记为脏数据,任务继续读取并写入剩下的数据。
脏数据
COS 归档
写入异常策略配置为 忽略异常 时,将未写入至目标端的数据同步写入到指定的 COS 桶及文件内。
不归档
不归档保存未写入的异常的数据。

配置预览及提交

配置完成后可进行预览,确认后单击保存