元数据采集

最近更新时间:2024-08-21 17:00:01

我的收藏
WeData 提供给用户自定义元数据采集任务功能,管理员对数据源进行元数据采集后才能进行可视化管理,采集粒度支持到库,每个数据库仅可创建一个采集任务,采集任务将根据配置周期按计划运行和更新元数据信息,同时支持手动运行、任务编辑等管理操作。

支持的数据源类型

目前支持元数据采集的数据源类型如下:
信息
类型
大数据
Hive
HBase
DLC
ClickHouse
TCHouse-C
Iceberg
Greenplum
Doris
StarRocks
TCHouse-D
关系型数据库
MySQL
腾讯云MySQL
PostgreSQL
Oracle
SQL Server
TCHouse-P
TDSQL-PostgreSQL

采集任务配置

新建采集任务

1. 进入数据发现 > 元数据采集页面,单击新建采集任务



2. 进入新建采集任务界面,选择数据源类型为 Hive。



3. 进入设置采集对象页面,填写如下参数信息,完成后,单击下一步



说明:
每个采集任务最多支持绑定到 WeData 项目下的单个数据源,数据源不可重复绑定采集任务。
信息
详情
任务名称
采集任务的名称,不可为空,命名支持以字母、中文开头,可包含字母、中文、数字、减号(-)和下划线(_)
描述
选填,对采集任务的描述信息
归属项目
为数据源指定所属项目,将数据源管理权限与项目绑定
数据源
采集任务对应的数据源名称,该数据源可在项目管理模块内查看
数据库
一个数据库只能对应一个采集任务,已经被采集的库不可选择;
数据表
需采集的数据表
指定表负责人
数据表管理权限的负责人
任务责任人
责任人拥有对该任务的查看、停止、启动、查看日志、查看详情、重跑、修改任务信息
配置采集计划
配置元数据采集任务运行的周期、具体的日期、以及时间等信息。
采集周期:当前版本支持小时、日、周、月、一次性采集任务。
采集日期:周、月任务可指定具体的某个或多个采集日期,配置后任务将在该天按计划运行。例如,设定采集日期为1号、5号、31号,则该任务会在每个月的1号、5号、31号执行元数据采集任务。
执行时间:任务具体的执行时刻
立即运行:设置后,采集任务将在任务配置完成后立即触发一次采集。

采集任务列表

采集任务列表提供了当前用户下所有采集任务信息,包括任务名称、采集对象、技术类型、所属项目、创建人等信息,提供了包括采集任务详情查看、日志、编辑、删除和转交的操作。



信息
详情
任务名称
采集任务的名称
类型
数据源类型
数据源
采集任务的采集数据源
采集库
采集任务的采集数据库
任务责任人
当前的任务负责人的账号名称
创建人
创建采集任务的账号名称
创建时间
创建采集任务的时间
采集计划
采集任务运行周期
运行状态
采集任务的运行状态
最近执行时间
采集任务最近一次运行的年月日及时刻信息
操作
提供该任务的详情查看、编辑、删除和查看任务详情功能

运行采集任务

手动运行一次性/周期任务,非执行中状态的任务支持手动运行。

编辑采集任务

非执行状态下可编辑项目、数据源、更新方式、删除方式、以及采集计划;支持同类型数据源变更,采集任务根据对最新绑定的采集对象采集。

删除采集任务

采集任务删除后,对该数据源的采集将停止。当前版本已采集至 WeData 的表不删除。

转交采集任务

在采集任务列表中,可以把采集任务转交给另一位任务责任人,原责任人不再拥有对该任务的管理权限。