数据开发治理平台 WeData 简介

概述

数据开发治理平台 WeData（以下简称 WeData）是位于云端的一站式数据协作开发平台，提供了即席分析、工作流协同编排、数据资产管理和数据治理等全链路数据加工能力，帮助数据工程师高效构建企业级数据中台架构，助力企业用数据驱动业务增长。
您可以调用 API 对 WeData 进行操作，例如创建工作流、创建任务。
WeData 支持的所有接口信息，请参见 API 概览。

术语表

WeData API 接口的常见术语请参见下表：

术语	描述
租户（主账号）	腾讯云主账号，管理 WeData 下所有资产信息和资源配置的最高级别账号。
工作空间（项目）	WeData 中所有资源配置和管理的基础单元。一个腾讯云主账号下可拥有多个工作空间，用户可以业务线或企业组织架构为维度快速构建工作空间。
存算引擎	WeData 绑定的计算和存储引擎，支持 EMR（弹性 MapReduce）、DLC（数据湖计算）、TCHouse-P、TCHouse-X 等引擎类型，为数据开发和处理提供底层算力支撑。
数据源	数据集成和开发过程中使用的读取/写入目标对象，可以是数据库或数据仓库实例（如 EMR 引擎实例等）。在数据源管理页面配置好后，可在同步任务中通过选择数据源名称来控制同步的读写目标。
系统数据源（系统源）	绑定存算引擎后由系统自动生成的数据源，无需手动创建。
自定义数据源	用户在项目管理的数据源管理中手动创建和配置的数据源。
执行资源组	用于执行任务的计算资源集合。根据用途分为调度资源组、集成资源组、数据服务资源组、流计算资源组、Serverless 资源组等类型。
调度资源组	用于执行数据开发任务调度的计算资源组，负责将任务下发到执行机并运行。
集成资源组	用于运行数据集成同步任务的计算资源组，包含离线包和实时包两种类型，可根据需运行的任务类型按需购买。
角色	WeData 提供的权限管理机制。预设角色包括超级管理员、项目管理员、资产管理员、数据工程师、运维工程师、普通成员等，同时支持自定义角色和权限配置。
DataOps	一种数据运营方法论，强调通过敏捷迭代、自动化流程和工具提升数据可靠性，加快数据生产和分析链路效率。WeData 遵循 DataOps 理念，支持版本管理、增量发布和灰度发布等能力。
CI/CD（持续集成与交付）	通过 WeData bundle 功能实现的自动化流水线，支持将 WeData 资源（工作流、任务等）描述为源文件，结合外部 CI/CD 系统（如 GitLab）实现自动化运行、测试和部署。
Bundle	WeData CI/CD 的核心载体，将项目内资源配置信息定义为 yml 文件，可通过命令实现资源运行、测试、部署等操作。
离线同步	通过定期运行方式批量读取来源库表中数据并同步写入至目标端的数据同步能力，适用于对实时性要求不高的场景。
实时同步	支持流式数据传输的实时数据同步能力，包括单表同步、整库同步，适用于需要数据高度实时性的应用场景。
字段映射	源端与目标端字段之间的对应关系配置，可通过同名映射或手动配置方式建立。
脏数据	在同步过程中由于字段类型不匹配或写入目标数据源发生异常等情况导致写入失败的数据。可通过配置脏数据阈值或脏数据归档方式来控制处理策略。
并发数	数据同步任务中最大并行读取或并行写入数据数。并发设置越高对应资源消耗越多。
限速	数据集成同步任务允许达到的最大传输速度限制。
网络连通性	数据源网络（读端、写端）与集成资源组之间的网络互通状态。使用数据集成同步任务前，需确保三者之间网络互通。
转换节点	数据同步流程中对数据进行转换处理的中间节点，支持数据级转换（如数据过滤、Join 等）和字段级转换（如格式转换、时间格式转换等）。
筛选条件	离线同步任务中的 Where 语句，用于过滤需要同步的数据范围，是实现增量同步的关键配置。
数据开发	WeData 中面向各类引擎（EMR、DLC等），提供脚本开发、可视化开发、任务编排、任务发布及任务运维能力的核心模块，帮助组织和企业高效构建数据仓库。
编排空间	提供数据工作流编排与配置功能的空间，支持用户根据工作流组织开发不同类型的任务代码，并提交到调度系统进行周期性运行。
工作流	多种类型任务对象的集合，以 DAG（有向无环图）形式组织任务间的依赖关系。分为周期工作流和手动工作流两种类型。
计算任务 / 任务节点	工作流中的数据处理节点，支持多种类型，包括 Hive SQL、Spark SQL、DLC SQL、PySpark、Python、Shell、JDBC SQL、离线同步、数据质量等。
调度周期	确定任务何时执行的配置，支持分钟、小时、天、周、月、年和一次性等周期类型，以及 crontab 表达式。
调度依赖	任务间的上下游依赖关系。上游任务成功后，下游任务才会执行。
自依赖	任务在调度运行时依赖其前一个周期的执行状态，用于保证同一任务在不同周期间的有序执行。
发布中心	标准模式下的对象发布管理功能。对象提交后进入待发布列表，创建发布包并审批通过后才进入生产环境执行。
实例	计算任务根据调度策略生成的具体执行快照。每次调度运行都会生成一个实例，记录了该次运行的状态、日志和结果。
周期实例	由周期调度策略运行生成的计算任务实例。
补录实例	通过数据补录功能生成的任务实例，用于补充缺失或失败的数据处理任务周期。
数据补录	针对调度运行失败实例或历史缺失实例进行补充执行的功能，支持按时间范围批量生成补录实例。
任务血缘	展示当前任务在其所属工作流中与其他任务的上下游依赖关系，支持 DAG 图模式和列表模式。
实例血缘	展示当前实例与上下游实例之间的依赖关系和运行状态，方便定位阻塞原因和进行问题诊断。
数据治理	对企业数据进行全面管理和优化的过程，包括元数据管理、数据质量、数据安全、数据资产管理、语义建模等方面，旨在帮助企业构建可信、可控、可用的数据资产。
Unity Semantics（统一语义层）	WeData 数据治理最终交付的数据资产服务形式，为下游提供一致、可信、高效的数据访问接口（MCP、API、JDBC、数据发现服务等），统一指标语义，消除数据歧义。
元数据	描述数据的数据，包括表结构、字段定义、数据类型、数据血缘等信息。是构建企业全域数据资产和数据治理的基础。
数据资产	基于元数据能力构建的数据目录、血缘解析、热度分析、资产评分等数据资产服务体系，帮助用户理解、管控和协作使用企业级海量数据。
Catalog	WeData 提供的统一数据治理解决方案，将结构化与非结构化数据、AI 模型与元数据资产纳入统一的元数据管理、访问控制、血缘追踪、变更记录和访问日志体系。
数据血缘	展示数据流转全链路的关系图，包括数据来源、去向及关联任务等。支持表级血缘和字段级血缘，帮助用户追溯数据来源和评估变更影响。
数据质量	数据治理的核心环节之一，通过灵活的规则配置、全方位的任务管理、多维度的质量评估，为数据全生命周期各阶段提供全面的数据质量稽核能力。
动态脱敏	在数据查询和使用过程中，实时对敏感数据进行脱敏处理的安全保护机制。
静态脱敏	在数据存储或导出之前，对敏感数据进行预处理脱敏的安全保护机制。
数据服务	提供包含 API 生产、API 管理和 API 市场等覆盖 API 全生命周期的能力，帮助企业统一管理对内对外的 API 服务，构建统一的数据服务总线。
数据科学	基于 MLOps 理念建设的模块，建设了模型实验、特征管理、模型管理和模型服务四个核心功能模块，实现"数据—模型—推理"的全生命周期端到端能力。
MLOps	一套工程化方法，连接模型构建团队和业务及运维团队，为机器学习模型全生命周期建设标准化、自动化、可持续改进的过程管理体系。
模型实验	通过 MLflow 服务记录每一次实验的参数、指标和结果，实现实验的追踪和可复现性。同时提供 AutoML 无代码开发能力。
特征管理	创建、写入、读取、查找、同步和消费特征表的功能模块，实现特征统一管理和统一消费。
模型管理	查看模型关键信息以及与实验、运行和服务关联关系的功能模块，支持模型注册和版本管理。
模型服务	从模型管理中的模型创建 API 服务并进行服务监控的功能模块。
Studio	WeData 提供的一站式大数据和 AI 开发 IDE，支持 Notebook 文件、SQL 脚本以及 Python等类型文件的在线开发。基于 Serverless 资源组提供项目和用户维度隔离的个人运行环境。
Notebook	基于远程内核机制的交互式开发文件，支持将代码提交到大数据引擎中执行，便于访问引擎中的数据和使用计算资源。
Kernel	Notebook 运行时连接的计算内核，用于将任务提交到引擎的 Spark 集群中执行并返回运行结果。
DataBuddy（AI 助手）	WeData 产品内置的 AI Agent，提供知识库问答、元数据检索、代码辅助、智能诊断和 Agent 能力等一站式智能服务。

API 快速入门

您可以使用 API Explorer 工具在线调用 API。
本文以创建工作流为例，通过 API Explorer 工具调用 API 接口的步骤如下：

进入 API Explorer 工具页面。更多 API Explorer 工具使用信息，请参见使用 API Explorer。
调用 CreateWorkflowFolder 接口，创建工作流文件夹，用于存放后续创建的工作流。
调用 CreateWorkflow 接口，在指定文件夹下创建工作流，设置工作流名称、类型等基本信息。
调用 GetWorkflow 接口，获取已创建工作流的详细信息，确认工作流创建成功。

简介

本页目录：

概述

术语表

API 快速入门