【前言】作为中国的 “Fivetran/Airbyte”, Tapdata 是一个以低延迟数据移动为核心优势构建的现代数据平台,内置 60+ 数据连接器,拥有稳定的实时采集和传输能力、秒级响应的数据实时计算能力、稳定易用的数据实时服务能力,以及低代码可视化操作等。典型用例包括数据库到数据库的复制、将数据引入数据仓库或数据湖,以及通用 ETL 处理等。 随着 Tapdata Connector 的不断增长,我们最新推出《Tapdata Connector 实用指南》系列内容,以文字解析辅以视频演示,还原技术实现细节,模拟实际技术及应用场景需求,提供可以“收藏跟练”的实用专栏。本期实用指南以 SQL Server → BigQuery 为例,演示数据入仓场景下,如何将数据实时同步到 BigQuery。
数据规模仍在持续扩大的今天,为了从中获得可操作的洞察力,进一步实现数据分析策略的现代化转型,越来越多的企业开始把目光投注到 BigQuery 之上,希望通过 BigQuery 来运行大规模关键任务应用,从而达到优化运营、改善客户体验并降低总体拥有成本的目的。
作为自带 ETL 的实时数据平台,我们也看到了很多从传统内部数据仓库向 BigQuery 的数据迁移需求。
BigQuery 的云数仓优势
作为一款由 Google Cloud 提供的云原生企业级数据仓库,BigQuery 借助 Google 基础架构的强大处理能力,可以实现海量数据超快速 SQL 查询,以及对 PB 级数据进行安全并可扩展的分析。同时也因其天然具备的无服务器架构、低成本等特性,备受数据分析师和数据工程师的青睐,在数据存储和处理上表现出更出色的便利性。
BigQuery 在企业中通常用于存储来自多个系统的历史与最新数据,作为整体数据集成策略的一部分,也常作为既有数据库的补充存在。其优势在于:
为了实现上述优势,我们需要首先实现数据向 BigQuery 的同步。
SQLServer → BigQuery 的数据入仓任务
BigQuery 准备工作
1. 登录 Google Cloud 凭据页面:
https://console.cloud.google.com/apis/credentials
2. 创建服务账号,该账号将用于后续的身份验证。
a. 在页面顶部,单击创建凭据 > 服务账号。
b. 在服务账号详情区域,填写服务账号的名称、ID 和说明信息,单击创建并继续。
c. 在角色下拉框中输入并选中 BigQuery Admin,单击页面底部的完成。
3. 为服务账号创建认证密钥。
a. 在跳转到的凭据页面,单击页面下方刚创建的服务账号。
b. 在密钥标签页,单击添加密钥 > 创建新密钥。
c. 在弹出的对话框中,选择密钥类型为 JSON,然后单击创建。
d. 操作完成后密钥文件将自动下载保存至您的电脑,为保障账户安全性,请妥善保管密钥文件。
e. 登录 Google Cloud 控制台,创建数据集和表,如已存在可跳过本步骤。
i. 创建 BigQuery 数据集:
https://cloud.google.com/bigquery/docs/datasets
(*为保障 Tapdata Cloud 正常读取到数据集信息,创建数据集时,选择位置类型为多区域)
ii. 创建表:
https://cloud.google.com/bigquery/docs/tables
操作流程详解(Tapdata Cloud)
② 创建数据源 SQL Server 的连接
在 Tapdata Cloud 连接管理菜单栏,点击【创建连接】按钮, 在弹出的窗口中选择 SQL Server 数据库,并点击确定。
参考右侧【连接配置帮助】,完成连接创建:
③ 创建数据目标 BigQuery 的连接
3. 单击连接测试,测试通过后单击保存。(*如提示连接测试失败,可根据页面提示进行修复)
④ 新建并运行 SQL Server 到 BigQuery 的同步任务
Why Tapdata?
以实时的方式从各个数据来源,包括数据库、API、队列、物联网等数据提供者采集或同步最新的数据变化。支持多源异构数据双向同步,自动映射关系型到非关系型。一键实现实时捕获,毫秒内更新。已内置 60+连接器且不断拓展中,覆盖大部分主流的数据库和类型,并支持您自定义数据源。
4 小时快速对接 SaaS API 系统;16 小时快速对接数据库系统。
基于自研的 CDC 日志解析技术,0入侵实时采集数据,对源库几乎无影响。
基于 Pipeline 流式数据处理,以应对基于单条数据记录的即时处理需求,如数据库 CDC、消息、IoT 事件等。不同于传统 ETL,每一条新产生并进入到平台的数据,会在秒级范围被响应,计算,处理并写入到目标表中。同时提供了基于时间窗的统计分析能力,适用于实时分析场景。
通过多种自研技术,保障目标端数据与源数据的高一致性,并支持通过多种方式完成一致性校验,保障生产要求。
包含 20+ 可观测性指标,包括全量同步进度、增量同步延迟等,能够实时监控在运行任务的最新运行状态、日志信息等,支持任务告警。