Warehouse 配置

最近更新时间:2026-04-16 11:28:52

我的收藏

概述

Warehouse 是 Setats 集群的数据存储配置核心组件,负责管理集群中所有作业的数据存储、元数据访问和文件系统接口。在 Setats 中创建集群后,必须正确配置 Warehouse 才能在作业中进行数据读写、表管理、CheckPoint 持久化等操作。

操作步骤

配置 WareHouse

登录 流计算 Oceanus 控制台,创建流湖引擎 Setats 服务。
创建完成之后在计算资源中计算集群的流湖引擎 Setats 标签页,单击 Warehouse 配置的图标。
Warehouse 配置
Warehouse 配置


配置项概览表

配置项
说明
是否必填
取值范围
默认值
Setats 版本
Setats 版本
0.6 或以上
最新稳定版
存储位置
数据存储后端类型
EMR/COS
-
Catalog-Type
元数据目录类型
Hive/Hadoop
-
Hive Uri
Hive Metastore 服务地址
条件必填*
thrift://IP:PORT
-
Warehouse 地址
数据仓库根目录
HDFS/COS URL
-
认证方式
安全认证机制
条件必填
Kerberos/None
None
Uri
存储系统定位地址
具体存储地址
-
配置文件
存储系统配置文件
条件必填
hdfs-site.xml 等
-
高级参数
额外的配置参数
Key-Value 格式
-
注意:
当 Catalog-Type 为 Hive 时,Hive Uri 为必填项。

详细配置说明

存储位置

指定 Setats 集群使用的数据存储后端类型。
可选值:
EMR:使用腾讯云 EMR 集群的 HDFS 存储
COS:使用腾讯云对象存储(COS)
选择建议:
如果已有 EMR 集群或有低延迟访问需求,选择 EMR
如果需要大规模、低成本存储,选择 COS

Catalog-Type

指定使用的元数据目录类型。
可选值:
Hive:使用 Hive Metastore 作为元数据存储
Hadoop:使用 Hadoop 文件系统,仅支持文件级别的元数据

Hive Uri

Hive Metastore 服务的 Thrift 访问地址。
格式:thrift://<IP1>:<PORT1>,thrift://<IP2>:<PORT2>,...

Warehouse 地址

Setats 仓库的根目录,所有作业数据和元数据将存储在此目录下。
格式:
HDFS:hdfs://<namenode>/<path>
COS:cosn://<bucket-name>/<path>
命名规范:
目录名建议使用小写字母和下划线
建议包含环境标识(dev/test/prod)
建议包含项目标识

认证方式

指定存储系统的安全认证机制。
可选值:
Kerberos:使用 Kerberos 协议进行安全认证(适用于 EMR Kerberos 场景)
None:不使用额外认证(适用于 EMR 非 Kerberos 或 COS 场景)
选择建议:
EMR 集群启用了 Kerberos,选择 Kerberos
EMR 集群未启用 Kerberos,选择 None
COS/CHDFS 存储,选择 None

Uri

存储系统的定位地址,用于连接和访问存储系统。
格式说明:
存储类型
Uri 格式
示例
EMR HDFS
HDFS 服务名称或 IP
HDFS11000127 或 10.0.0.1:9000
COS
COS 桶标识
cosn://test-123

配置文件

存储系统所需的配置文件。

高级参数

额外的配置参数,用于更细粒度的控制存储行为。

配置完成

提供 Manager Url 给作业使用。