概述
Warehouse 是 Setats 集群的数据存储配置核心组件,负责管理集群中所有作业的数据存储、元数据访问和文件系统接口。在 Setats 中创建集群后,必须正确配置 Warehouse 才能在作业中进行数据读写、表管理、CheckPoint 持久化等操作。
操作步骤
配置 WareHouse
创建完成之后在计算资源中计算集群的流湖引擎 Setats 标签页,单击 Warehouse 配置的图标。

配置项概览表
配置项 | 说明 | 是否必填 | 取值范围 | 默认值 |
Setats 版本 | Setats 版本 | 是 | 0.6 或以上 | 最新稳定版 |
存储位置 | 数据存储后端类型 | 是 | EMR/COS | - |
Catalog-Type | 元数据目录类型 | 是 | Hive/Hadoop | - |
Hive Uri | Hive Metastore 服务地址 | 条件必填* | thrift://IP:PORT | - |
Warehouse 地址 | 数据仓库根目录 | 是 | HDFS/COS URL | - |
认证方式 | 安全认证机制 | 条件必填 | Kerberos/None | None |
Uri | 存储系统定位地址 | 是 | 具体存储地址 | - |
配置文件 | 存储系统配置文件 | 条件必填 | hdfs-site.xml 等 | - |
高级参数 | 额外的配置参数 | 否 | Key-Value 格式 | - |
注意:
当 Catalog-Type 为 Hive 时,Hive Uri 为必填项。
详细配置说明
存储位置
指定 Setats 集群使用的数据存储后端类型。
可选值:
EMR:使用腾讯云 EMR 集群的 HDFS 存储
COS:使用腾讯云对象存储(COS)
选择建议:
如果已有 EMR 集群或有低延迟访问需求,选择 EMR
如果需要大规模、低成本存储,选择 COS
Catalog-Type
指定使用的元数据目录类型。
可选值:
Hive:使用 Hive Metastore 作为元数据存储
Hadoop:使用 Hadoop 文件系统,仅支持文件级别的元数据
Hive Uri
Hive Metastore 服务的 Thrift 访问地址。
格式:thrift://<IP1>:<PORT1>,thrift://<IP2>:<PORT2>,...
Warehouse 地址
Setats 仓库的根目录,所有作业数据和元数据将存储在此目录下。
格式:
HDFS:hdfs://<namenode>/<path>
COS:cosn://<bucket-name>/<path>
命名规范:
目录名建议使用小写字母和下划线
建议包含环境标识(dev/test/prod)
建议包含项目标识
认证方式
指定存储系统的安全认证机制。
可选值:
Kerberos:使用 Kerberos 协议进行安全认证(适用于 EMR Kerberos 场景)
None:不使用额外认证(适用于 EMR 非 Kerberos 或 COS 场景)
选择建议:
EMR 集群启用了 Kerberos,选择 Kerberos
EMR 集群未启用 Kerberos,选择 None
COS/CHDFS 存储,选择 None
Uri
存储系统的定位地址,用于连接和访问存储系统。
格式说明:
存储类型 | Uri 格式 | 示例 |
EMR HDFS | HDFS 服务名称或 IP | HDFS11000127 或 10.0.0.1:9000 |
COS | COS 桶标识 | cosn://test-123 |
配置文件
存储系统所需的配置文件。
高级参数
额外的配置参数,用于更细粒度的控制存储行为。
配置完成
提供 Manager Url 给作业使用。
