Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >数据治理(十五):Ranger管理Hive安全

数据治理(十五):Ranger管理Hive安全

作者头像
Lansonli
修改于 2022-04-27 21:46:20
修改于 2022-04-27 21:46:20
3.8K00
代码可运行
举报
文章被收录于专栏:Lansonli技术博客Lansonli技术博客
运行总次数:0
代码可运行

Ranger管理Hive安全

一、配置HiveServer2

访问Hive有两种方式:HiveServer2和Hive Client,Hive Client需要Hive和Hadoop的jar包,配置环境。HiveServer2使得连接Hive的Client从Yarn和HDFS集群中独立出来,不需要每个节点都配置Hive和Hadoop的jar包和一系列环境。

Ranger管理Hive权限只能针对HiveServer2 jdbc方式连接,所以这里需要配置HiveServer2。

配置HiveServer2步骤如下:

1)在Hive服务端配置hive-site.xml

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
#在Hive 服务端 $HIVE_HOME/conf/hive-site.xml中配置:
<!-- 配置hiveserver2 -->
<property>
	 <name>hive.server2.thrift.port</name>
	 <value>10000</value>
</property>
<property>
	<name>hive.server2.thrift.bind.host</name>
	<value>192.168.179.4</value>
</property>
<!-- 配置hiveserver2使用的zookeeper -->
<property>
	<name>hive.zookeeper.quorum</name>
	<value> node3:2181,node4:2181,node5:2181</value>
</property> 

注意:“hive.zookeeper.quorum”搭建hiveserver2HA使用配置项,可以不配置,如果不配置启动hiveServer2时一直连接本地zookeeper,导致大量错误日志(/tmp/root/hive.log),从而导致通过beeline连接当前node1节点的hiveserver2时不稳定,会有连接不上错误信息。

2)在每台Hadoop 节点配置core-site.xml,记得发送到所有节点

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
<!-- 配置代理访问用户,如果不配置下列信息 hive的jdbc连接会报错 -->
<property>     
	<name>hadoop.proxyuser.root.hosts</name>     
	<value>*</value>
 </property> 
<property>     
	<name>hadoop.proxyuser.root.groups</name>    
    <value>*</value> 
</property>

3)重启HDFS ,Hive ,在Hive服务端启动Metastore 和 HiveServer2服务

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
[root@node1 conf]# hive --service metastore &
[root@node1 conf]# hive --service hiveserver2 > /root/hiveserver2_log.txt &

4)在客户端通过beeline连接Hive

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
[root@node3 test]# beeline
beeline> !connect jdbc:hive2://node1:10000 root
Enter password for jdbc:hive2://node1:10000: **** #可以输入任意密码,没有验证
0: jdbc:hive2://node1:10000> show tables;

二、安装Ranger-hive-plugin

我们可以使用Ranger对Hive数据安全进行管理,这里需要安装Hive插件“ranger-2.1.0-hive-plugin”,此插件只能对jdbc方式连接Hive的请求进行权限管理,不能对hive-cli客户端方式进行权限管理(一般安装Hive的节点才能使用Hive客户端访问)。步骤如下:

1)远程发送编译好的“hive-plugin”到node1节点“/software”目录下,并解压

远程发送“/software/apache-ranger-2.1.0/target/”下的“ranger-2.1.0-hive-plugin.tar.gz”到node1节点“/software”下:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
[root@node3 /]# scp /software/apache-ranger-2.1.0/target/ranger-2.1.0-hive-plugin.tar.gz node1:/software/
#在node1节点操作
[root@node1 ~]# cd /software/
[root@node1 software]# tar -zxvf ./ranger-2.1.0-hive-plugin.tar.gz

2)配置“install.properties”文件

进入到“/software/ranger-2.1.0-hive-plugin”目录中,修改“install.properties”文件:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
[root@node1 ranger-2.1.0-hive-plugin]# vim install.properties
#配置Ranger-Admin访问地址
POLICY_MGR_URL=http://node1:6080
#配置Hive 仓库名称,可以自定义,需要后期在Ranger中使用
REPOSITORY_NAME=hive_repo
#配置Hive的安装目录
COMPONENT_INSTALL_DIR_NAME=/software/hive-3.1.2/
#配置使用插件的用户和用户组
CUSTOM_USER=root
CUSTOM_GROUP=root

3)执行“enable-hive-plugin.sh”脚本启动hive插件

进入到“/software/ranger-2.1.0-hive-plugin”目录下,执行如下命令,启用插件:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
[root@node1 ~]# cd /software/ranger-2.1.0-hive-plugin
[root@node1 ranger-2.1.0-hive-plugin]# enable-hive-plugin.sh

三、配置Ranger连接Hive服务

安装好以上Hive-Plugin之后,重新启动HDFS,启动Hive,HiveMetastore、HiveServer2等。如果想要对连接Hive的用户进行表、列权限管理,需要在Ranger中添加对应的Hive服务,才可以使用Ranger通过这个服务配置每个用户对Hive库、表、列权限管理。配置如下:

1)启动HDFS,启动Hive、Hive MeateStore、Hive Server2

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
#启动HDFS,在node1节点上启动Hive metastore
[root@node1 conf]# start-all.sh
[root@node1 conf]# hive --service metastore &
[root@node1 conf]# hive --service hiveserver2 > /root/hiveserver2_log.txt &

2)在Ranger页面中配置Hive

注意,以上参数解释如下: 

  • “Service Name”填写当前Hive 服务名称,与Hive插件中"install.properties"文件配置参数"REPOSITORY_NAME"保持一致。
  • 配置的“user”和“password”也是与"install.properties"文件中配置的“CUSTOM_USER=root”、“CUSTOM_GROUP=root”保持一致。
  • “jdbc.url”填写“jdbc:hive2://node1:10000”即可,这里连接node1。

添加完成之后:

3)连接测试是否可以jdbc方式连接上Hive

注意:这里连接时,单机测试连接时需要等待一段时间,才能正常连接。

四、Ranger对Hive用户进行权限管理

查看Ranger中配置好的Hive权限管理服务:

修改上图中只有root用户对所以库、表、列具有操作权限,修改后如下: 

在node3中登录beeline连接node1 hive:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
#node3 通过beeline连接Hive
[root@node3 ~]# beeline
#连接HiveServer2 jdbc连接
beeline> !connect jdbc:hive2://node1:10000
#这里用户名目前可以随意输入,在Hive中没有校验,这里可以通过Hive配置有哪些用
#户可以连接Hive,然后通过Ranger再管理这些用户的细粒度访问权限。从上图中可以
#看到目前只有root用户可以访问表数据,可以使用非root用户测试,这里使用
#“diaochan”用户:
Enter username for jdbc:hive2://node1:10000: diaochan
#由于Hive中没有检验密码,所以这里可以随意输入任意密码
Enter password for jdbc:hive2://node1:10000: ****
#查询库下的表,没有权限。
0: jdbc:hive2://node1:10000> show tables
Error: Error while compiling statement: FAILED: HiveAccessControlException Permission denied: user [daochan] does not have [USE] privilege on [de
fault] (state=42000,code=40000)

#重新使用root用户登录beeline,查询对应的表,有权限
[root@node3 ~]# beeline
beeline> !connect jdbc:hive2://node1:10000
Enter username for jdbc:hive2://node1:10000: root
Enter password for jdbc:hive2://node1:10000: *** #密码随意
0: jdbc:hive2://node1:10000> show tables;

下面在Hive中创建两张表进行权限管理:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
#在Hive中创建两张表
create table student (id int,name string,age int) row format delimited fields terminated by '\t';
create table score (id int,name string,score int) row format delimited fields terminated by '\t';

上传数据附件,将以上文件上传到node3“/software/test”下

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
1	zhangsan	18
2	lisi	19
3	wangwu	20
4	maliu	21
5	tianqi	22
6	zhaoba	23
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
1	zhangsan	100
2	lisi	200
3	wangwu	300
4	maliu	400
5	tianqi	500
6	zhaoba	600
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
#加载数据:
hive> load data local inpath '/root/test/students.txt' into table student;
hive> load data local inpath '/root/test/scores.txt' into table score;

权限需求:对用户“user1”配置以上两张表的访问和修改权限,对用户“user2”配置对两张表只有访问权限。

配置步骤如下:

1)在node1节点创建两个用户,密码为对应用户名称

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
#创建两个用户user1,和user2
[root@node1 ~]# useradd user1
[root@node1 ~]# passwd user1

[root@node1 ~]# useradd user2
[root@node1 ~]# passwd user2

2)在Ranger页面,打开“hive_repo”服务,配置如下:

配置“Student”表权限:

最终配置好如下:

3)登录Hive Beeline测试:

向HDFS中插入数据时,user1,user2用户需要操作HDFS和Yarn,所以这里将HDFS中Hive对应的路径“/user/hive/warehouse”中的“/user”路径权限改成“777”,将Yarn使用目录“tmp”路径权限改成“777”

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
[root@node5 bin]# hdfs dfs -chmod -R 777 /user
[root@node5 bin]# hdfs dfs -chmod -R 777 /tmp

 测试登录user1,对“student”、“score”表有操作和修改权限,如下:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
[root@node3 ~]# beeline
beeline> !connect jdbc:hive2://node1:10000
0: jdbc:hive2://node1:10000> select * from student;
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
0: jdbc:hive2://node1:10000> select * from score;
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
#向表student、score中插入数据,也能通过。
0: jdbc:hive2://node1:10000> insert into student values (7,"aa",24);
0: jdbc:hive2://node1:10000> insert into score values (7,"bb",700);

测试登录user2,对“student”、“score”表有操作和修改权限,如下:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
[root@node3 software]# beeline
beeline> !connect jdbc:hive2://node1:10000
Enter username for jdbc:hive2://node1:10000: user2
Enter password for jdbc:hive2://node1:10000: *** #密码随便输入
0: jdbc:hive2://node1:10000> select * from student;
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
0: jdbc:hive2://node1:10000> select * from score;
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
#测试向“student”和“score”中插入数据,没有对应权限:
0: jdbc:hive2://node1:10000> insert into table student values (8,"cc",25);
Error: Error while compiling statement: FAILED: HiveAccessControlException Permission denied: user [user2] does not have [UPDATE] privilege on [d
efault/student] (state=42000,code=40000)

0: jdbc:hive2://node1:10000> insert into table score values (8,"dd",800);
Error: Error while compiling statement: FAILED: HiveAccessControlException Permission denied: user [user2] does not have [UPDATE] privilege on [d
efault/score] (state=42000,code=40000)

权限需求:对用户“user3”配置对“student”表中“id、name”两列有查询权限,其他列没有查询权限。

配置步骤如下:

1)在node1节点中添加用户“user3”

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
#创建两个用户user3
[root@node1 ~]# useradd user3
[root@node1 ~]# passwd user3

2)给用户“user3”配置表“student”的访问权限

3)测试

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
#user3登录beeline
[root@node3 software]# beeline
beeline> !connect jdbc:hive2://node1:10000
Enter username for jdbc:hive2://node1:10000: user3
#访问表“student”数据,“age”列无法查询,select * 查询不允许
0: jdbc:hive2://node1:10000> select id ,name from student;

权限需求:对用户“user1”访问表“student”时,“age”列进行空值输出,进行脱敏。

配置步骤如下:

1)给用户“user1”配置表“student”的“Masking”访问权限

2)登录Hive Beeline测试

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
[root@node3 software]# beeline
beeline> !connect jdbc:hive2://node1:10000
Enter username for jdbc:hive2://node1:10000: user1
0: jdbc:hive2://node1:10000> select * from student;

权限需求:对用户“user2”访问表“student”时,“age”列只能插叙小于等于20的行数据。

配置步骤如下:

1)给用户“user1”配置表“student”的“Masking”访问权限

2)登录Hive Beeline测试

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
[root@node3 software]# beeline
beeline> !connect jdbc:hive2://node1:10000
Enter username for jdbc:hive2://node1:10000: user2
#查询只有3行满足条件的数据
0: jdbc:hive2://node1:10000> select * from student;
本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2022/04/19 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
数据治理(十六):Ranger管理HDFS安全
我们还可以使用Ranger对HDFS进行目录权限访问控制。这里需要添加“HDFS-Plugin”插件。
Lansonli
2022/09/11
3.1K0
数据治理(十六):Ranger管理HDFS安全
2021年大数据Hive(二):Hive的三种安装模式和MySQL搭配使用
元数据服务(metastore)作用是:客户端连接metastore服务,metastore再去连接MySQL数据库来存取元数据。有了metastore服务,就可以有多个客户端同时连接,而且这些客户端不需要知道MySQL数据库的用户名和密码,只需要连接metastore 服务即可。
Lansonli
2021/10/11
3.9K0
数据治理(十三):Ranger安装与启动
Ranger的安装这里选择单节点安装即可,后期需要在Ranger中安装Hive权限管理的插件,也需要在有Ranger环境下才能安装此插件,此插件管理Hive访问权限,必须安装到对应的Hive 服务器端,所以这里我们将Ranger安装到node1节点上(node1节点是HDFS节点,并且此节点是Hive服务端)。Ranger安装步骤如下:
Lansonli
2022/04/17
1.9K0
数据治理(十三):Ranger安装与启动
数据治理(十四):Ranger同步Linux用户
同步Linux中的用户需要用到RangerUsersync模块,这个模块需要单独安装,主要可以将Linux机器上的用户和组信息同步到Ranger中管理。
Lansonli
2022/04/18
2.6K1
数据治理(十四):Ranger同步Linux用户
如何使用Sentry管理Hive外部表(补充)
/extwarehouse/student_hive数据目录不存,在创建外部表时自动生成,且数据目录属主为hive。
Fayson
2018/03/29
1.3K0
如何使用Sentry管理Hive外部表(补充)
大数据平台之权限管理组件 - Aapche Ranger
Apache Ranger提供一个集中式安全管理框架, 并解决授权和审计。它可以对Hadoop生态的组件如HDFS、Yarn、Hive、Hbase等进行细粒度的数据访问控制。通过操作Ranger控制台,管理员可以轻松的通过配置策略来控制用户访问权限。Ranger优点:
端碗吹水
2020/11/13
5.5K4
大数据平台之权限管理组件 - Aapche Ranger
CDP中的Hive3系列之保护Hive3
作为管理员,您需要了解运行 Hive 查询的 Hive 默认授权是不安全的,以及您需要做什么来保护您的数据。您需要了解您的安全选项:设置 Ranger 或基于存储的授权 (SBA),它基于模拟和 HDFS 访问控制列表 (ACL),或这些方法的组合。
大数据杂货铺
2021/08/20
2.4K0
数据湖(五):Hudi与Hive集成
Hudi与Hive集成原理是通过代码方式将数据写入到HDFS目录中,那么同时映射Hive表,让Hive表映射的数据对应到此路径上,这时Hudi需要通过JDBC方式连接Hive进行元数据操作,这时需要配置HiveServer2。
Lansonli
2022/05/31
2.8K0
数据湖(五):Hudi与Hive集成
Hadoop基础教程-第12章 Hive:进阶(12.4 Hive Metastore)(草稿)
程裕强
2018/01/02
1.5K0
Hadoop技术(三)数据仓库工具Hive
在这里可以回顾一下Hadoop的相关知识: 1.x job tracker 既管资源调度又管任务分配 2.x 分为ResourceManager(资源分配)和DataManager(任务分配) 牢记Hadoop 1.x与2.x架构图
时间静止不是简史
2020/07/24
2.1K0
Hadoop技术(三)数据仓库工具Hive
Hadoop基础教程-第12章 Hive:进阶(12.3 HiveServer2)(草稿)
该文介绍了如何使用HiveServer2和HiveServer1来连接Hive数据库。其中,HiveServer2是Hive 2.0版本后引入的,提供了多租户支持、认证和授权、以及基于Zookeeper的动态服务发现机制。而HiveServer1是Hive 1.x版本中的Server组件,使用Java编写的Thrift API来提供Hive功能。在配置HiveServer2时,需要配置HiveServer2的地址、端口、Thrift协议、以及Zookeeper集群的信息。通过HiveServer2,可以实现多租户、资源隔离、访问控制、日志审计等功能。在安全性方面,HiveServer2提供了用户、角色、数据库和表级别的访问控制,并且支持SSL/TLS和Kerberos安全协议。在性能方面,HiveServer2采用了分桶表和列存存储,可以大幅提高查询性能。此外,HiveServer2还支持通过插件来扩展功能,例如支持自定义函数、存储格式、数据类型等。总之,HiveServer2提供了更加安全、高效、易用的数据库服务,适用于各种规模的企业应用。
程裕强
2018/01/02
1.3K0
Hadoop基础教程-第12章 Hive:进阶(12.3 HiveServer2)(草稿)
如何使用Sentry管理Hive外部表权限
使用如下命令在HDFS的根目录下创建Hive外部表的数据目录/extwarehouse
Fayson
2018/03/29
5.4K0
如何使用Sentry管理Hive外部表权限
CDP中的Hive3系列之启动Apache Hive3
如果您想使用 Apache Hive 进行快速测试,您可以使用 Hive 默认授权模式来执行此操作,假设您位于不安全的集群上(没有 Kerberos 或 Ranger 策略)。默认授权模式下,只有用户hive可以访问Hive。启动 Hive shell 的步骤,不要与 CDP 不支持的 Hive CLI 混淆,包括如何登录到集群。
大数据杂货铺
2021/08/20
1.4K0
我的 Hive 3.1.2 之旅 【收藏夹吃灰系列】
同样,这部也属于收藏夹吃灰系列。看在写了辣么多字儿,险些把PP坐出ZC的份儿上,各位看官来个三连呗!
Lenis
2021/04/19
2.1K0
我的 Hive 3.1.2 之旅 【收藏夹吃灰系列】
用ranger对hive metastore 进行授权管理
hive standalone metastore 3.1.2可作为独立服务,作为spark、flink、presto等服务的元数据管理中心,然而在现有的hive授权方案中只有针对hiveserver2的授权,所以本文针对hive standalone metastore独立服务使用ranger对连接到hive metastore的用户进行授权访问,以解决hive standalone metastore无权限验证问题。
从大数据到人工智能
2022/01/15
1.9K0
用ranger对hive metastore 进行授权管理
Hive数据仓库之权限管理
延续数据仓库之Hive快速入门 - 离线&实时数仓架构一文,本文将介绍一下Hadoop/Hive自带的权限控制,权限控制是大数据平台非常重要的一部分,关乎数据安全。
端碗吹水
2020/11/12
4K0
0801-什么是Apache Ranger - 4 - Resource vs Tag Based Policies
在前面的文章中,我们介绍了为什么Ranger会替代Sentry,Ranger的基础架构以及2.0引入的新功能安全区域(Security Zone)功能。本文主要是通过一些例子介绍基于标签的策略和基于资源的策略的区别。
Fayson
2020/08/20
2K0
0801-什么是Apache Ranger - 4 - Resource vs Tag Based Policies
Hive Load本地数据文件异常分析
使用beeline登录HiveServer2向my_table表Load本地数据文件时报如下异常:
Fayson
2018/03/29
4.7K0
大数据集群搭建之Linux安装Hive2.3.2
GettingStarted - Apache Hive - Apache Software Foundation
静谧星空TEL
2022/01/05
1.3K0
大数据集群搭建之Linux安装Hive2.3.2
大数据NiFi(二十):实时同步MySQL数据到Hive
以上案例需要用到的处理器有:“CaptureChangeMySQL”、“RouteOnAttribute”、“EvaluateJsonPath”、“ReplaceText”、“PutHiveQL”。
Lansonli
2023/02/27
3.7K1
大数据NiFi(二十):实时同步MySQL数据到Hive
推荐阅读
相关推荐
数据治理(十六):Ranger管理HDFS安全
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验