前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >hive数据类型有哪些?[通俗易懂]

hive数据类型有哪些?[通俗易懂]

作者头像
全栈程序员站长
发布于 2022-11-08 05:43:11
发布于 2022-11-08 05:43:11
3.8K0
举报

大家好,又见面了,我是你们的朋友全栈君。

 关系数据库里有表(table),分区,hive里也有这些东西,这些东西在hive技术里称为hive的数据模型。今天本文介绍hive的数据类型,数据模型以及文件存储格式。这些知识大家可以类比关系数据库的相关知识。

  首先我要讲讲hive的数据类型。

Hive支持两种数据类型,一类叫原子数据类型,一类叫复杂数据类型。

  原子数据类型包括数值型、布尔型和字符串类型,具体如下表所示:

基本数据类型

类型

描述

示例

TINYINT

1个字节(8位)有符号整数

1

SMALLINT

2字节(16位)有符号整数

1

INT

4字节(32位)有符号整数

1

BIGINT

8字节(64位)有符号整数

1

FLOAT

4字节(32位)单精度浮点数

1.0

DOUBLE

8字节(64位)双精度浮点数

1.0

BOOLEAN

true/false

true

STRING

字符串

‘xia’,”xia”

  由上表我们看到hive不支持日期类型,在hive里日期都是用字符串来表示的,而常用的日期格式转化操作则是通过自定义函数进行操作。

hive是用java开发的,hive里的基本数据类型和java的基本数据类型也是一一对应的,除了string类型。有符号的整数类型:TINYINT、SMALLINT、INT和BIGINT分别等价于java的byte、short、int和long原子类型,它们分别为1字节、2字节、4字节和8字节有符号整数。Hive的浮点数据类型FLOAT和DOUBLE,对应于java的基本类型float和double类型。而hive的BOOLEAN类型相当于java的基本数据类型boolean。

  对于hive的String类型相当于数据库的varchar类型,该类型是一个可变的字符串,不过它不能声明其中最多能存储多少个字符,理论上它可以存储2GB的字符数。

Hive支持基本类型的转换,低字节的基本类型可以转化为高字节的类型,例如TINYINT、SMALLINT、INT可以转化为FLOAT,而所有的整数类型、FLOAT以及STRING类型可以转化为DOUBLE类型,这些转化可以从java语言的类型转化考虑,因为hive就是用java编写的。当然也支持高字节类型转化为低字节类型,这就需要使用hive的自定义函数CAST了。

  复杂数据类型包括数组(ARRAY)、映射(MAP)和结构体(STRUCT),具体如下表所示:

复杂数据类型

类型

描述

示例

ARRAY

一组有序字段。字段的类型必须相同

Array(1,2)

MAP

一组无序的键/值对。键的类型必须是原子的,值可以是任何类型,同一个映射的键的类型必须相同,值得类型也必须相同

Map(‘a’,1,’b’,2)

STRUCT

一组命名的字段。字段类型可以不同

Struct(‘a’,1,1,0)

下面我们看看hive使用复杂数据类型的实例,建表:

Create table complex(col1 ARRAY<INT>, Col2 MAP<STRING,INT>, Col3 STRUCT<a:STRING,b :INT,c:DOUBLE>);

查询语句:

Select col1[0],col2[‘b’],col3.c from complex;

  接下来我们来看看hive的数据模型,hive的数据模型包括:database、table、partition和bucket。下面我将一一论述这四种数据模型。

1.Database:相当于关系数据库里的命名空间(namespace),它的作用是将用户和数据库的应用隔离到不同的数据库或模式中,该模型在hive 0.6.0之后的版本支持,hive提供了create databasedbname、use dbname以及drop database dbname这样的语句。

2.表(table):hive的表逻辑上由存储的数据和描述表格中的数据形式的相关元数据组成。表存储的数据存放在分布式文件系统里,例如HDFS,元数据存储在关系数据库里,当我们创建一张hive的表,还没有为表加载数据的时候,该表在分布式文件系统,例如hdfs上就是一个文件夹(文件目录)。Hive里的表友两种类型一种叫托管表,这种表的数据文件存储在hive的数据仓库里,一种叫外部表,这种表的数据文件可以存放在hive数据仓库外部的分布式文件系统上,也可以放到hive数据仓库里(注意:hive的数据仓库也就是hdfs上的一个目录,这个目录是hive数据文件存储的默认路径,它可以在hive的配置文件里进行配置,最终也会存放到元数据库里)。

下面是创建托管表的实例语句:

Create table tuoguan_tbl (flied string); Load data local inpath ‘home/hadoop/test.txt’ into table tuoguan_tbl;

外部表创建的实例:

Create external table external_tbl (flied string) Location ‘/home/hadoop/external_table’; Load data local inpath ‘home/hadoop/test.txt’ into table external_tbl;

  大家看到了创建外部表时候table之前要加关键字external,同时还要用location命令指定文件存储的路径,如果不使用locaction数据文件也会放置到hive的数据仓库里。

  这两种表在使用的区别主drop命令上,drop是hive删除表的命令,托管表执行drop命令的时候,会删除元数据和存储的数据,而外部表执行drop命令时候只删除元数据库里的数据,而不会删除存储的数据。另外我还要谈谈表的load命令,hive加载数据时候不会对元数据进行任何检查,只是简单的移动文件的位置,如果源文件格式不正确,也只有在做查询操作时候才能发现,那个时候错误格式的字段会以NULL来显示。

3.分区(partition):hive里分区的概念是根据“分区列”的值对表的数据进行粗略划分的机制,在hive存储上就体现在表的主目录(hive的表实际显示就是一个文件夹)下的一个子目录,这个文件夹的名字就是我们定义的分区列的名字,没有实际操作经验的人可能会认为分区列是表的某个字段,其实不是这样,分区列不是表里的某个字段,而是独立的列,我们根据这个列存储表的里的数据文件。使用分区是为了加快数据分区的查询速度而设计的,我们在查询某个具体分区列里的数据时候没必要进行全表扫描。下面我就举一个分区使用的实例:

创建分区:

Create table logs(ts bigint,line string) Partitioned by (dt string,country string);

加载数据:

Local data local inpath ‘/home/hadoop/par/file01.txt’ into table logs partition (dt=’2012-06-02’,country=’cn’);

在hive数据仓库里实际存储的路径如下所示:

/user/hive/warehouse/logs/dt=2013-06-02/country=cn/file1.txt /user/hive/warehouse/logs/dt=2013-06-02/country=cn/file2.txt /user/hive/warehouse/logs/dt=2013-06-02/country=us/file3.txt /user/hive/warehouse/logs/dt=2013-06-02/country=us/file4.txt

我们看到在表logs的目录下有了两层子目录dt=2013-06-02和country=cn

查询操作:

Select ts,dt,line from logs where country=’cn’,

这个时候我们的查询操作只会扫描file1.txt和file2.txt文件。

4.桶(bucket):上面的table和partition都是目录级别的拆分数据,bucket则是对数据源数据文件本身来拆分数据。使用桶的表会将源数据文件按一定规律拆分成多个文件,要使用bucket,我们首先要打开hive对桶的控制,命令如下:

set hive.enforce.bucketing = true

示例: 建临时表student_tmp,并导入数据: hive> desc student_tmp; OK id int age int name string stat_date string Time taken: 0.106 seconds hive> select * from student_tmp; OK 1 20 zxm 20120801 2 21 ljz 20120801 3 19 cds 20120801 4 18 mac 20120801 5 22 android 20120801 6 23 symbian 20120801 7 25 wp 20120801 Time taken: 0.123 seconds 建student表: hive>create table student(id INT, age INT, name STRING) >partitioned by(stat_date STRING) >clustered by(id) sorted by(age) into 2 buckets >row format delimited fields terminated by ','; 设置环境变量: >set hive.enforce.bucketing = true; 插入数据: >from student_tmp >insert overwrite table student partition(stat_date="20120802") >select id,age,name where stat_date="20120801" sort by age; 查看文件目录: $ hadoop fs -ls /user/hive/warehouse/studentstat_date=20120802/ Found 2 items -rw-r--r-- 1 work supergroup 31 2012-07-31 19:52 /user/hive/warehouse/student/stat_date=20120802/000000_0 -rw-r--r-- 1 work supergroup 39 2012-07-31 19:52 /user/hive/warehouse/student/stat_date=20120802/000001_0

  物理上,每个桶就是表(或分区)目录里的一个文件,桶文件是按指定字段值进行hash,然后除以桶的个数例如上面例子2,最后去结果余数,因为整数的hash值就是整数本身,上面例子里,字段hash后的值还是字段本身,所以2的余数只有两个0和1,所以我们看到产生文件的后缀是*0_0和*1_0,文件里存储对应计算出来的元数据。

Hive的桶,我个人认为没有特别的场景或者是特别的查询,我们可以没有必要使用,也就是不用开启hive的桶的配置。因为桶运用的场景有限,一个是做map连接的运算,我在后面的文章里会讲到,一个就是取样操作了,下面还是引用风生水起博文里的例子:

查看sampling数据: hive> select * from student tablesample(bucket 1 out of 2 on id); Total MapReduce jobs = 1 Launching Job 1 out of 1 ....... OK 4 18 mac 20120802 2 21 ljz 20120802 6 23 symbian 20120802 Time taken: 20.608 seconds tablesample是抽样语句,语法:TABLESAMPLE(BUCKET x OUT OF y) y必须是table总bucket数的倍数或者因子。hive根据y的大小,决定抽样的比例。例如,table总共分了64份,当y=32时,抽取 (64/32=)2个bucket的数据,当y=128时,抽取(64/128=)1/2个bucket的数据。x表示从哪个bucket开始抽取。例 如,table总bucket数为32,tablesample(bucket 3 out of 16),表示总共抽取(32/16=)2个bucket的数据,分别为第3个bucket和第(3+16=)19个bucket的数据。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员栈长,转载请注明出处:https://javaforall.cn/191130.html原文链接:https://javaforall.cn

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2022年9月21日 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
Hive简介
转载自http://www.cnblogs.com/sharpxiajun/archive/2013/06/02/3114180.html Hive简介   首先我们要知道hive到底是做什么的。下面这几段文字很好的描述了hive的特性:   1.hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的M
老白
2018/03/19
1.4K0
Hive简介
数据工程师:Hive 分桶表核心知识点都在这了,值得一看!
分桶是相对分区进行更细粒度的划分。 分桶将整个 hive 表数据内容按照某列属性值的 hash 值进行分区,通过分区将这些表数据划分到多个文件中进行存储。
Wu_Candy
2022/07/04
2.7K0
数据工程师:Hive 分桶表核心知识点都在这了,值得一看!
【Hive】Hive 的基本认识
Hive 是由 Facebook 开源的基于 Hadoop 的数据仓库工具,用于解决海量「结构化日志」的数据统计。
阿泽 Crz
2020/07/21
1.5K0
【Hive】Hive 的基本认识
Hive加载数据、使用复合数据类型
从本地文件系统加载数据一般使用/开头的绝对路径,快速得到某个文件的绝对路径可以使用readlink -f或者locate命令
esse LL
2024/03/24
3320
Hive 基础(1):分区、桶、Sort Merge Bucket Join
Hive 已是目前业界最为通用、廉价的构建大数据时代数据仓库的解决方案了,虽然也有 Impala 等后起之秀,但目前从功能、稳定性等方面来说,Hive 的地位尚不可撼动。 其实这篇博文主要是想聊聊 SMB join 的,Join 是整个 MR/Hive 最为核心的部分之一,是每个 Hadoop/Hive/DW RD 必须掌握的部分,之前也有几篇文章聊到过 MR/Hive 中的 join,其实底层都是相同的,只是上层做了些封装而已,如果你还不了解究竟 Join 有哪些方式,以及底层怎么实现的,请参考如下
用户1177713
2018/02/24
3.7K0
Hive 基础(1):分区、桶、Sort Merge Bucket Join
一脸懵逼学习Hive(数据仓库基础构架)
Hive是什么?其体系结构简介* Hive的安装与管理* HiveQL数据类型,表以及表的操作* HiveQL查询数据*** Hive的Java客户端** Hive的自定义函数UDF* 1:什
别先生
2018/01/02
3.1K0
一脸懵逼学习Hive(数据仓库基础构架)
hive学习笔记之五:分桶
欢迎访问我的GitHub 这里分类和汇总了欣宸的全部原创(含配套源码):https://github.com/zq2599/blog_demos 《hive学习笔记》系列导航 基本数据类型 复杂数据类型 内部表和外部表 分区表 分桶 HiveQL基础 内置函数 Sqoop 基础UDF 用户自定义聚合函数(UDAF) UDTF 本篇概览 本文是《hive学习笔记》的第五篇,前文学习了分区表,很容易发现分区表的问题: 分区字段的每个值都会创建一个文件夹,值越多文件夹越多; 不合理的分区会导致有的文件夹下数
程序员欣宸
2022/05/06
3390
hive学习笔记之五:分桶
拿美团offer,Hive基础篇(持续更新中)
Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类 SQL查询功能。
木野归郎
2020/06/15
5560
拿美团offer,Hive基础篇(持续更新中)
五万字 | Hive知识体系保姆级教程
Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。
数据社
2021/08/27
2.2K0
五万字 | Hive知识体系保姆级教程
大数据入门基础系列之浅谈Hive的数据存储和元数据存储
企鹅号小编
2018/01/08
1.1K0
大数据入门基础系列之浅谈Hive的桶表
在前面的博文里,我已经介绍了 前言 Hive 中 table 可以继续拆分成Partition table(分区表) 和 桶(BUCKET)表,桶操作是通过 Partition 的 CLUSTERED BY 实现的,BUCKET 中的数据可以通过 SORT BY 排序。   BUCKET 主要作用如下: 1) 数据 sampling; 2) 提升某些查询操作效率,例如 Map Side Join。 需要特别主要的是,CLUSTERED BY 和 SORT BY 不会影响数据的导入,这意味着,用户必须
企鹅号小编
2018/03/02
1K0
大数据入门基础系列之浅谈Hive的桶表
大数据技术之_08_Hive学习_01_Hive入门+Hive安装、配置和使用+Hive数据类型
  Hive:由Facebook开源用于解决海量结构化日志的数据统计(分析框架)。   Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。 本质是:将HQL转化成MapReduce程序。
黑泽君
2019/03/08
9650
大数据技术之_08_Hive学习_01_Hive入门+Hive安装、配置和使用+Hive数据类型
【Hive】SQL语句大全
继承 org.apache.hadoop.hive.ql.udf.generic.GenericUDTF;
全栈程序员站长
2022/08/30
2.6K0
hive学习笔记之一:基本数据类型
https://stackoverflow.com/questions/37863194/insert-timestamp-into-hive/37868132
程序员欣宸
2021/06/23
6920
hive学习笔记之一:基本数据类型
Hive学习笔记-202104
Hive学习笔记 1、Hive数据类型 基本数据类型 tinyInt smallInt Int BigInt Boolean float double string timestamp binary --字节数组 集合类型 STRUCT 和 c 语言中的 struct 类似,都可以通过“点”符号访问元素内容。例如,如果某个列的数据类型是 STRUCT{first STRING, last STRING},那么第 1 个元素可以通过字段.first 来引用。 MAP MAP 是一组键-值对元组
用户8483969
2021/04/09
3590
hive学习笔记之五:分桶
如果您不想自己搭建kubernetes环境,推荐使用腾讯云容器服务TKE:无需自建,即可在腾讯云上使用稳定, 安全,高效,灵活扩展的 Kubernetes 容器平台;
程序员欣宸
2021/07/04
3020
hive学习笔记之五:分桶
Apache Hive
Apache Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供一种HQL语言进行查询,具有扩展性好、延展性好、高容错等特点,多应用于离线数仓建设。
大数据学习与分享
2020/08/10
1.2K0
Apache Hive
hive bucket
hive中table可以拆分成partition, table和partition可以通过CLUSTERED BY 进一步分bucket,bucket中的数据可以通过SORT BY排序。
sparkle123
2018/08/15
1.9K0
2021年大数据Hive(三):手把手教你如何吃透Hive数据库和表操作(学会秒变数仓大佬)
1、CREATE TABLE 创建一个指定名字的表。如果相同名字的表已经存在,则抛出异常;用户可以用 IF NOT EXISTS 选项来忽略这个异常。
Lansonli
2021/10/11
2K0
Hive 基本操作(创建数据库与创建数据库表)
修改数据库 可以使用alter database 命令来修改数据库的一些属性。但是数据库的元数据信息是不可更改的,包括数据库的名称以及数据库所在的位置
Maynor
2021/04/09
5.5K0
相关推荐
Hive简介
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档