首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

Hive 整体介绍

Hive可以管理HDFS中的数据,可以通过SQL语句可以实现与MapReduce类似的同能,因为Hive底层的实现就是通过调度MapReduce来实现的,只是进行了包装,对用户不可见。         Hive对HDFS的支持只是在HDFS中创建了几层目录,正真的数据存在在MySql中,MYSQL中保存了Hive的表定义,用户不必关系MySQL中的定义,该层对用户不可见。Hive中的库在HDFS中对应一层目录,表在HDFS中亦对应一层目录,如果在对应的表目录下放置与表定义相匹配的数据,即可通过Hive实现对数据的可视化及查询等功能         综上所述,Hive实现了对HDFS的管理,通过MySQL实现了对HDFS数据的维度管理         Hive基本功能及概念             database             table             外部表,内部表,分区表         Hive安装             1. MySql的安装(密码修改,远程用户登陆权限修改)             2. Hive安装获取,修改配置文件(HADOOP_HOME的修改,MySQL的修改)             3. 启动HDFS和YARN(MapReduce),启动Hive         Hive基本语法:             1. 创建库:create database dbname             2. 创建表:create table tbname                 Hive操作:             1. Hive 命令行交互式             2. 运行HiveServer2服务,客户端 beeline 访问交互式运行             3. Beeline 脚本化运行                 3.1 直接在 命令行模式下 输入脚本命令执行(比较繁琐,容易出错,不好归档)                 3.2 单独保存SQL 命令到 文件,如etl.sql ,然后通过Beeline命令执行脚本         数据导入:             1. 本地数据导入到 Hive表 load data local inpath "" into table ..             2. HDFS导入数据到 Hive表 load data inpath "" into table ..             3. 直接在Hive表目录创建数据         Hive表类型:             1. 内部表: create table 表数据在表目录下,对表的删除会导致表目录下的数据丢失,需要定义表数据的分隔符。             2. 外部表: create external table 表目录下挂载表数据,表数据存储在其他HDFS目录上,需要定义表数据的分隔符。             3. 分区表:与创建内部表相同,需要定义分区字段及表数据的分隔符。在导入数据时需要分区字段,然后会在表目录下会按照分区字段自动生成分区表,同样也是按照目录来管理,每个分区都是单独目录,目录下挂载数据文件。             4. CTAS建表         HQL             1. 单行操作:array,contain等             2. 聚合操作:(max,count,sum)等             3. 内连接,外连接(左外,右外,全外)             4. 分组聚合 groupby             5. 查询 : 基本查询,条件查询,关联查询             6. 子查询:                 当前数据源来源于 另个数据执行的结果,即当前 table 为临时数据结果             7. 内置函数: 转换, 字符串, 函数                 转换:字符与整形,字符与时间,                 字符串:切割,合并,                 函数:contain,max/min,sum,             8. 复合类型                 map(key,value)指定字符分隔符与KV分隔符                 array(value)指定字符分隔符                 struct(name,value) 指定字符分割与nv分隔符             9. 窗口分析函数             10. Hive对Json的支持

01

HBase 整体介绍

HBase: NoSQL数据库,基于HDFS的分布式数据库,理论上支持无限横向扩展,         HBase由HMaster与RegionServer组成,HMaster负责协调调度RegionServer进行数据处理,RegionServer负责数据的增删改查操作,RegionServer由多台分布在DataNode的组成,可以有多个。由HMaster负责RegionServer的调度情况,当RegionServer出现异常情况,HMaster进行对MetaRegionServer中的元数据进行更新管理。         当HBase中表的数据不断变大时,表中数据会进行Region分区,分为Region1,Region2...等,RegionServer1负责Region1,RegionServer2负责Region2等;每个RegionServer负责哪个Region的数据区由MetaRegionServer管理,MetaRegionServer运行在多个RegionServer中的任意一个。         HBase数据存储在HDFS上的存储也是按照层级来管理的,不同的库对应不同的目录,库下不同的表亦对应不同的目录,表下不同的Region对应不同的目录,Region下存放这HBase上的数据,HBase的数据是经过特殊处理的,所以直接看不到数据内容         HMaster支持HA高可用,所以在HBase集群对应的HMaster和RegionServer都启动后,在其他的RegonServer上启动HMaster,则该HMaster为StandBy,第一次启动的为Active。         HBase底层接口处理起来会比较吃力,一般处理方式是应用其他工具进行处理,如Flume,Sqoop         MySQL与Hive的区别             MySQL:数据存储会受到限制,可以增删改查数据             Hive:1. 只能进行查询数据,不能进行该数据,可以根据查询结果进行建表存储数据                   2. 基于HDFS,支持分布式存储,可以无限扩容                   3. 基于MapReduce,支持大数据运算         HBase与MySQL的区别                         MySQL:行式存储,适合处理联机事务             HBase:列式存储,适合处理对单列数据(列族归类的数据)进行快缩索引查询         HBase与Hive的区别                     HBase:数据库,数据分布式存储在HDFS上的DataNode节点上,根据对数据进行增删改查等。             Hive:数据仓库,数据存储在HDFS上,与DataNodata 关系不大,管理历史数据,数据量会非常庞大,每天都会进来大量数据,不能进行更新删除操作,         HBase概念             HMaster: 协调管理RegionServer服务状态及元数据管理             RegionServer: 负责对数据表的增删改差操作,主要负责单个Region的数据管理                 RegionData:数据块             MetaRegionServer: 对RegionSever上对应的Region数据块进行索引管理             database 数据库             table: 数据表,定义表时需要指定列族,也可以再表建立后进行列族的管理             RowKey:行键,表示一行数据,一行数据中包含列族定义的东西,             ColumnFamily: 列族,对业务进行分类后,可以根据业务对数据进行分类,把业务类似的一类数据分为一个列族,不同的业务可以分为不同的列族。分列族的主要目的是方便后期对数据的高速索引.             CELL: 数据单元,保存单个KV字段.         运行逻辑:             HMaster协调管理RegionServe,RegionServer主要负责处理Region数据块的处理,MetaRegionServer管理RegionServer对应Region数据的元数据信息。RegionServer服务异常时,HMaster进行元数据迁移,保证对Region数据的管理由对应的RegionServer来管理。             MetaRegionServer管理的元数据信息保存在HDFS上。             Client进行数据处

01
领券