首页
学习
活动
专区
圈层
工具
发布

hadoop,hbase,hive,zookeeper整合可行性分析及版本确定【续篇】

前面一篇写过 hadoop,hbase,hive,zookeeper版本整合兼容性最全,最详细说明【适用于任何版本】 http://www.aboutyun.com/forum.php?...我们看到有两个稳定版本 hive1.x的稳定版是hive1.2.1 hive2.x的稳定版是hive2.0.0 由于hbase1.x与hive2.x兼容,我们使用的是hive2.x,所以决定使用hive2.0.0...zookeeper稳定版本选择 zookeeper,在hadoop,hbase,hive,zookeeper版本整合兼容性最全,最详细说明【适用于任何版本】中,zookeeper版本一般来讲越高越好...看到zookeeper稳定版本为 zookeeper-3.4.8,所以决定使用zookeeper-3.4.8.tar.gz 注释:官网中stable表示稳定版本 这里我们使用 hadoop2.7.1...+hbase1.2.1+hive2.0.0+zookeeper3.4.8

1.7K90
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    【Hive】Hive简介

    存储原理: hive的数据存储在HDFS上,hive的表其实就是HDFS的目录,hive没有自己的数据存储格式,存储结构主要包括:数据库、文件、表、视图、索引。...hive默认可以直接加载text文本文件等。创建表时,指定hive的数据的列分隔符与行分隔符,hive即可解析数据。...表: Hive中的表和关系型数据库中的表在概念上很类似,每个表在HDFS中都有相应的目录用来存储表的数据,这个目录可以通过${HIVE_HOME}/conf/hive-site.xml配置文件中的hive.metastore.warehouse.dir...如果我有一个表table1,那么在HDFS中会创建/user/hive/warehouse/table1目录(这里假定hive.metastore.warehouse.dir配置为/user/hive/...由于Hive的元数据需要不断的更新、修改,而HDFS系统中的文件是多读少改的,这显然不能将Hive的元数据存储在HDFS中。目前Hive将元数据存储在数据库中,如Mysql、Derby中。

    1.8K60

    ZooKeeper入门——ZooKeeper系列(二)

    一、什么是ZooKeeper?Apache ZooKeeper 是一个开源的分布式协调服务,由知名互联网公司雅虎创建。...ZooKeeper可以保证如下分布式一致性特性。ZooKeeper 一个最常用的使用场景就是用于担任服务生产者和服务消费者的注册中心。...如下图所示,在 Dubbo架构中 ZooKeeper 就担任了注册中心这一角色参考:漫画:什么是ZooKeeper?...可能是把 ZooKeeper 概念讲的最清楚的一篇文章二、ZooKeeper数据模型ZooKeeper将所有数据存储在内存中,数据模型是是一种树的结构(Znode Tree),非常像电脑的文件夹,有一个根文件夹...ZooKeeper 树中的每一层级用斜杠(/)分隔开,且只能用绝对路径(如“get /work/task1”)的方式查询 ZooKeeper 节点,而不能使用相对路径三、ZooKeeper基本概念(一)

    44701

    Hive篇---Hive使用优化

    一.前述 本节主要描述Hive的优化使用,Hive的优化着重强调一个 把Hive SQL 当做Mapreduce程序去优化 二.主要优化点 1.Hive运行方式: 本地模式 集群模式 本地模式 开启本地模式...: set hive.exec.mode.local.auto=true; 注意: hive.exec.mode.local.auto.inputbytes.max默认值为128M 表示加载文件的最大值...对于小表可以直接从从hdfs直接拿到本地计算 2.并行计算 通过设置以下参数开启并行模式: set hive.exec.parallel=true; 注意:hive.exec.parallel.thread.number...= true; (该参数为true时,Hive自动对左边的表统计量,如果是小表就加入内存,即对小表使用Map join)(默认左边的加载到内存中去) 相关配置参数: hive.mapjoin.smalltable.filesize...sum,count时使用) 通过设置以下参数开启在Map端的聚合: set hive.map.aggr=true; 相关配置参数: hive.groupby.mapaggr.checkinterval

    3.9K11

    【Hive】Hive 的基本认识

    如上图所示: Hive 提供了 CLI(hive shell)、JDBC/ODBC(Java 访问 hive)、WeibGUI 接口(浏览器访问 hive); Hive 中有一个元数据存储(Metastore...2.Hive 基本操作 2.1 Hive 常用命令 在终端输入 hive -help 会出现: usage: hive -d,--define Variable...另外,Hive 也会读入 Hadoop 的配置,因为 Hive 是作为 Hadoop 的客户端启动的,Hive 的配置会覆盖 Hadoop 的配置。...3、 只需要在创建表的时候告诉 Hive 数据中的「列分隔符和行分隔符」,Hive 就可以解析数据 Hive 的默认列分隔符:控制符 「Ctrl + A,\x01 Hive」 的; Hive 的默认行分隔符...6.Reference 尚硅谷Hive教程(新版hive框架详解) Hive学习之路 (一)Hive初识 Hive内部表与外部表的区别

    1.8K40

    Zookeeper

    Zookeeper是基于观察者模式的分布式服务管理框架。 Zookeeper 作为一个分布式的服务框架,主要用来解决分布式集群中应用系统的一致性问题。...Zookeeper 并不是用来专门存储数据的,它的作用主要是用来维护和监控你存储的数据的状态变化,通过监控这些数据状态的变化,从而可以达到基于数据的集群管理,ZooKeeper节点的数据上限是1MB。...我们可以认为Zookeeper=文件系统+通知机制   对于ZooKeeper的数据结构,每个子目录项如 NameService 都被称作为 znode,这个 znode 是被它所在的路径唯一标识,如...ZooKeeper中不能为临时节点创建子节点,如果需要创建子节点,应该将要创建子节点的节点创建为永久性节点。 7 是否可以拒绝单个IP对ZooKeeper的访问?如何实现?   ...9 ZooKeeper集群中服务器之间是怎样通信的?

    70530

    Zookeeper

    概述 ZooKeeper本身是分布式的,是一个为分布式应用提供协调服务的一个Apache项目,常用于注册中心 底层基于观察者模式设计,主要负责存储和管理数据并且接收观察者的注册,数据更新时通知观察者 1.1...特点 可组成集群:一个Leader,多个Follower 集群中半数以上节点存活,Zookeeper集群才能正常服务 全局数据一致,集群每个数据内容都一致 更新请求顺序进行:来自同一个Client的更新请求按其发送顺序依次执行...ACLZooKeeper 采用 ACL(AccessControlLists)策略来进行权限控制,类似于 UNIX 文件系统的权限控制 1.3 应用场景 统一配置管理:将多个系统共用的配置文件放入ZooKeeper...客户端,内有两个线程,分别负责网络连接(Connect)和监听(Listener) Connect将需要监听的事件发给Zookeeper Zookeeper进行监听事件的注册 发生监听的事件,Zookeeper...将消息发送给Listener Listener线程内部调用process()方法 3.4 写数据流程 Client向Zookeeper的follower写数据,那么follower会将请求转发给Leader

    1.1K11

    Zookeeper

    1、ZooKeeper的安装和启动 步骤: 1.从官网上下载zookeeper,地址为:https://www.apache.org/dyn/closer.lua/zookeeper/zookeeper...-3.6.1/apache-zookeeper-3.6.1-bin.tar.gz 2.下载好后的安装包解压到指定目录,解压后看到Zookeeper包含多个目录,其中conf下存放的是配置文件,bin目录下是.../zkServer.sh start 2、ZooKeeper的数据结构 zookeeper的数据模型和分布式文件系统类拟,是一种层次化的属性结构 zookeeper的数据是结构化存储的,并没有在物理上体现出文件和目录...3、ZooKeeper的特性 zookeeper中的Znode在被创建的时候,需要指定节点的类型,节点类型分为: 1.持久化节点:节点的数据会持久化到磁盘 2.临时节点:节点的生命周期和创建该节点的客户端的生命周期保持一致...zookeeper就可以帮助集群中的节点实现Master选举。具体而言,zookeeper中有两种方式来实现Master选举这一场景: 1.同一级节点不能重复创建一个已经存在的节点。

    98221

    hive(2)——hive基本操作

    前提:开启hadoop,关闭safe模式(关闭safe模式命令:hdfs dfsadmin -safemode leave) (1)创建一个数据库hive_test ?...(2)切换到hive_test ? (3)在数据库里面创建表hive_table ?...注意:这里的数据类型的写法和mysql不是很像,因为我们是从一个结构数据直接导入到我们的hive中,所以不需要在后面加括号写多大的数据,并且后面的row format跟的东西是我们以逗号将数据分开。...在hive目录下: ? 在warehouse目录下: ? 找到了我们的hive_test表,并且在hive_test.db目录下能找到我们创建的hive_table表: ?...(6)将此文件导入hive_table中 ? (7)查看数据是否加入成功 ? ? ? 可见导入成功 (8)再次查看hdfs ? 可见,相当于将此文件复制到了hdfs下

    54810
    领券