最近在测试日志采集的时候,发现日志数据量稍微大一点,Elasticsearch 就有点抗不住了,对于 ES 的优化可能不是一朝一夕能够完成的,所以打算加一个中间层,将日志输出到 Kafka,然后通过 Logstash 从 Kafka 里面去消费日志存入 Elasticsearch。在测试环境现在并没有一套 Kafka 集群,所以我们来先在测试环境搭建一套 Kafka 集群。
kafka运维常用查询操作总结以下几点: kafka生产和消费消息测试 发送:bin/kafka-console-producer.sh --broker-list 10.46.200.165:9092 --topic contentApprove 接收:bin/kafka-console-consumer.sh --bootstrap-server 10.46.200.165:9092 --topic contentApprove --from-beginning 创建topic命令参考 .bin/kaf
限于服务器资源,这里除了服务上下游各有两台,其他没做集群。总共9台服务器,其中八台是centos7虚拟机,各有2G内存,还有一台是windows装的mysql。
本篇博客,小菌为大家带来的是zookeeper的安装! 安装zookeeper前的注意事项:
详情参考 http://zookeeper.apache.org/doc/r3.4.5/zookeeperStarted.html
最近在与电信做交维的时候, 由于一些原因, 项目挂了. 然后甲方爸爸让我们这边负责追查问题并且解决 (ps: 好想做回甲方爸爸~~)
在进行故障排除时,我们可能希望深入了解二进制形式的Zookeeper事务日志和快照,以便从中获取更多可读信息。本文描述了如何通过读取Zookeeper事务日志和快照来排查zookeeper相关问题。
相信看过小菌之前的博客《HDFS的shell常用命令大全》的小伙伴们,肯定对于HDFS的shell常用命令已经不满足了,那么这篇博客,小菌为大家带来的是HDFS的高级命令使用——文件限额配置! 首先让我们来看看这个命令的作用吧~
安装ZooKeeper包 [CDH下载地址](http://archive.cloudera.com/cdh5/cdh/5/) 1、将课程提供的zookeeper-3.4.5-cdh5.3.6.tar.gz使用WinSCP拷贝到sparkproject1的/usr/local目录下。 2、对zookeeper-3.4.5-cdh5.3.6.tar.gz进行解压缩:tar -zxvf zookeeper-3.4.5-cdh5.3.6.tar.gz。 3、对zookeeper目录进行重命名:mv zooke
或者 ./runRemoteCmd.sh '~/och200/zookeeper/bin/zkServer-initialize.sh --myid=1' zoo
“本文主要介绍大数据相关集群搭建,包括hadoop集群、zookeeper集群、hbase集群、spark集群等”
在开始之前,有一个注意事项:HBase强依赖zookeeper和hadoop,安装HBase之前一定要保证zookeeper和hadoop启动成功,且服务正常运行。
注意事项:HBase强依赖zookeeper和hadoop,安装HBase之前一定要保证zookeeper和hadoop启动成功,且服务正常运行
这里搭建一个 3 节点的 HBase 集群,其中三台主机上均为 Region Server。同时为了保证高可用,除了在 hadoop001 上部署主 Master 服务外,还在 hadoop002 上部署备用的 Master 服务。Master 服务由 Zookeeper 集群进行协调管理,如果主 Master 不可用,则备用 Master 会成为新的主 Master。
大家都知道在Hadoop集群开启/关闭Zookeeper集群的时候,需要到不同的节点ZK的bin目录下执行对应的启动/关闭脚本,十分的麻烦。所以就有了以下脚本的产生~
地址:https://mirrors.tuna.tsinghua.edu.cn/apache/spark/spark-2.3.0/
1、Hadoop的主要应用场景: a、数据分析平台。 b、推荐系统。 c、业务系统的底层存储系统。 d、业务监控系统。 2、开发环境:Linux集群(Centos64位)+Window开发模式(window10,64位操作系统)。 使用技术:hadoop,hbase,hive,flume,oozie,sqoop,nginx,tomcat,spring,mybatis,springmvc,mysql等等。Hdfs为海量的数据提供存储,MapReduce为海量的数据提供计算。 此
这两天TJ君稍微关注了一下娱乐新闻,因为知名的钢琴家李云迪出事了,铺天盖地都是其涉嫌PC被捕的事情,其中主要的一个证据,就是李云迪通过支付宝实名转账给了涉事女子,成为铁一般的犯罪事实,金额还不小,据说一次一万。
HBase的集群环境搭建 注意事项:HBase强依赖zookeeper和hadoop, 安装HBase之前一定要保证zookeeper和hadoop启动成功,且服务正常运行 第一步:下载对应的HBase的安装包 所有关于CDH版本的软件包下载地址如下 http://archive.cloudera.com/cdh5/cdh/5/ HBase对应的版本下载地址如下 http://archive.cloudera.com/cdh5/cdh/5/hbase-1.2.0-cdh5.14.0.tar.gz 第二步
HBase 需要依赖 JDK 环境,同时 HBase 2.0+ 以上版本不再支持 JDK 1.7 ,需要安装 JDK 1.8+ 。JDK 安装方式见本仓库:
1.环境前置说明: MAC电脑:自带的ssh终端 ssh hadoop@hadoop-machine ssh hadoop@192.168.21.166 Windws系统:CRT,XShell客户端 远程服务器:CentOS 6.7 hadoop-machine(192.168.21.166)是远程服务器的hostname 如果想在本地通过ssh hadoop@hadoop-machine远程登录, 那么本地的hosts肯定要添加ip和hostname的映射 192.168.21.16
Hadoop版本: cdh5.0.1(manmual安装,未安装cloudera-manager相关)
sqoop简介 1,sqoop:sql-to-hadoop, sqoop是连接关系型数据库和hadoop的桥梁: (1),把关系型数据库的数据导入到hadoop与其相关的系统(hbase和hive); (2),把数据从hadoop导出到关系型数据库里。 sqoop是利用mapreudude加快数据的传输速度,批处理的方式进行数据传输。 2,sqoop1&sqoop2 两个版本完全不兼容。版本的划分方式是apache:1.4.x,1.99.x。 sqoop2相对于sqoop1有很大改进:首先引入了
接触过大数据领域的朋友都知道,Hadoop生态系统十分的庞大,许多组件启动的方式也是不尽相同,今天博主抽空整理了一下大数据生态圈中常见组件的启动方式,也算是为自己巩固了一下基础吧~
详情参考 http://hbase.apache.org/book.html#quickstart
Fayson在前面的文章介绍了如何为CDH集群启用Kerberos,在集群启用Kerberos后,会对现有环境的部分代码做改造,有些人觉得使用起来不方便,想取消Kerberos。本篇文章Fayson主要介绍如何禁用CDH集群的Kerberos及禁用后对各组件服务的测试。
Maven → Git → SSM框架 → MybatisPlus → Spring Boot → 《瑞吉外卖》项目实战
https://pan.baidu.com/s/1v_Lg4tf1-iI10n-hHdFf_A
离线数据分析平台实战——080HBase介绍和安装 HBase介绍 HBase是参考google的bigtable的一个开源产品, 建立在hdfs之上的一个提供高可靠性、高性能、列存储、可伸缩、实时读写的数据库系统。 是一种介于nosql和RDBMs之间的一种数据库系统, 仅支持通过rowkey和range进行数据的检索,主要存储非结构化数据和半结构化数据。 HBase和Hadoop一样,目标是通过横向扩展,添加普通机器来增加存储性能和计算性能。 HBase特点: 大(一个表可以有上亿行以及百万级
作者:王远东 ,重庆芝诺大数据分析有限公司大数据开发工程师。 提前说明一下,大数据的搭建环境都是在Linux系统下构建,可能针对一些没有Linux编程基础的同学来说会有一些吃力,请各位客官放心,小店伙计后期会专门有几期来讲解Linux编程基础。绝对保证零基础完成大数据环境的构建。今天大数据环境构建后会暂停其他组件(hue、flume、kafka、oozie等)的构建,后面的文章就是基于该环境讲解大数据的应用。 一 安装zookeeper 参考:大数据开发Hadoop分布式集群环境构建(1) 二 安装spar
说到Apache顶级开源项目,大家首先会想到什么??? 不熟悉Apache软件基金会的朋友也不用担心,大家可以去Apache官网,下拉到最下边的页面,查看Apache有哪些开源项目。
hbase是bigtable的开源java版本。是建立在hdfs之上,提供高可靠性、高性能、列存储、可伸缩、实时读写nosql的数据库系统。
本文描述了一次因为Zookeeper的异常导致ResourceManager卡住,从而导致集群所有作业无法提交的问题分析和处理。
在应用的整个生命周期里,避无可避的就是“错误”,很多时候都是借助日志平台来捕获、查看日志,以此来找到错误的原因,但是很多时候应用的日志有很多误导性,也不能够很直观的指出问题的源点,并且也缺乏及时分析和告警能力(当然现在很多商用的日志系统都有这个功能了,但是需要Money)。
HBase的基础框架,将分成几个章节对HBase进行描述,不当之处还望大家批评指正。下面是了解HBase基础架构的第二部分。
根据Flink官网资料,实操CDH5.16.2上配置Flink on yarn,给出了flink on yarn的集成方式和HA的配置方式
本文为从大数据到人工智能博主「xiaozhch5」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
在gitee和github里面基本上找不到一款好用、功能完善、且开放源码的网盘系统,有一些可以免费试用但是只提供安装包,于是在利用业务时间开发了一套轻量级且易于上手的网盘系统,主要基于目前主流的前后端分离和微服务架构模式开发,里面涉及很多的解决方案,适合没有项目经验的同学学习。
本文承接上一篇:hadoop_学习_02_Hadoop环境搭建(单机) ,主要是搭建HBase的单机环境
Fayson在两年前的文章中介绍过CDH的卸载,参考《0008-如何卸载CDH(附一键卸载github源码)V1.2》,《0609-6.1.0-如何卸载CDH6.1》和《0621-6.2.0-如何卸载CDH6.2》。除非你是使用Cloudera官方提供的一键安装脚本安装的CDH,否则并没有现成的一键卸载的脚本供使用。
Phoenix 是 HBase 的开源 SQL 中间层,它允许你使用标准 JDBC 的方式来操作 HBase 上的数据。在 Phoenix 之前,如果你要访问 HBase,只能调用它的 Java API,但相比于使用一行 SQL 就能实现数据查询,HBase 的 API 还是过于复杂。Phoenix 的理念是 we put sql SQL back in NOSQL,即你可以使用标准的 SQL 就能完成对 HBase 上数据的操作。同时这也意味着你可以通过集成 Spring Data JPA 或 Mybatis 等常用的持久层框架来操作 HBase。
1. 查看topic信息(“副本”是为该分区复制日志的节点列表,无论它们是引导者还是当前处于活动状态,“ isr”是“同步”副本的集合。这是副本列表的子集,当前仍处于活动状态并追随领导者。)
hdfs文件的限额配置允许我们以文件大小或者文件个数来限制某个目录上传文件数量或者文件内容总量,以便达到我们类似百度网盘等限制每个用户允许上传的最大的文件的量。 准备一个文件夹
我们知道在微服务架构风格中,一个大应用被拆分成为了多个小的服务系统提供出来,这些小的服务他们自成体系,也就是说这些小系统可以拥有自己的数据库,框架甚至语言等,这些小系统通常以提供 Rest Api 风格的接口来被 H5, Android, IOS 以及第三方应用程序调用。
工作中遇到过消费端报错的问题:包括数据Invalid Message和Failed_to_UNcompress等报错信息,导致消费端的iterator损坏,直接造成消费进程挂掉,如果不能及时发现问题,需要手动跳过某些数据;
之前Fayson介绍了《如何使用HAProxy实现HiveServer2负载均衡》,这种方案也有一些弊端,如HAProxy本身就是单点,虽然可以通过Keepalived来实现HAProxy的高可用,但这样配置会比较麻烦并且需要多部署两个组件,增大了系统运维的复杂度。在大数据平台中Zookeeper是一个必不可少且自身具有高可用保证的组件,本文主要讲述如何使用Zookeeper实现HiveServer2的HA。
大数据依然是当前较为火热的领域,其背后的核心价值是数据。今天分享一个GitHub上一个系类文章,作者是heibaiying,大数据入门指南(2019)地址:https://github.com/heibaiying/BigData-Notes(本文末点击阅读原文进入),内容涉及下图的相关技术。
领取专属 10元无门槛券
手把手带您无忧上云