温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。
Fayson的github:https://github.com/fayson/cdhproject
提示:代码块部分可以左右滑动查看噢
下图可以使用手机打开放大查看,高清原图下载地址:
https://github.com/fayson/cdhproject/blob/master/从入门到精通-Fayson带你玩转CDH.png
Fayson会持续的写作,本文会定期更新。
以下所有文章均为超链接,可以直接点击文章名跳转。
1.规划设计
1.1.on-premise部署规划
0001-《CDH网络要求(Lenovo参考架构)》
0062-《如何为Hadoop集群选择正确的硬件》
0158-《如何给Hadoop集群划分角色》
1.2.on private cloud部署规划
《如何在VMware中部署Hadoop》
《如何在OpenStack中部署Hadoop》
Fayson正在努力写...
1.3.on public cloud部署规划
Fayson暂无计划写。
2.安装/升级/卸载
2.1.安装
0002-《CENTOS7.2安装CDH5.10和Kudu1.2(一)》
0002-《CENTOS7.2安装CDH5.10和Kudu1.2(二)》
0024-《CENTOS6.5安装CDH5.12.1(一)》
0025-《CENTOS6.5安装CDH5.12.1(二)》
0030-《如何在CDH中安装Kudu&Spark2&Kafka》
0072-《CDH安装前置准备》
0073-《CentOS6.5安装CDH5.13》
0167-《如何在Redhat7.3安装CDH5.14》
2.2.一键安装
计划中...
2.3.升级
0009-《如何升级Cloudera Manager和CDH》
0095-《如何通过CM升级Kafka0.11及Spark2.2》
2.4.迁移
0007-《如何迁移Cloudera Manager节点》
2.5.卸载
0008-《如何卸载CDH(附一键卸载github源码)》
3.Cloudera Manager
3.1.产品介绍
0053-《CDH5.13和CM5.13的新功能》
0160-《CDH5.14和CM5.14的新功能》
3.2.扩容
0080-《如何在CDH集群中加入异构设备》
0089-《如何给CDH集群增加Gateway节点》
0110-《如何给Kerberos环境下的CDH集群添加Gateway节点》
0112-《如何在非Kerberos环境下对CDH进行扩容》
0126-《如何为Kerberos环境的CDH集群在线扩容数据节点》
3.3.减容
0115-《如何使用Cloudera Manager在线为集群减容》
3.4.使用
0003-《如何在CDH中使用LZO压缩》
0036-《如何通过CM API优雅的获取元数据库密码》
0040-《如何重置Cloudera Manager的admin密码》
0088-《如何将CDH集群JAVA升级至JDK8》
0090-《如何将CDH从企业版降级为免费版》
0091-《如何将Kerberos环境下CDH集群JAVA升级至JDK8》
0096-《如何使用Cloudera Manager启用HDFS的HA》
0098-《如何使用Cloudera Manager禁用HDFS HA》
0100-《如何使用Cloudera Manager启用YARN的HA》
0104-《如何使用Cloudera Manager禁用YARN的HA》
0117-《如何修改CDH集群的DataNoe节点HOSTNAME》
0163-《如何修改CDH集群的IP地址》
3.5.异常分析
0023-《HOSTS配置问题导致集群异常故障分析》
0034-《CM启动报InnoDB engine not found分析》
0044-《CDH高可用集群误删NameNode故障恢复》
0086-《Cloudera Manager Server服务在RedHat7状态显示异常分析》
4.Navigator
4.1.Navigator安装
计划中...
4.2.Navigator使用
计划中...
5.数据科学
5.1.基础环境
0012-《什么是数据科学工作台?为什么数据科学家需要它?》
0038-《如何在CDH集群安装Anaconda&搭建Python私有源》
0049-《什么是sparklyr》
0050-《如何在Redhat中配置R环境》
0051-《如何在Redhat中安装R的包及搭建R的私有源》
0052-《如何使用R连接Hive与Impala》
0057-《PySpark数据类型转换异常分析》
0118-《如何在CDH集群上部署Python3运行环境及运行Python作业》
5.2.CDSW
5.2.1.安装
0037-《如何在Windows Server2008搭建DNS服务并配置泛域名解析》
0047-《如何利用Dnsmasq构建小型集群的本地DNS服务器》
0077-《如何在Windows Server2012搭建DNS服务并配置泛域名解析》
0078-《如何在CDH5.13中安装CDSW1.2》
5.2.2.产品介绍
0063-《CDSW1.2的新功能》
0165-《CDSW1.3的新功能》
5.2.3.使用
0042-《如何在CDSW中使用R绘制直方图》
0054-《如何使用CDSW在CDH集群通过sparklyr提交R的Spark作业》
0055-《如何使用CDSW在CDH中分布式运行所有R代码》
0059-《如何基于CDSW基础镜像定制Docker》
0151-《如何使用Nginx实现CDSW的跨网段访问》
0156-《如何修改CDSW服务的DNS和HOSTNAME》
0159-《如何在CDSW上运行TensorFlow》
0161-《如何在CDSW中定制Docker镜像》
6.元数据库
6.1.MySQL
0029-《如何实现CDH元数据库MySQL的主备》
0058-《如何在CDH集群的非元数据库节点安装MySQL5.7.12》
0134-《如何实现CDH元数据库MySQL的主主互备》
0135-《如何实现CDH元数据库MySQL的高可用》
0136-《如何修改CM及CDH元数据库配置》
7.Hadoop组件
7.1.Hive
0004-《Hive表字段Comment中文乱码》
0010-《Hive多分隔符支持示例》
0011-《如何在Hive&Impala中使用UDF》
0014-《Hive中的Timestamp类型日期与Impala中显示不一致分析》
0026-《Hive使用十六进制分隔符异常分析》
0043-《如何在CDH中使用HPLSQL实现存储过程》
0083-《如何使用HAProxy实现HiveServer2负载均衡》
0084-《如何使用Zookeeper实现HiveServer2的HA》
0099-《如何使用java代码通过JDBC连接Hive(附github源码)》
0102-《Hive中的Timestamp类型日期与Impala中显示不一致分析(补充)》
0144-《Hive Load本地数据文件异常分析》
0146-《如何向Hive表加载数据》
0149-《如何使用java代码通过JDBC访问Sentry环境下的Hive》
7.2.Impala
0039-《如何使用Python Impyla客户端连接Hive和Impala》
0070-《如何使用Beeline连接Impala》
0081-《如何使用Nginx实现Impala负载均衡》
0082-《如何使用HAProxy实现Impala的负载均衡》
0097-《如何使用java代码通过JDBC连接Impala(附Github源码)》
0113-《Impala升级为Apache顶级项目》
0124-《如何使用HAProxy实现Kerberos环境下的Impala负载均衡》
0131-《如何在Kerberos的Linux上安装及配置Impala的ODBC驱动》
0147-《如何使用Java访问集成OpenLDAP并启用Sentry的Impala和Hive》
0154-《如何在Impala中实现拉链表》
0162-《使用Java代码通过JDBC连接只启用Sentry的Impala异常分析》
7.3.HBase
0045-《Cloudera Labs中的Phoenix》
0066-《如何使用Java连接Kerberos的HBase》
0071-《如何在CDH中使用HBase快照》
7.4.Hue
0056-《如何重置Hue用户密码》
0152-《如何在Hue中配置已启用SSL的HttpFS服务》
0153-《Hue禁止用户下载数据问题分析》
0164-《如何在Hue中配置HiveServer2的负载均衡》
0168-《如何在Hue中配置Impala的负载均衡》
7.5.Sqoop
0121-《Sqoop抽取Hive Parquet表数据到MySQL异常分析》
7.6.Solr
0103-《如何使用Java代码访问CDH的Solr服务》
0114-《如何使用Hue通过数据文件创建Collections》
7.7.Oozie
0060-《如何使用Hue创建Spark1和Spark2的Oozie工作流》
0061-《如何使用Hue创建Spark2的Oozie工作流(补充)》
0075-《如何在Hue中创建Ssh的Oozie工作流》
0119-《如何使用Hue上创建一个完整Oozie工作流》
0120-《Hue中使用Oozie创建Ssh工作流时sudo命令执行失败问题分析》
0123-《Hue中使用Oozie创建Shell工作流在脚本中切换不同用户》
0132-《使用Hue创建Ssh的Oozie工作流时重定向输出日志报错分析》
0133-《在Kerberos环境使用Hue通过Oozie执行Sqoop作业报错异常分析》
7.8.HDFS
0068-《如何在CDH集群使用HDFS快照》
0105-《如何使用Java代码访问HDFS.docx》
0125-《如何使用Java代码访问HDFS.docx》
0130-《如何将HDFS文件系统挂载到Linux本地文件系统》
0148-《如何为HttpFS服务配置SSL》
7.9.Kudu
0020-《使用JDBC向Kudu表插入中文字符-双引号的秘密》
0021-《使用JDBC向Kudu表插入中文字符-cast的秘密》
0085-《如何在Kudu1.5中使用Sentry授权》
0128-《如何迁移Kudu1.2的WAL和Data目录》
7.10.Kafka
0022-《如何永久删除Kafka的Topic》
0065-《如何通过Cloudera Manager为Kafka启用Kerberos及使用》
0069-《如何使用Java连接Kerberos的Kafka》
7.11.YARN
0019-《Yarn的JobHistory目录权限问题导致MapReduce作业异常》
0107-《如何跨平台在本地开发环境提交MapReduce作业到CDH集群》
0108-《如何使用hadoop命令向CDH集群提交MapReduce作业》
0109-《如何使用java命令从非集群节点向CDH集群提交MapReduce作业》
0129-《如何在HDFS上查看YARN历史作业运行日志》
7.12.Spark
0016-《Avro序列化&反序列化和Spark读取Avro数据》
0017-《Spark的HistoryServer不能查看到所有历史作业分析》
0041-《如何使用Intellij搭建Spark开发环境》
0064-《如何通过Cloudera Manager配置Spark1和Spark2的运行环境》
0079-《如何在CDH中启用Spark Thrift》
7.13.Zookeeper
0006-《Zookeeper指标分析》
0101-《Kerberos环境下删除ZooKeeper服务注册信息问题分析》
8.多租户
8.1.静态资源管理
计划中...
8.2.动态资源管理/YARN
计划中...
8.3.动态资源管理/Impala
计划中...
8.4.安全
8.4.1.认证
8.4.1.1.Kerberos
0005-《Windows Kerberos客户端配置并访问CDH》
0027-《如何在CDH集群启用Kerberos》
0087-《如何配置Kerberos服务的高可用》
8.4.1.2.OpenLDAP
0137-《1.如何在CentOS6.5安装OpenLDAP并配置客户端》
0138-《2.OpenLDAP集成SSH登录并使用SSSD同步用户》
0139-《3.如何实现OpenLDAP的主主同步》
0140-《4. 如何为Hive配置OpenLDAP认证》
0141-《5.如何为Impala配置OpenLDAP认证》
0142-《6.如何为Hue配置OpenLDAP认证》
0150-《7.如何在OpenLDAP中实现将一个用户添加到多个组》
0166-《如何集成OpenLDAP+Sentry.docx》
8.4.1.3.AD
计划中...
8.4.2.认证
8.4.2.1.授权
0015-《如何使用Sentry管理Hive外部表权限》
0028-《如何在CDH未启用认证的情况下安装及使用Sentry》
0031-《如何在CDH启用Kerberos的情况下安装及使用Sentry(一)》
0032-《如何在CDH启用Kerberos的情况下安装及使用Sentry(二)》
0033-《如何在Hue中使用Sentry》
0035-《如何使用Sentry管理Hive外部表(补充)》
0067-《Sentry赋予server1权限给hive以外用户时ACL不同步问题分析》
0074-《如何在启用Sentry的CDH集群中使用UDF》
0155-《如何查看集成Sentry后Hive作业的真实用户》
8.4.2.2.加密
0092-《什么是HDFS透明加密》
0111-《如何在CDH实现HDFS透明加密》
8.4.2.3.审计
计划中...
8.5.集群资源使用报告
0157-《如何在CM中启用YARN的使用率报告》
9.灾备
9.1.HDFS
0013-《如何在Kerberos与非Kerberos的CDH集群BDR不可用时复制数据》
9.2.HBase
0076-《如何使用HBase快照实现跨集群全量与增量数据迁移》
10.运维
10.1.监控
计划中...
10.2.告警
计划中...
11.外部工具集成
11.1.Tableau
0093-《如何安装Tableau并连接CDH的Hive/Impala》
0094-《如何通过Tableau连接Kerberos的Hive/Impala》
12.应用场景
12.1.实时
0116-《如何在Kerberos环境使用Flume采集Kafka数据并写入HDFS》
0122-《非Kerberos环境下Kafka数据到Flume进Hive表》
0145-《如何使用Spark Streaming读取HBase的数据并写入到HDFS》
提示:代码块部分可以左右滑动查看噢
为天地立心,为生民立命,为往圣继绝学,为万世开太平。
温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。
打赏专用二维码
领取专属 10元无门槛券
私享最新 技术干货