开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

无网络接入的CDH集群如何安装parckage(如mmlspark)？

在无网络接入的CDH（Cloudera Distribution Hadoop）集群中安装软件包（如mmlspark）是一个具有挑战性的任务，因为通常这些软件包需要从互联网上下载。然而，通过一些预先准备和手动步骤，你仍然可以在这样的环境中完成安装。以下是一个详细的指南：

基础概念

CDH集群：Cloudera Distribution Hadoop，一个流行的Hadoop发行版，包含了Hadoop及其生态系统中的多个组件。
mmlspark：Microsoft Machine Learning for Apache Spark，一个为Spark提供机器学习功能的库。
无网络接入：指的是集群无法直接访问互联网，这限制了从在线仓库下载软件包的能力。

相关优势

离线安装：允许在没有网络连接的环境中安装必要的软件包，确保集群的稳定性和安全性。
减少依赖：通过预先下载所有必需的组件，可以减少安装过程中对外部服务的依赖。

类型与应用场景

类型：离线软件包安装。
应用场景：企业内部网络隔离环境、远程数据中心、灾难恢复站点等。

解决方案步骤

准备环境：
- 在一个可以访问互联网的机器上，下载mmlspark及其所有依赖项。
- 将下载的文件复制到一个外部存储设备（如USB驱动器）。

传输文件到CDH集群：
- 将外部存储设备连接到CDH集群的节点。
- 将下载的mmlspark及其依赖项复制到集群的适当位置，通常是/var/lib/hadoop-hdfs/或指定的软件仓库目录。
安装软件包：
- 在CDH集群的节点上，导航到mmlspark的安装目录。
- 运行安装脚本或手动配置环境变量和类路径，以便Spark可以找到并加载mmlspark库。
验证安装：
- 启动一个Spark会话，并尝试导入mmlspark包以验证其是否正确安装。
- 运行一些简单的测试用例来确保mmlspark的功能正常。

可能遇到的问题及解决方法

依赖项缺失：如果在安装过程中遇到依赖项缺失的问题，需要回到准备环境步骤，确保所有必需的依赖项都已下载并传输到集群。
版本不兼容：确保下载的mmlspark版本与CDH集群中的Spark版本兼容。如果不兼容，可能需要寻找替代方案或升级集群组件。
权限问题：在复制文件和运行安装脚本时，可能会遇到权限问题。确保以适当的用户身份执行这些操作，或调整文件和目录的权限设置。

参考链接

请注意，具体的安装步骤可能因集群配置和软件版本的不同而有所差异。建议参考官方文档和社区论坛以获取更详细的指导和支持。

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

0787-6.3.3-如何在本地集群安装Workload Experience Manager(WXM)

Workload XM是Cloudera现代数据平台以工作负载为中心的管理工具，可主动分析数据仓库、数据工程和机器学习环境的工作负载，提升应用程序性能，以及优化基础架构的容量配置。Workload XM与Cloudera Enterprise平台内的多种计算引擎进行交互，使用户能够全面了解各类性能指标，从而通过迭代模式进行自助服务。

02

0523-5.15-为Cloudera Manager配置自定义告警脚本

Cloudera Manager支持三种方式的告警输出，在前面的文章《如何为CDH集群配置警报邮箱》和《如何通过Cloudera Manager配置使用SNMP方式转发告警》Fayson介绍了邮件和SNMP两种方式的告警接入，那Cloudera Manager还支另外一种自定义告警脚本方式接入告警，本篇文章Fayson主要介绍如何使用自定义告警脚本的方式将CM告警输出。

01

大数据物流项目中CM的安装与运用

文章目录大数据服务器之CM安装架构及目录大数据服务器之CDH框架安装细节大数据服务器之CM安装架构及目录针对整个物流项目来说，1台虚拟机安装部署大数据环境：基于CM6.2.1安装CDH6.2.1。关于CM功能及CM安装，不再过多赘述，项目还是要注重于业务及数据和实现。提供虚拟机【node2.itcast.cn】解压后，导入VMWare 软件中，启动虚拟机即可（选择我已移动该虚拟机） 1）、启动之前，设置node2.itcast.cn内存：4GB或者6GB或者8GB即可 2）

02

大数据物流项目中CM的安装与运用

文章目录大数据服务器之CM安装架构及目录大数据服务器之CDH框架安装细节大数据服务器之CM安装架构及目录针对整个物流项目来说，1台虚拟机安装部署大数据环境：基于CM6.2.1安装CDH6.2.1。关于CM功能及CM安装，不再过多赘述，项目还是要注重于业务及数据和实现。提供虚拟机【node2.itcast.cn】解压后，导入VMWare 软件中，启动虚拟机即可（选择我已移动该虚拟机） 1）、启动之前，设置node2.itcast.cn内存：4GB或者6GB或者8GB即可 2）

03

CDH6.3应知应会

Cloudera Manager是一个拥有集群自动化安装、中心化管理、集群监控、报警功能的一个工具，使得安装集群从几天的时间缩短在几个小时内，运维人员从数十人降低到几人以内，极大的提高集群管理的效率。

01

基于Ambari构建自己的大数据平台产品

目前市场上常见的企业级大数据平台型的产品主流的有两个，一个是Cloudera公司推出的CDH，一个是Hortonworks公司推出的一套HDP，其中HDP是以开源的Ambari作为一个管理监控工具，CDH对应的是Cloudera Manager，国内也有像星环这种公司专门做大数据平台。我们公司最初是使用CDH的环境，近日领导找到我让我基于Ambari做一个公司自己的数据平台产品。最初接到这个任务我是拒绝的，因为已经有了很完善很成熟的数据平台产品，小公司做这个东西在我看来是浪费人力物力且起步太晚。后来想想如果公司如果有自己数据平台的产品后续在客户面前也能证明自己的技术实力且我个人也能从源码级别更深入的学习了解大数据生态圈的各个组件。

03

如何在CDH集群外配置Kerberos环境的Gateway节点

温馨提示：要看高清无码套图，请使用手机打开并单击图片放大查看。 Fayson的github： https://github.com/fayson/cdhproject 提示：代码块部分可以左右滑动查看噢 1.文档编写目的 ---- 在前面的文章Fayson介绍了《如何在CDH集群外配置非Kerberos环境的Gateway节点》，本篇文章主要介绍如何在CDH集群外配置Kerberos环境的Gateway节点。内容概述 1.部署环境说明 2.部署Gateway节点及测试 3.总结测试环境 1.CM和CDH

04

0692-5.16.1-外部客户端跨网段访问Hadoop集群方式(续)

在生产环境的CDH集群中，为了分开集群对网络的使用会为集群配备两套网络（管理网段和数据网段），数据网段主要用于集群内部数据交换，一般使用万兆网络以确保集群内数据传输性能，管理网段主要用于集群管理，一般使用千兆网络。一般情况下在集群外进行集群管理和数据传输的都是通过千兆网络进行交互，在集群外是无法直接访问集群内的万兆网络。

02

impala的安装部署

hive安装包scp在所有需要安装impala的节点上，因为impala需要引用hive的依赖包。

02

【docker】容器间跨宿主机通信-基于overlay

内置跨主机的网络通信一直是Docker备受期待的功能，在1.9版本之前，社区中就已经有许多第三方的工具或方法尝试解决这个问题，例如Macvlan、Pipework、Flannel、Weave等。

03

0001-CDH网络要求(Lenovo参考架构)

数据网络是用于数据访问的节点之间的私有集群数据互连，比如在集群内的节点之间移动数据，或者将数据导入到CDH集群。CDH集群通常会连接到企业内部的数据网络。

如何给Hadoop集群划分角色

Fayson在之前的文章中介绍过《CDH网络要求(Lenovo参考架构)》，《如何为Hadoop集群选择正确的硬件》和《CDH安装前置准备》，而我们在搭建Hadoop集群时，还一件很重要的事就是如何给集群分配角色。

07

如何在CDH集群外配置Kerberos环境的Spark2和Kafka客户端环境

温馨提示：要看高清无码套图，请使用手机打开并单击图片放大查看。 Fayson的github： https://github.com/fayson/cdhproject 提示：代码块部分可以左右滑动查看噢 1.文档编写目的 ---- 在前面的文章Fayson介绍了《如何在CDH集群外配置非Kerberos环境的Gateway节点》、《如何在CDH集群外配置Kerberos环境的GateWay节点》和《如何在CDH集群外配置非Kerberos环境的Spark2和Kafka客户端环境》，配置Gateway中并未提

03

超详细！搭建本地大数据研发环境（16G内存+CDH）

工欲善其事必先利其器，在经过大量的理论学习以后，需要有一个本地的研发环境来进行练手。已经工作的可以不依赖于公司的环境，在家也可以随意的练习。而自学大数据的同学，也可以进行本地练习，大数据是一门偏实践的学科，在找工作之前进行一些实践操作，也更利于对大数据知识的理解。

03

CDH安装前置基础准备条件

测试环境，最小规模，最少4台服务器。一台做管理节点Cloudera Manager和NameNode等，另外三台用作worker，DATANODE节点，这种最小规模一般仅用于开发和测试。

04

CDH集群安装&测试总结

之前完全没有接触过大数据相关的东西，都是书上啊，媒体上各种吹嘘啊，我对大数据，集群啊，分布式计算等等概念真是高山仰止，充满了仰望之情，觉得这些东西是这样的：

04

0685-6.2.0-什么是Cloudera虚拟私有集群和SDX-续

本文是续上一篇文章《0667-6.2.0-什么是Cloudera虚拟私有集群和SDX》

01

Cloudera Manager主机管理

您可以查看有关由Cloudera Manager管理的主机的摘要信息。您可以查看所有主机，集群中的主机或单个主机的信息。

01

自学大数据：用以生产环境的Hadoop版本比较

一、背景介绍生产环境中，hadoop的版本选择是一个公司架构之时，很重要的一个考虑因素。这篇文章根据就谈谈现在主流的hadoop版本的比较。如果有不同意见，或者指正，希望大家能交流。 Apache Hadoop：Apache Hadoop是一款支持数据密集型分布式应用并以Apache 2.0许可协议发布的开源软件框架。它支持在商品硬件构建的大型集群上运行的应用程序。Hadoop是根据Google公司发表的MapReduce和Google档案系统的论文自行实作而成。称为社区版Hadoop。第三方发行版Ha

05

聊聊个人对安装部署CDH集群前置准备的理解

这一步可以参考我之前写的文章《如何在HP dl380 Gen9服务器上安装Redhat 7.2并配置软RAID》、《如何为Hadoop集群服务器绑定双万兆网卡》

04

【CDH篇】---CDH从初识到搭建到应用

CDH（Cloudera's Distribution, including Apache Hadoop）是Hadoop众多分支中的一种，由Cloudera维护，基于稳定版本的Apache Hadoop构建提供了Hadoop的核心可扩展存储、分布式计算基于Web的用户界面。简单来说CDH就是把我们知道的大数据家族组件进行了一个组合，然后提供了一个WEB-UI的页面，使原来的搭建操作变得非常简单。CDH架构图如下：

03

0751-7.0.3-如何在CDP DC7.0.3中启用Kerberos

在前面的文章中，Fayson介绍了《0733-7.0.3-如何在Redhat7.6中安装CDP DC7.0.3》，这里我们基于这个环境开始安装Kerberos。Kerberos是一个用于安全认证的第三方协议，并不是Hadoop专用，你可以将其用于其他系统。它采用了传统的共享秘钥方式，实现了在网络环境下不一定保证安全的环境下，Client和Server之间的通信，适用于Client/Server模型，由MIT开发和实现。而使用CDP DC可以较为轻松的实现洁面后的Kerberos集成，本文Fayson主要介绍如何在Readhat7.2的CDP DC7.0.3环境中启用Kerberos。

04

CentOS 7下Cloudera Manager及CDH 5.14.0安装过程详解

大家都知道，Apache Hadoop的配置很繁琐，而且很零散，为此Cloudera公司提供了Clouder Manager工具，而且还封装了Apache Hadoop,flume,spark，hive,hbase等大数据产品形成自己特色的CDH产品，再使用CM进行安装，很大程度上方便了集群的搭建，并提供了集群的监控功能。

03

学习大数据要有这样的学习思路才行?

我们在系统学习大数据的之前，要先了解大数据开发是在什么系统平台下进行的。所以我们在学之前要先学习Linux的知识，这部分显得格外的重要。

00

Cloudera Manager 和CDH6.0.1安装，卸载，各步骤截图

https://www.cloudera.com/documentation/enterprise/6/6.0.html

03

0723-6.2.0-如何在RedHat7.2使用rpm安装CDH(有CM)

在之前的文档《0722-6.2.0-如何在RedHat7.2使用rpm安装CDH(无CM)》中介绍了如何在CM上使用rpm的方式安装CDH6.2.0集群，本文档将介绍如何在CM上使用rpm的方式安装CDH6.2.0集群。

04

0753-6.3.3-如何在Redhat7.6安装CDH6.3.3

CDH6.3.3于2020年2月4日发布，从该版本开始，Cloudera将不再提供CDH免费版，用户只能通过试用或者购买正式许可证才能够下载CDH安装包及使用，参考《0743-Cloudera Enterprise 6.3.3发布》。这篇文档主要介绍了在Redhat7.6环境下安装CDH6.3.3集群的详细步骤。

05

DolphinScheduler-1.3.0-dev新功能尝鲜

Apache DolphinScheduler是一个分布式去中心化，易扩展的可视化DAG工作流任务调度系统。致力于解决数据处理流程中错综复杂的依赖关系，使调度系统在数据处理流程中开箱即用。

06

如何Redhat7的CDH集群中扩容增加Redhat6的节点

前面Fayson有很多篇文章介绍CDH各个版本的安装部署，在安装部署的前置条件中说明需要在统一的操作系统版本进行部署。部分用户早期在RedHat7以下版本部署CDH集群，在后续集群扩容时使用了RedHat7版本的操作系统，对于这种跨操作系统安装部署或扩容CDH集群如何解决？本篇文章Fayson主要介绍如何跨操作系统扩容CDH集群。

01

如何在Kerberos环境的CDH集群外跨OS版本中在指定目录配置HDFS的Gateway节点

在前面的文章Fayson介绍了《如何在CDH集群外配置非Kerberos环境的Gateway节点》和《如何在CDH集群外配置Kerberos环境的Gateway节点》,本文档在这两篇文档本篇文章基础介绍如何在Kerberos环境的CDH集群外跨OS版本中在指定目录配置HDFS的Gateway节点。

02

CDH 安装文档整合

CDH是Cloudera的100％开源平台发行版，包括Apache Hadoop，专为满足企业需求而构建。CDH提供开箱即用的企业使用所需的一切。通过将Hadoop与十几个其他关键的开源项目集成，Cloudera创建了一个功能先进的系统，可帮助您执行端到端的大数据工作流程。

02

CDH5升级到CDP7.1

将Cloudera Enterprise CDH升级到更高版本的CDH和CDP数据中心版。

01

CDP-DC上部署VPC集群

CDP DC7.1是Cloudera与Hortonworks合并后，第一个融合CDH和HDP所有组件的on-premise并且可用于生产环境的版本，CDP Data Center主要由Cloudera Runtime构成，Cloudera Runtime由超过35个开源项目组成，当然CDP Data Center还包括其它功能如管理功能Cloudera Manager，Key Management，专业支持等。CDP-DC集群支持VPC（虚拟私有集群）的部署和使用方式，关于什么是VPC集群参考fayson的《0667-6.2.0-什么是Cloudera虚拟私有集群和SDX 》和《0685-6.2.0-什么是Cloudera虚拟私有集群和SDX-续》。

02

篇一|ClickHouse快速入门

ClickHouse是一个用于联机分析(OLAP)的列式数据库管理系统(DBMS)。ClickHouse最初是一款名为Yandex.Metrica的产品，主要用于WEB流量分析。ClickHouse的全称是Click Stream,Data WareHouse，简称ClickHouse。

02

【CDH实战】CM6.3.1&CDH6.3.2大数据集群搭建详解

【大数据搭建HDP3.x】Ambari2.7.4+HDP3.1.4离线搭建教程（上）

06

0720-5.10.0-如何在RedHat7.2使用rpm安装CDH(有CM)

在上一篇文档《5.10.0-如何在RedHat7.2使用rpm安装CDH(无CM)》中介绍了如何在没有CM的情况下使用rpm的方式安装CDH集群，本文档将介绍如何使用CM以rpm的方式安装CDH集群。

03

金融信创湖仓一体数据平台架构实践

大数据基础设施的发展经历了四个主要阶段，每个阶段都有着标志性的技术进步来应对新的应用需求。

01

0780-6.3.3-如何在离线环境下安装Streams Message Manager(SMM)

2.将下载的csd文件拷贝至/opt/cloudera/csd目录下，并重启cloudera-scm-server服务

03

0888-7.1.6-如何在集群外安装多集群Gateway支持

1.文档编写目的在使用CDH/CDP集群过程中会遇到在集群外的节点使用Hadoop命令访问集群（如：HDFS、HBASE、HIVE、SPARK、YARN）等命令操作。但是有特殊需求： 1.不想将这个节点加入到CDH/CDP集群中管理，只用于实现CDH/CDP集群的访问。 2.支持多个不同版本的C6/CDP集群之间切换 3.支持多个用户同时访问不同集群，且环境变量互不影响本篇文章主要介绍满足以上条件的一个客户端节点安装。测试环境 1.集群1是CM版本6.3.4、CDH版本6.3.4 2.集群2 是Clo

02

0610-6.2.0-如何在Redhat7.4安装CDH6.2

Cloudera在2019年3月30日，对外宣布正式发布Cloudera Enterprise 6.2，相关介绍可以参考Fayson昨天的文章《0585-Cloudera Enterprise 6.2.0发布》，《0589-Cloudera Manager6.2的新功能》和《0595-CDH6.2的新功能》。本文档Fayson主要描述如何在Redhat7.4安装CDH6.2。CDH6与CDH5的安装步骤一致，主要包括以下四部分：

03

如何使用StreamSets实时采集Kafka中嵌套JSON数据并写入Hive表

1.文档编写目的 ---- 在前面的文章Fayson介绍了关于StreamSets的一些文章《如何在CDH中安装和使用StreamSets》、《如何使用StreamSets从MySQL增量更新数据到Hive》、《如何使用StreamSets实现MySQL中变化数据实时写入Kudu》、《如何使用StreamSets实现MySQL中变化数据实时写入HBase》、《如何使用StreamSets实时采集Kafka并入库Kudu》和《如何使用StreamSets实时采集Kafka数据并写入Hive表》，本篇文章Fay

05

Cloudera Manager Server CDH 5.15部署详解

wget –P /etc/yum.repos.d https://archive.cloudera.com/cm5/RedHat/7/x86_64/cm/cloudera-manager.repo

01

Cloudera Manager环境准备【一】

一般而言，一个集群上很少只跑一个业务，大多数情况都是多个业务共享集群，实际上就是共享系统软硬件资源。

02

如何给Hadoop集群划分角色

温馨提示：要看高清无码套图，请使用手机打开并单击图片放大查看。 Fayson的github：https://github.com/fayson/cdhproject 提示：代码块部分可以左右滑动查看噢 1.文档编写目的本文主要介绍由Cloudera Manager管理的CDH集群的角色划分。实际部署你可能还需要考虑工作负载的类型和数量，真实要部署的哪些服务，硬件资源，配置，以及其他因素。当你使用Cloudera Manager的安装向导来安装CDH时，CM会根据主机的可用资源，自动的分配角色到各台主机，边

0593-CDH5与CDH6对比

Cloudera于2018年8月30日正式发布CDH6.0.0，至2019年2月19日，最新的迭代版本为CDH6.1.1，可能马上就会发布CDH6.2。CDH6是基于Hadoop3同时包含大量其他组件的大版本更新的发布版本，许多用户考虑到未来CDH的版本主要是基于C6，而CDH5会慢慢的停止更新，所以考虑新搭集群使用CDH6，或者想把已有的CDH5集群升级到CDH6。第一个问题就是需要考虑CDH5和CDH6的差别，通过分析一些差异看能否将已有的应用迁移或者直接部署到CDH6，兼容性稳定性是否存在问题等。出于这个目的，本文会从各个方面详细比较CDH5和CDH6的差别，从而让用户能够进行正确的判断并进行相应的选择。以下内容主要基于最新的CDH5.16.1和CDH6.1.1进行比较。最后再次强调，没有最好的技术，也没有最新的技术就是最好的，永远只有最合适的技术。

04

安装 | 企业版CDH服务器集群配置(详细)

此方案为暂定方案，有可能会变更。如果直接使用CDH会更加方便，但是如果进行自行配置，需要做实验。

01

CM+CDH Hadoop 集群部署

2. 环境配置 2.1 基本配置(本配置在CM机器上操作，其他机器秩序操作前三步) (1) 修改network (修改计算机标示名)

01

0686-6.2.0-如何为CDH集群的JDK安装JCE策略文件

默认情况下， CentOS和RedHat5.5或更高的版本中，对Kerberos 票证使用AES-256加密，因此必须在集群所有节点的JDK中安装Java Cryptography Extension（JCE）无限制强度加密策略文件。在安装JCE文件的Kerberos集群中，服务启动时会报“java.security.InvalidKeyException: Illegal key size”异常。本篇文章Fayson主要介绍使用不同方式安装JCE加密策略文件以及如何禁用Kerberos的AES-256加密。

03

CDH安装前置准备

每次安装CDH集群时都需要做很多前置条件准备，以确保安装成功以及运行主机检查时能顺利通过。本篇文章主要讲述安装Cloudera Manager和CDH前的准备工作。Fayson将这一部分独立出来，主要是为了方面后面再讲安装相关的文章时不用重复这部分内容。

Hadoop数据分析平台项目实战(基于CDH版本集群部署与安装)

1、Hadoop的主要应用场景：　　a、数据分析平台。　　b、推荐系统。　　c、业务系统的底层存储系统。　　d、业务监控系统。 2、开发环境：Linux集群(Centos64位)+Window开发模式(window10,64位操作系统)。　使用技术：hadoop,hbase,hive,flume,oozie,sqoop,nginx,tomcat,spring,mybatis,springmvc,mysql等等。Hdfs为海量的数据提供存储，MapReduce为海量的数据提供计算。此

04

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭