首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

#hadoop

Apache Hadoop是一款支持数据密集型分布式应用程序并以Apache 2.0许可协议发布的开源软件框架。它支持在商品硬件构建的大型集群上运行的应用程序。

container-executor 详解

zeekling

container-executor 是NodeManager管理Container很重要的一个工具,是深入学习Yarn作业调度不可缺少的一个知识点,值得深入学...

8200

Hadoop入门介绍

Power

(3) 高效率(Efficient):通过分发计算程序,hadoop可以在数据所在节点上(本地)并行地(parallel)处理他们,这使得处理非常的迅速

11610

Hadoop伪分布式系统搭建

Power

13510

【赵渝强老师】史上最详细:Hadoop HDFS的体系架构

赵渝强老师

在Hadoop HDFS的体系架构中,包含了三个组成部分。它们分别是:NameNode、DataNode和SecondaryNameNode。下图摘至Hadoo...

10410

数据炼金术:从原始数据到商业洞察的五个关键步骤

Echo_Wish

当你在电商平台搜索"运动鞋"时,系统瞬间推荐了3款你可能喜欢的商品——这背后正是大数据分析在施展魔法。但鲜为人知的是,从原始数据到商业洞察的转化过程,就像炼金术...

5600

Hadoop 概述

丘山水工

1)Hadoop创始人Doug Cutting,为 了实 现与Google类似的全文搜索功能,他在Lucene框架基础上进行优化升级,查询引擎和索引引擎。

4700

Hadoop 的 Checkpoint 机制是如何工作的?如何优化 Checkpoint 的频率?

代码小李

Hadoop 的 Checkpoint 机制主要用于维护文件系统的元数据一致性,防止因 NameNode 故障导致的数据丢失。Checkpoint 主要通过 S...

8510

Hadoop 的写入路径和读取路径是如何设计的?它们在系统性能中起到什么作用?

代码小李

在 Hadoop 中,写入路径和读取路径的设计是 Hadoop 分布式文件系统(HDFS)的核心部分,它们对系统的性能和可靠性起着至关重要的作用。以下是 Had...

6410

Hadoop 中的 ACL(访问控制列表)机制是如何实现的?它对数据安全性有何保障?

代码小李

在 Hadoop 中,ACL(访问控制列表)机制用于控制用户对文件和目录的访问权限。Hadoop 的 ACL 机制通过扩展传统的 Unix 文件权限模型,提供了...

9210

在 Hadoop 中,如何管理集群中的元数据?如何优化 NameNode 的元数据存储?

代码小李

在 Hadoop 中,元数据管理主要集中在 NameNode 上。NameNode 负责存储文件系统的命名空间信息,包括目录结构、文件属性以及块的位置信息等。为...

7710

Hadoop 2.0:主流开源云架构(四)

Francek Chen

  以tar包方式部署时,其执行方式是HADOOP_HOME/bin/Hadoop,当以完全模式部署时,在终端直接执行hadoop。

5210

Hadoop 2.0:主流开源云架构(三)

Francek Chen

  Common的定位是其他模块的公共组件,定义了程序员取得集群服务的编程接口,为其他模块提供公用API。降低Hadoop设计的复杂性,减少了其他模块之间的耦合...

5910

Hadoop 2.0:主流开源云架构(二)

Francek Chen

  工业界称Hadoop 1.X及其以前的版本(0.23.X除外)为Hadoop 1.0,称Hadoop 2.X及其以后版本为Hadoop 2.0。

2800

Hadoop 2.0:主流开源云架构(一)

Francek Chen

  自从云计算的概念被提出,不断地有IT厂商推出自己的云计算平台,但它们都是商业性平台,对于想要继续研究和发展云计算技术的个人和科研团体来说,无法获得更多的...

6010

Hadoop 2.0 大家族(四)

Francek Chen

  Flume是一个分布式高性能、高可靠的数据传输工具,它可用简单的方式将不同数据源的数据导入某个或多个数据中心,典型应用是将众多生产机器日志数据实时导入HDF...

5500

Hadoop 2.0 大家族(三)

Francek Chen

  Hive是一个构建在Hadoop上的数据仓库框架,它起源于Facebook内部信息处理平台。Hive是一个构建在Hadoop上的数据仓库框架,它起源于Fac...

4900

Hadoop 2.0 大家族(二)

Francek Chen

  Hbase是基于Hadoop的开源分布式数据库,它以Google的BigTable为原型,设计并实现了具有高可靠性、高性能、列存储、可伸缩、实时读写的分...

4600

Hadoop 2.0 大家族(一)

Francek Chen

(1)Apache ZooKeeper:分布式、开源的协调服务。主要是用来解决多个分布式应用遇到的互斥协作与通信问题,大大简化分布式应用协调及其管理的难度。

6900

【大数据分析 | 深度学习】在Hadoop上实现分布式深度学习

Francek Chen

大数据和深度学习结合之路——在Hadoop上实现分布式深度学习(本质理解:搭好环境后可运行深度学习程序)

5200
领券