首页
学习
活动
专区
圈层
工具
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

#hadoop

Apache Hadoop是一款支持数据密集型分布式应用程序并以Apache 2.0许可协议发布的开源软件框架。它支持在商品硬件构建的大型集群上运行的应用程序。

Apache Hadoop HDFS 架构

jack.yang

HDFS(Hadoop Distributed File System)是Hadoop核心组成之一,是分布式计算中数据存储管理的基础,被设计成适合运行在通用硬件...

8810

基于DeepSeek + VSCode 实现AI辅助编程

wayn

之后Cline认为代码编写完成,可以使用maven直接打包,并用hadoop指令运行,但这时候遇到了一个问题,我并没有配置hadoop的环境变量(也就是说用ha...

13910

azkaban3.84.4 部署

码农GT038527

9220

基于Hadoop的统一数据服务层演进与Hudi技术的前世今生

用户9421738

随着Apache Parquet和Apache ORC等存储格式以及Presto和Apache Impala等查询引擎的发展,Hadoop生态系统有潜力成为容忍...

4000

Ambari EDP 大数据集群部署手册

create17

链接:https://pan.baidu.com/s/1M5SAVrL1DIy-dprE0g4OGA?pwd=b8hu

12910

【技术革新】告别AMS,拥抱Prometheus:Ambari监控系统的现代化之路

create17

在经历了多年的 Ambari Metrics System (AMS) 痛点后,EDP 团队终于对 Ambari 的监控系统进行了一次彻底的改造。这次升级不仅仅...

8410

【技术革新】当古老的Ambari Metrics遇上现代监控:我们如何重构一个停滞不前的监控系统

create17

在大数据领域,Apache Ambari作为一款成熟的集群管理工具已服务多年。然而,随着时间推移,它内置的监控系统——Ambari Metrics System...

5800

HDFS元信息管理的核心技术与实现

童子龙

HDFS(Hadoop Distributed File System)是大数据领域中一种核心分布式文件系统,以高可靠性和高扩展性为特点,为海量数据存储提供了高...

19520

container-executor 详解

zeekling

container-executor 是NodeManager管理Container很重要的一个工具,是深入学习Yarn作业调度不可缺少的一个知识点,值得深入学...

9200

Hadoop入门介绍

Power

(3) 高效率(Efficient):通过分发计算程序,hadoop可以在数据所在节点上(本地)并行地(parallel)处理他们,这使得处理非常的迅速

16210

Hadoop伪分布式系统搭建

Power

17310

【赵渝强老师】史上最详细:Hadoop HDFS的体系架构

赵渝强老师

在Hadoop HDFS的体系架构中,包含了三个组成部分。它们分别是:NameNode、DataNode和SecondaryNameNode。下图摘至Hadoo...

12110

数据炼金术:从原始数据到商业洞察的五个关键步骤

Echo_Wish

当你在电商平台搜索"运动鞋"时,系统瞬间推荐了3款你可能喜欢的商品——这背后正是大数据分析在施展魔法。但鲜为人知的是,从原始数据到商业洞察的转化过程,就像炼金术...

6200

Hadoop 概述

丘山水工

1)Hadoop创始人Doug Cutting,为 了实 现与Google类似的全文搜索功能,他在Lucene框架基础上进行优化升级,查询引擎和索引引擎。

6100

Hadoop 的 Checkpoint 机制是如何工作的?如何优化 Checkpoint 的频率?

代码小李

Hadoop 的 Checkpoint 机制主要用于维护文件系统的元数据一致性,防止因 NameNode 故障导致的数据丢失。Checkpoint 主要通过 S...

11010

Hadoop 的写入路径和读取路径是如何设计的?它们在系统性能中起到什么作用?

代码小李

在 Hadoop 中,写入路径和读取路径的设计是 Hadoop 分布式文件系统(HDFS)的核心部分,它们对系统的性能和可靠性起着至关重要的作用。以下是 Had...

8610
领券
首页
学习
活动
专区
圈层
工具