hdfs - 标签 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

首页标签hdfs

#hdfs

HDFS 升级模式（Upgrade Mode）完整分析

zeekling 1天前2026-07-27 09:11:37

升级的本质是文件系统布局版本（Layout Version）的升级。每个 HDFS 版本定义了自己的 layoutVersion，升级时 NN 和 DN 的存储...

5710

Apache HDFS 小文件相关问题全景分析（2022 — 2026）

zeekling 8天前2026-07-20 09:19:08

分析：NN 内存压力是一个从 2022 年就提出但从未系统性解决的问题。HDFS-16726（Critical，Open）是症状性描述，"NN 有内存问题"——...

9910

HDFS × YARN × AI 交叉领域高质量论文分析（2021–2026）

zeekling 8天前2026-07-20 09:17:54

13810

HDFS & YARN 高质量论文分析报告（2021–2026）

zeekling 8天前2026-07-20 09:17:23

核心贡献：首次将 serverless functions 引入分布式文件系统元数据服务。通过 FaaS 优化的混合 RPC 机制（TCP+HTTP）、se...

9510

【赵渝强老师】Hadoop HDFS的回收站和快照

赵渝强老师 13天前2026-07-15 10:07:42

Hadoop的HDFS除了最基本的上传数据和下载数据的功能以外，还提供了很多高级特性用于方便使用和操作，主要有：回收站、快照、配额管理、安全模式、权限管理，同时...

8810

Every Day of a DBA，第141期:HDFS DataNode 块校验日志 dncp_block_verification.log.prev 的处理

用户3107127 19天前2026-07-09 16:06:23

服务器磁盘故障，未及时处理，导致其他节点的磁盘空间爆满，查看磁盘占用发现了该文件 dncp_block_verification.log.prevdncp_b...

8510

存算分离实时数据湖：从 HDFS 耦合架构向对象存储迁移实战

hollyx 21天前2026-07-07 10:55:00

摘要：本文介绍如何从传统 HDFS 耦合架构向对象存储迁移，构建存算分离的实时数据湖。基于腾讯云 EMR ，详解迁移方案与技术实现，助力企业降低大数据存储与计...

23810

HDFS 联邦管理策略：突破 NameNode 元数据瓶颈

gavin1024 22天前2026-07-06 18:00:04

摘要：本文介绍 HDFS 联邦管理策略的原理和配置方法，讲解如何通过多 NameNode 架构突破单 NameNode 元数据瓶颈，以及在 EMR 中配置 H...

16110

Flume Source channel Sink专题

wuzhigang 2026-06-182026-06-18 08:29:54

12410

HDFS DataNode 3.3.1 后优化详解

zeekling 2026-04-272026-04-27 09:09:25

本文系统梳理 Hadoop 3.3.1 之后（3.4.0 ~ 3.5.0）对 DataNode 的全部优化，涵盖性能优化、稳定性修复、新特性、监控增强和运维改进...

23010

运维必会！选型必备！主流分布式存储方案：HDFS、Ceph、MinIO 深度剖析

民工哥 2026-03-242026-03-24 12:39:14

前面我们介绍了有关对象存储的选型参考：主流对象存储方案大比拼：本地存储、OSS、MinIO、Ceph、Apache Ozone 与 OpenIO。

1.3K10

OpenClaw （养龙虾）+ 企业微信对接：2026年保姆级全链路操作指南

肥仔鱼 2026-03-112026-03-11 15:40:24

在2026年的企业数字化办公浪潮中，OpenClaw（曾用名 Clawdbot、Moltbot）已成长为国内领先的开源AI自动化代理工具。凭借其“自然语言驱动、...

8.8K121

HDFS从概念到实战详解：大数据分布式存储核心指南

1024068 2026-02-102026-02-10 13:47:20

在大数据时代，海量数据的存储的核心痛点的是“可靠、高效、可扩展”——单机文件系统无法承载TB/PB级数据，也难以应对硬件故障、高并发访问等场景。HDFS（Had...

75010

Sqoop实战指南：如何高效实现MySQL到HDFS的数据迁移

用户6320865 2026-01-202026-01-20 13:57:17

在当今数据驱动的商业环境中，数据仓库已成为企业决策的神经中枢。随着2025年企业数字化转型进入深水区，数据仓库架构正经历着从传统单一体到云原生、湖仓一体的重大演...

55210

HDFS写入数据流程

用户4128047 2025-12-232025-12-23 17:14:59

‌ 小文件合并‌：通过hdfs.rollSize等参数控制文件滚动生成，减少NameNode内存压力。

32900

数据节点下线

用户4128047 2025-12-232025-12-23 17:01:24

由于公司近期需要将机械盘替换成SSD盘,SSD盘又不足,需要下线部分数据节点.刚开始是直接粗暴的关掉了4个节点上的datanode服务,出现很多丢失的数...

13610

HIVE-17824,删除hdfs分区信息,清理metastore元数据

用户4128047 2025-12-232025-12-23 16:45:51

当手动删除HDFS 分区数据时,但是并没有清理 Hive 中的分区元数据,删除操作无法自动更新hive分区表元数据。也就是从hdfs中删除大量分...

46210

datanode无法启动问题

用户4128047 2025-12-232025-12-23 16:42:01

19210

集群数据均衡

用户4128047 2025-12-232025-12-23 16:31:54

对于参数 10，代表的是集群中各个节点的磁盘空间利用率相差不超过 10%，可根据实际情况进行调整。停止数据均衡命令：

18510

HDFS HA 高可用

用户4128047 2025-12-232025-12-23 16:23:15

HA 概述 1）所谓 HA（High Available），即高可用（7*24 小时不中断服务）。 2）实现高可用最关键的策略是消除单点故障。HA 严格来说...

29400