首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >大数据集群写数据流程原理分析

大数据集群写数据流程原理分析

作者头像
用户4128047
发布2025-12-23 16:37:49
发布2025-12-23 16:37:49
550
举报

写入数据流程,即客户端如何把数据写入hdfs集群,底层原理如下:

        右侧为hdfs集群,含有NameNode和DataNode节点,左侧为客户端准备把数据传送到集群,首先创建客户端(分布式的文件系统),创建好客户端后向NameNode请求,NameNode要进行两个方面的校验,

1.检查权限,即有没有权限写;

2.检查目录结构是否存在;

        检查完毕响应可以上传,请求上传第一个Block,请求返回DataNode,选择策略,副本存储节点选择:

1.本地节点;

2.其他机架节点;

3.其他机架另外一个节点;

返回三个节点,表示采用这三个节点存储数据;

        接下来创建数据流写数据,请求建立Block传输通道.数据写入一方面是写入磁盘,另外一方面在内存中的数据传输到下一个节点。流中的最小单位是packet(64k),写流时会创建缓冲队列,在缓冲队列里面存储了chunk512byte(字节)+chunksum4byte(校验位)=516byte,积累64k后就形成一个packet再发送到下一个datanode。都接收成功就会收到一个应答。

        在packet发送的时候,会存储缓冲数据,都应答成功后会删除,主要是为了发送不成功会使用备份数据下次再发。

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2025-12-23,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档