首页
学习
活动
专区
工具
TVP
发布

大数据从业者

专栏成员
18
文章
3727
阅读量
14
订阅数
电力行业数据湖方案:Flink基于HiveCatalog增删改查Hudi实践攻略及TableNotPartitioned异常修复
本文主要记录电力行业客户数据湖技术架构演进遇到的问题,已有架构为FlinkSQL实时写入Hudi、Hive on Spark查询,现在准备引入FlinkSQL增删改查Hudi的流程,逐步去掉Hive on Spark流程。欢迎关注微信公众号:大数据从业者
用户9421738
2024-11-04
770
教育行业PyFlink整合FlinkML机器学习场景实践总结
本文主要记录教育行业高校PyFlink整合Flink ML的场景案例实践总结。PyFlink是可以使用Python语言开发Apache Flink的功能API,允许构建批或流任务、机器学习、ETL等场景,分为Table API和DataStreamAPI。
用户9421738
2024-10-25
1130
一文掌握教育行业FlinkCDC+Paimon实时湖仓案例实践总结
Paimon支持以多种形式FlinkCDC实时导入源端数据与元数据变更(schema evolution)到Paimon表中。也就是说源端增加列、不用重启Flink作业、可以自动识别实时导入到Paimon表。目前,Paimon支持的CDC形式包括:Mysql、Postgres、Kafka、Mongo、Pulsar。
用户9421738
2024-10-14
1380
电力行业数据湖技术方案Flink、Hudi、Hive on Spark案例全攻略记录及Hive查询MOR rt表异常修复
本文主要记录电力行业客户的数据湖技术方案实践案例,方案概括为基于FlinkSQL+Hudi流式入湖、同步表元数据到Hive,基于Hive catalog统一元数据管理,然后基于Hive on Spark离线分析计算。该方案主要考虑与已有Hive数据仓库、数据解析、报表应用等结合。欢迎关注微信:大数据从业者
用户9421738
2024-09-12
1160
行业客户现场SparkStreaming实时计算使用案例问题总结
虽然当前实时计算领域所有厂商都推荐Flink框架,但是某些传统行业客户因为多年固化的业务场景仍然坚持使用SparkStreaming框架。本文主要记录Spark概念架构、SparkStreaming性能问题处理、SparkStreaming 7*24作业在Kerberos Hadoop集群HDFS_DELEGATION_TOKEN问题处理。
用户9421738
2024-09-12
1470
Spark流计算Structured Streaming实践总结
Structured Streaming是基于Spark SQL引擎的可扩展、可容错流计算引擎。用户可以向使用批计算一样的方式使用流计算。Spark SQL持续增量计算流数据输出结果。目前支持多种开发语言Scala、Java、Python、R等等。通过checkpoint和wal机制确保端到端exactly-once语义。
用户9421738
2024-08-30
1430
厉害了!一文撕开Kafka Compact Topic神秘面纱
随着平台Kafka的对接客户越来越多,我发现很多人只知道Kafka Topic可以根据设置保存大小和保存时间触发数据清理机制,但是并不熟悉Kafka Topic另一种清理策略compact。遂有此文,本文主要介绍compact原理、相关配置、实践案例操作记录、相关源码分析等内容。欢迎关注微信公众号:大数据从业者
用户9421738
2024-08-06
1950
一文搞定现网项目最新版本Redis7集群800节点实践案例总结
截至目前本人接触到的最大Redis7集群节点规模已达800+,Redis官方宣称最大集群节点规模可达1000。本文以最小规模集群为例,进行完整的项目实践总结记录。欢迎关注微信公众号:大数据从业者
用户9421738
2024-08-01
1570
最新版本Kyuubi1.9.1 WebUI企业生产场景Basic LDAP安全认证实践案例总结
之前文章已记录如何使用Kyuubi整合Spark与Flink计算引擎及KyuubiUI的使用方法,感兴趣的朋友请自行阅读。本文属于姊妹篇,继续记录WebUI在企业生产环境的场景下,如何开启WebUI的Basic LDAP安全认证,该特性也是1.9.1版本引入。欢迎关注微信公众号:大数据从业者!
用户9421738
2024-07-02
3520
大数据统一SQL网关:最新版Kyuubi整合Flink、Spark方案的实践案例总结
Kyuubi最新版本已经发布,本文主要介绍基于Kyuubi SQL网关整合多计算引擎Flink和Spark实践案例总结。另外,翻看Release Notes发现Kyuubi Web UI功能增强,新增SQL编辑器,本文亦一并尝鲜实践记录。
用户9421738
2024-07-02
5820
一文掌握最新数据湖方案Spark+Hadoop+Hudi+Hive整合案例实践总结
大数据生态发展数年,各种组件版本迭代升级在所难免。组件之间、不同版本之间的适配整合升级,尤为重要。本文主要讲述当前火热的数据湖方案Spark+Hadoop+Hudi+Hive的适配整合案例总结。详细的组件版本信息如下:
用户9421738
2024-07-02
1700
干货!一文掌握通过网络抓包排查Kafka集群性能问题的实践总结
众所周知,Kafka是一个开源分布式事件流平台,尤其以高吞吐、低延迟著称,并且已经被数千家企业用于高性能数据管道、流分析、数据集成和核心业务应用程序。
用户9421738
2024-07-02
2940
惊呆!Flink开发者知识盲区:最新版Flink如何以Standalone运行模式部署到Yarn集群
这是个有趣的Flink资源管理的使用案例。随着业务需求的遍地开花和数据量的成倍增长,集团内部一个兄弟部门(姑且称为客户吧)现有的技术构架有点陈旧,已经无法支撑日常工作。经过调研论证,准备搭建大数据平台,计算引擎定为Flink。
用户9421738
2024-07-02
810
重磅好文!现场故障回顾:最新版Kafka数据过期未删除问题的源码深入剖析与终极解决方案总结
周五晚上电话轰炸,驻场人员反映某公安厅数据上报业务故障。究其原因是数据域Kafka集群不可用。经过排查发现虽然Kafka集群设置了3天数据过期时间(且Topic级别未单独设置别的过期时间)。按道理来说,数据只会保留3天左右。实际情况是很早之前已经过期的数据并未正常删除,造成集群多个节点磁盘爆满。
用户9421738
2024-07-02
2050
一次性完整剖析Kafka数据端到端延迟的详解总结
在线业务诸如欺诈检测、支付系统和股票交易平台等场景,要求Kafka数据高效可靠地传输。本文详细剖析Kafka数据传输端到端延迟的内容、在保证延迟指标的同时,通过配置和扩展业务程序获得更高吞吐量。
用户9421738
2024-07-02
1350
基于最新版本rocketmq制作docker镜像全攻略纪要
最近有个项目需要基于docker部署一个rocketmq集群。本文主要记录笔者如何根据官方工具自己动手制作最新版本rockermq的docker镜像。所谓官方工具可以通过github网站检索,具体地址:
用户9421738
2024-07-02
4260
如何基于radvd模拟IPv6玩转Keepalived实践详解
毫不夸张地说,IPv6地址数量可以覆盖地球上的每一粒沙子。IPV6优势显著,尤其是支持无状态的自动配置(Stateless Auto Configuration)技术。而IPv4自动配置必须依赖DHCP服务器完成,所以IPv4仅支持有状态的自动配置(Stateful Auto configuration)。IPv6路由器监听主机发送的自动配置请求包(RS包)、然后返回给主机包含IPv6地址前缀等信息的数据包(RA),主机接收到RA包、整合信息(如:IPv6地址前缀、主机MAC 地址等)生成自己的IPv6地址。
用户9421738
2024-07-02
1720
重磅利器:kafka-conect基于exactly-once语义实时同步Kafka到Clickhouse
本文详细讲述clickhouse-kafka-connect项目“有且仅有一次”语义的实现方案和案例实践总结。该项目基于Kafka connect框架和ClickHouse新特性KeeperMap(状态存储)、实现基于exactly-once语义的kafka数据实时同步到clickhouse的功能;该项目基于ClickHouse官网JavaAPI实现支持所有数据类型(包括复杂数据类型:Map/Tuple/Json等);该项目遵循Apache2.0 License。
用户9421738
2024-07-02
2240
没有更多了
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档