大数据从业者

从部署到实践，即刻拥有你的专属龙虾助手

OpenClaw开发者专区🦞🦞🦞

自行/邀约他人一键搬运博客，享价值百万资源包

腾讯云自媒体同步曝光计划

往期视频·干货材料·成员作品 最新动态

腾讯技术创作特训营知识专栏

新邀入驻腾讯云开发者社区，福利多多！

省级政务中心IT统计管理实时计算资源，以共享Flink集群的方式提供给分管的下属地市。上线接近一年之久，客户反馈通过yarn-session模式启动的Flink集群JobManager出现故障：基于webui上传jar方式执行任务失败，堆栈提示内存溢出的异常(java.lang.OutOfMemoryError: Compressed class space)。本文从故障异常入手，基于JDK内存模型、排查JDK内存参数解决内存溢出的问题，最后总结常用的排查工具集，详见正文。笔者文章只发布微信公众号:大数据从业者

省级政务行业IT部门实时计算共享Flink集群JobManager内存故障排查实践总结

最近一周时间研发接连收到多个政务行业局点现场人员反馈，需要分析修复Kafka最近曝出的高危漏洞。笔者查阅Openwall和CVE，发现2025年06月09日确实有三个Kafka高危漏洞，详细列表如下：

重磅补丁：政企行业Kafka曝出重大高危安全漏洞的修复说明

前几天写过一篇关于排查Flink写ES作业堆外内存OOM故障分析的文章，其中提到堆外内存的跟踪监控方法，有朋友微信联系咨询相关技术。本文总结了大数据场景经常遇到的堆外内存溢出用到的五种常用跟踪监控方法的实践记录，希望能够帮助开发者诊断和优化JVM 内存性能。

高级技能包：JVM Non-Heap堆外内存跟踪监控的五种工具实践总结

高并发应用程序通常需要大量内存，而如何管理这些内存确实是个难题，JDK 11 引入ZGC垃圾收集器来解决这个难题，JDK15已达到生产级别。

ZGC 入门简介：可扩展低延迟 JVM 垃圾收集器

大家好，经过一个月的内测，我们昨天刚刚开源了一款 AI 驱动的 Wiki 项目，叫做 PandaWiki。

我们开源了一款 AI 驱动的 Wiki 知识库

春节前期南方政务某现场搭建了大规模100节点ES集群。最近开始上线新业务流程:FlinkCDC将业务数据库日志写入Kafka，然后Flink消费Kafka数据写入ES集群。新业务流程上线以后不能长时间稳定运行，差不多每隔24H都会失败重启。本文从异常日志出发，虽然中间走了弯路，最终定位清楚解决故障现象。

南方政务行业Flink写入大规模ES集群(100节点)故障问题定位解决

五一假期某局点高速龙门架计费业务瘫痪，ISV定位之后反馈业务系统模块存在Flink写Kafka失败的问题。具体的异常日志如下：

Kafka磁盘故障leader不切换致命级Bug:交通行业TOP10客户Flink实时结算业务P0级故障修复回溯总结

大数据实时计算平台Flink引擎以Application模式运作在Yarn集群，在使用租户权限管理的过程中，遇到任务提交失败的异常，详细堆栈如下：

Flink自研特性: yarn application运行模式租户权限与yarn本地化资源可见性整合实践总结

Apache Ambari项目初期旨在通过开发用于配置、管理、监控Hadoop集群的软件，使Hadoop集群管理更加简洁方便。因为Ambari灵活的插件化设计机制，现在已经广泛用于支持更多其他大数据组件的管理，用户可以根据需要自定义组件。Amabri提供直观且便于使用的Web管理界面，也提供RESTful API支持。

大数据管理平台Ambari3.0最新版本二次开发入门实践指南

Apache Kafka 4.0 是一个重要的里程碑，标志着首个完全剔除 Apache ZooKeeper® 即可运行的重大版本发布。通过KRaft 模式运行，Kafka 简化部署和管理工作，消除维护独立 ZooKeeper 集群的复杂性，打破ZooKeeper自身缺陷造成Kafka集群规模的限制。欢迎关注微信公众号：大数据从业者

重磅里程碑：Kafka4.x生产级集群部署、扩容、缩容实践案例总结记录

Apache Spark 于 2013 年开源，至今仍是最受欢迎且功能强大的计算引擎之一。然而，使用Spark也面临着挑战，诸如缩容、数据倾斜和内存溢出等问题。本文基于大规模Spark任务积累的经验，介绍一些技巧以规避可能遇到的常见陷阱，推荐最佳实践。

实战经验：Apache Spark性能调优的五大秘诀

数据重复一直是数据工程的难题，影响存储成本、查询性能和数据完整性。本文介绍湖仓架构中数据重复是如何在数据摄入、存储合并和表管理等环节出现的，并探究像Hudi这类开放表格式所提供的原生去重策略。

深度好文：开放湖仓架构Hudi、Iceberg、Delta Lake的数据去重策略

聚类是一种存储优化方法，适用于诸如 Apache Hudi、Apache Iceberg 和 Delta Lake 等开源表格式，核心目标是解决数据摄入顺序（如数据到达时间）与查询访问（如事件时间）之间的不一致问题。通过基于频繁查询的字段来组织数据，实现存储优化，使查询引擎能够更有针对性地访问数据。欢迎关注微信公众号：大数据从业者

深度好文：三大主流数据湖格式Hudi、Iceberg、Delta Lake的数据聚类技术对比详解

Apache Hudi最初由Uber于2016年开发，旨在构建一个事务型数据湖，以快速可靠地处理数据更新，支持其网约车平台的高速增长。如今，Hudi已被行业广泛用于构建超大规模数据湖，成为管理动态数据环境的首选方案。其核心设计之一是通过记录级元数据追踪数据变更。然而，这一独特设计也常引发争议，因此有必要深入理解这些元字段的价值与存储成本。本文将详细解析Hudi的五大记录级元字段及其对工作负载的实际意义。

Apache Hudi深度揭秘：记录级元数据字段的价值与存储成本

随着Apache Parquet和Apache ORC等存储格式以及Presto和Apache Impala等查询引擎的发展，Hadoop生态系统有潜力成为容忍几分钟延迟的通用统一服务层。然而，这需要Hadoop分布式文件系统（HDFS）实现高效低延迟的数据摄入和准备。

基于Hadoop的统一数据服务层演进与Hudi技术的前世今生

根据客户现场运维人员反馈新上的某业务对应的Flink作业经常定期异常退出，已有的历史Flink作业并没有这种现象。排查过JobManager日志提示心跳超时，现场人员曾经多次尝试调大过超时时间。但是，问题仍旧存在，日志如下：

奇葩现象！零负载场景电力行业线上Flink作业必现TaskManager内存溢出超分被杀原生bug问题排查

你是否遇到过这么一个需求场景？当数据平台跨地域环境或者平台多版本并存需要数据透传时，怎么实现Kafka集群间多Topic数据同步呢。除了Kafka官方提供的集群双活方案MirrorMaker(即MMv2)之外，新版本FlinkSQL新特性支持一条SQL实现Kafka集群间多Topic自动数据透传、不限制Topic数据格式。

Flink新特性:一条SQL实现Kafka集群间多Topic非结构化数据自动透传同步方案实践总结

现场大数据项目Kafka组件大多数使用的语言集中在Java、Python、Go、C++。最近现场需求使用Erlang对接，遂有本文。Erlang是一种函数式并发编程语言，专为高并发、分布式、高容错的实时系统设计。rebar3是Erlang生态的标准构建工具，解决Erlang原生开发中依赖管理、编译流程、测试运行等环节的碎片化问题，类似于Java的Maven。

五分钟入门Erlang语言基于brod类库实现操作Kafka案例总结

目前gluten支持两种backend：clickhouse和velox，本文实践基于gluten与clickhouse组合方式。

Gluten肝货：Spark Native加速技术完整实践案例总结

某传统IT客户系统架构重度使用Flink技术栈，早期主要使用standalone集群模式。随着企业数字化改革，公司服务器资源统一纳管。现在迁移为yarn-session集群模式，依然通过Jar方式进行批处理业务开发。实际使用过程中发现yarn-session集群一直运行中，但是之前通过web上传的Jar丢失了。针对上述现象，本文进行了问题复现和源码增强修复。欢迎关注微信公众号：大数据从业者

Flink自研新特性：yarn-session集群WebUI支持Jar持久化到HDFS实践总结

文章

问答

视频

教程

学习中心

腾讯云实验室

直播

竞赛

腾讯云代码分析专区

腾讯iOA零信任安全管理系统专区

腾讯云架构师技术同盟交流圈

腾讯云数据库专区

腾讯云智能顾问专区

腾讯云原生专区

腾讯混元专区

腾讯云TCE专区

腾讯云Lighthouse专区

腾讯云HAI专区

腾讯云Edgeone专区

腾讯云存储专区

腾讯云智能专区

腾讯轻联专区 

腾讯云开发专区

TAPD专区

腾讯轻量云游戏服专区

EdgeOne AI 安全实战专区

腾讯云最具价值专家

腾讯云架构师技术同盟

腾讯云创作之星

腾讯云开发者先锋

腾讯云代码助手

云原生构建

TAPD 敏捷项目管理

Cloud Studio

SDK中心

API中心

命令行工具

涵盖代码开发、场景应用、自动测试全流程，助你从零构建专属AI助手

一站式MCP教程库，解锁AI应用新玩法

聚焦“写作效率、视觉美观与运行性能”三方面进行全面升级，为您提供更高效、稳定的创作环境

社区富文本&Markdown编辑器全新改版上线，欢迎大家体验!

诚挚邀请您参与本次调研，分享您的真实使用感受与建议。您的反馈至关重要，感谢您的支持与参与！

社区新版编辑器体验调研

腾讯云开发者社区推出了大数据从业者专栏，为你提供了大数据从业者的相关文章，致力于帮助开发者快速成长与发展。

大数据从业者

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐