首页
学习
活动
专区
工具
TVP
发布

张师傅的博客

专栏成员
48
文章
42374
阅读量
12
订阅数
一起 MINIO(Go) 响应慢故障实录分析
前段时间我们边缘部署的 minio 出现下载和删除文件都很慢的问题,严重影响了相关业务功能,因此进行了分析和解决。本文记录了完整的分析过程, 涉及了以下几个方面:
挖坑的张师傅
2024-06-19
1050
一次完整的 DNS 访问故障分析实录
最近我们边缘集群服务遇到了一个 DNS 访问故障问题,现象是在边缘服务器上无法访问 DNS 服务器(10.7.0.1), 发出去的 DNS 请求包没有收到任何回应。
挖坑的张师傅
2024-06-19
550
基于 Rust 的高性能 RocketMQ Proxy 在希沃多云的实践
在当今的技术环境中,多云架构几乎成为了企业的标配。这种架构为企业提供了更多的选择和议价能力,有助于避免对单一供应商的依赖。同时,多云架构还能提高系统的高可用性,降低因单点故障带来的风险。然而,随之而来的是复杂性的增加。例如,在多云部署的情景中,以 RocketMQ 为例,可能会出现 producer 和 consumer 分布在不同云集群的情况。在这种场景下,位于 B 云的 consumer 可能无法接收到 A 云中 producer 生成的消息。
挖坑的张师傅
2024-01-12
3090
一次 Rancher go 应用内存占用过高问题排查
我们使用 Rancher、k3s 来跑边缘计算的集群,但 Rancher 的 agent 隔一段时间就内存占用过高,达到十几个 G,被 linux oom-kill 杀掉。
挖坑的张师傅
2024-01-05
2180
一次 GDB 源码角度分析 jvm 无响应问题
线上的服务小概率出现 jvm 启动阶段 hang 住,日志也不再继续输出。经过分析是 jvm 线程出现了死锁,且不是 java 代码层面的死锁,是出现在 C++ 层面的,大量线程 block。
挖坑的张师傅
2023-12-31
1820
一次 k3s 容器无法访问外网分析
k3s 边缘集群容器无法与外网建连,现象是发出去的 SYN 包没有收到回复 SYN+ACK 的包,但在物理机上一切正常,ping 和 curl 都可以成功。
挖坑的张师傅
2023-09-27
4220
一次 Dubbo 线程上下文类加载器的疑难杂症分析
有业务(Java)的同学反馈,在接入了 devops 的某些 javaagent 以后会极大概率出现 dubbo 调用失败,dubbo 接口中用到的业务类都提示找不到,导致反序列化失败,部分日志输出如下:
挖坑的张师傅
2023-03-03
7800
从源码角度分析一次诡异的类被加载问题
最近有同学在做 APM 链路监控发现了一个诡异的类被加载的问题,没有被调用到的函数里面用到的类,居然触发了类加载,于是结合 JVM 的源码做了一下分析,过程如下:
挖坑的张师傅
2023-03-03
8050
一次疑似 JVM Native 内存泄露的问题分析
最近开发同学反馈,某定时任务服务疑似有内存泄漏,整个进程的内存占用比 Xmx 内存大不少,而且看起来是缓慢上升的,做了下面这次分析,包括下面的内容:
挖坑的张师傅
2023-03-03
1.2K0
一次 Netty 不健壮导致的无限重连分析
这是上一篇文章的姊妹篇,也是由于 OOM 导致不健壮的 Netty 一系列诡异的行为,这次的问题分析会比上次那个更有意思一点。(备注:本文 Netty 版本是上古时代的 3.7.0.Final)
挖坑的张师傅
2023-03-03
7740
一次 Netty 代码不健壮导致的大量 CLOSE_WAIT 连接原因分析
我们线上有一个 dubbo 的服务,出现大量的 CLOSE_WAIT 状态的连接,这些 CLOSE_WAIT 的连接出现以后不会消失,这就有点意思了,于是做了一下分析记录如下。
挖坑的张师傅
2022-12-05
1K1
Java 17 升级指南
因为有太多人公众号偷转我的掘金文章,我还是发到公众号这里吧。 Java 8 是旧时代的 Java 6,还不快升级,😄。最近在做 Java8 到 Java17 的迁移工作,前期做了一些准备,过程中的一些信息记录如下(持续更新。。。https://juejin.cn/post/7117531586232320031 ) 分为几个部分: 编译相关 参数迁移相关 运行相关 编译相关 JEP 320 在 Java11 中引入了一个提案 JEP 320: Remove the Java EE and CORBA Mod
挖坑的张师傅
2022-12-05
9900
一次想不到的 Bootstrap 类加载器带来的 Native 内存泄露分析
最近我们线上有同学反馈,java 服务在接入了支持预发的 javaagent 以后会出现缓存的内存增长,去掉 agent 启动以后内存增长正常。于是分析了一下这个问题,写了这篇文章。
挖坑的张师傅
2022-12-05
9350
一次有趣的 DNS 导致 Node 服务故障问题分析实录
有一个部署 k3s 的边缘节点的机器,切到离线模式以后,有一个前端页面的部分请求接口异常了。node 部分的请求分为两类,一种是纯 node 的处理,一种是需要先 http 请求后端微服务的处理接口。现象是涉及 Node 请求后端 Java 服务的都 block 住了,纯 node 处理的请求都飞快返回了。
挖坑的张师傅
2022-12-05
7440
如何修改 Nginx 源码实现 worker 进程隔离
最近我们线上网关替换为了 APISIX,也遇到了一些问题,有一个比较难解决的问题是 APISIX 的进程隔离问题。
挖坑的张师傅
2022-12-05
6900
一些可以显著提高 Java 启动速度方法
我们线上的业务 jar 包基本上普遍比较庞大,动不动一个 jar 包上百 M,启动时间在分钟级,拖慢了我们在故障时快速扩容的响应。于是做了一些分析,看看 Java 程序启动慢到底慢在哪里,如何去优化,目前的效果是大部分大型应用启动时间可以缩短 30%~50%
挖坑的张师傅
2022-12-05
1.5K0
一次 Kafka 导致的 Sentry 无法处理 MiniDump 问题分析
业务反馈部署的 Sentry 系统处理 Electron 的 MiniDump 信息出现异常,界面提示。
挖坑的张师傅
2022-05-13
8290
记一次 Netty PR 的提交
为什么这里需要 9 个 long 型的 padding 来做 cache-line 的填充,为什么不是 8 个或者更少的用 7 个,比如大名鼎鼎的 Disruptor,它的缓存行填充方式如下
挖坑的张师傅
2022-05-13
2530
一次 APISIX 网关 503 的问题排查(DNS篇)
最近我们内网的 k8s 集群做了一次升级,发现经过 APISIX 网关服务都 503 异常了,于是做了一次分析。我们在内网和线上都采用了 APISIX 来做流量网关,对 APISIX 也贡献了 6 个 PR,所以对它的源码还算比较了解。下面排查过程比较曲折,情感上多次起伏,各位看官耐心看完。
挖坑的张师傅
2022-05-13
2.9K0
一次 Spring 无法启动的问题排查(字节码篇)
有同学反馈,有一个项目从 kotlin 1.2 升级到 kotlin 1.3 以后 Spring 项目无法启动,报 java.lang.IllegalStateException: Ambiguous mapping. Cannot map 'xxx' method 错误
挖坑的张师傅
2022-05-13
3300
点击加载更多
社区活动
AI代码助手快速上手训练营
鹅厂大牛带你玩转AI智能结对编程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档