PT运维技术

从部署到实践，即刻拥有你的专属龙虾助手

OpenClaw开发者专区🦞🦞🦞

自行/邀约他人一键搬运博客，享价值百万资源包

腾讯云自媒体同步曝光计划

往期视频·干货材料·成员作品 最新动态

腾讯技术创作特训营知识专栏

新邀入驻腾讯云开发者社区，福利多多！

  周五下班时刻，开发人员跟我反馈有业务偶尔超时，但业务很长时间并未重现异常， 让开发者以网络抖动打发掉这些询问者(实在抽不开时间)。熟悉业务的人即将抽出调岗，新的同学刚入职时间不久，还不能非常熟练处理业务问题，这个时刻只能自己先顶上了。

记一次EKS troubleshoting问题

管理后台无法正常打开，如图所示，其他的同事一直处于这个状态，但其中一个同事可以正常打开。

又见MTU问题导致页面加载缓慢

          2月23日晚，业务方反馈应用有redis 超时现象，核心的服务也被波及到。

redis性能故障的思考

  周五的上午时候，被业务方同学喊过去解决技术问题。问题表象是：业务偶发http  502， 且一次502就会导致上游业务方修数据，因此急需解决这个问题。之前开发方大题描述过业务架构，但是笔者从来没有登陆过该业务的生产环境，具体的运维部署架构不太清楚。仅在沟通过程中，了解到业务全部部署在k8s集群中，502是发生在apisix 和后端pod之间:

502偶现故障的分析

       22日发生的cdn故障，对我们的业务产生严重影响(akamai应该为此赔偿客户损失)。由于故障发生在深夜，所以当时没有及时知晓故障，直到早上6点多才发现群里有处理故障信息，仔细阅读相关信息，发现已经是一个P-1故障。

记一次akamai CDN的故障

  过去的Kafka的一起故障，虽然这起规则没有引起业务上损失,但是故障后的复盘值得深思。故障表现出来的现象和真实原因相差甚远。（不要根据现象就轻易下结论）

从Kafka的故障引发的思考

      最近1-2周, 业务侧基于性能和一致性的需求，测试和验证基于sofa-jraft的框架。由于上线后事关生产环境的稳定性，于是加入调研jraft/raft相关领域调研，确保生产环境即使在极端情况下，也在我们考量的范围之内。

极端场景下jraft的验证

     随着时间和工作经历的沉淀，会所在的领域逐渐形成一系列解决问题的'套路', 高端的叫法：方法论。有了'套路'，就可以根据公司现状和组织特点建立相应的体系。

运维体系建设套路

      3月30日下班时间，一条业务线突发业务故障，业务方反馈用户无法访问。由于时间点比较特殊，DBA/开发/运维都在回家的途中，很难第一时间处理DB故障。20-30分钟后，DBA到家后，在抓取MySQL/OS等相关信息后，重启了数据库，问题得到解决。

DB一次卡顿的事后优化

     1周前的周四，中途被业务方拉过去解决一次DB故障。由于不太了解当时的业务场景，只是听DBA说数据库服务器数据分区的磁盘丢失(笔者从来没有经历过磁盘突然丢失的场景)，拿着同事的账号登录到发生故障的数据库服务器上，根据进程找到对应的磁盘目录，执行touch /data/mysql/abc, 可以正常执行，说明挂载的/data分区所在的文件系统是可以写的，MySQL命令行进入test库中，执行create table id_a(id int); 卡主， 在另外的一个mysql会话终端中，show processlist是可以正常执行的， show table|show databases都是可以正常执行。现象上看只要是DDL的语句执行均被阻塞，正当准备跟踪MySQL 的所有线程的时候，数据库进程已经被DBA 命令kill掉了。DBA重新挂载了一次/data分区后，启动数据库后，问题得到解决(这种做法大概率存在数据丢失，看后续分析)。

数据库磁盘分区真的丢失了？

前段时间，由于太多的因素造成redis故障, 负面影响较大。复盘后决定将内存超出内存一半就需要告警，便于运维人员及时介入处理。
网上这种redis规划内存预留一半的文章汗牛充栋(https://cloud.tencent.com/developer/article/1095192)。真实的情况下，真的需要预留下一半的内存吗？

搞清楚这个问题，需要弄清楚2个事情:
1. Redis bgsave/AOF重写的运行机制。
2. Linux下的进程内存分布以及redis内存管理机制。

先说问题1:
         1.redis跟内存相关的运行机制莫过于rdb持久化/AOF重写/内存剔除策略(高版本redis还存在着内存碎片整理的配置选项), 其中AOF重写和rdb持久化都属于fork子进程来完成的。本次就以rdb持久化为例，rdb的持久化可以由持久化的配置策略或者命令行bgsave或者主从全同步触发。redis在做bgsave的时候，fork出子进程来做bgsave。具体的过程如下:
rdbSaveBackground()中fork子进程 ---> rdbSave() ---> rdbSaveRio()。fork后子进程拥有和父进程一模一样的进程空间，虽然采用了COW机制(父子进程的虚拟内存指向相同的物理page)，但是ps或者top命令中的RSS显示的值都会算成自己进程所占的物理内存，这个可能是很多运维同学/DBA同学经常可以眼见的现象，恐怕这个就是潜意识里需要内存预留一半的重要因素。

规划Redis真的需要预留一半内存？

         在使用openresty(1.13.6.2)中使用lua对业务方的token进行加解密的时候，发现AES加密出来的结果和java/python有一定的出入，openresty lua 通过AES加密得到的结果比java/python的多出一串字符串。反之，正常加密串无法解密。

openresty  LUA的ase加密的坑

        在业务灰度环境交付后，QA同事通过windows  拨号自建V**线路方式去访问该环境(通过v**线路分流/区域解析)，可以正常测试国内的N个业务的接口，但无法通过v**线路访问www.sina.com.cn，然后试着访问海外的业务接口（不同机房），打开非常缓慢，于是尝试各种站点【百度， 腾讯视频，支付宝等】。发现有的可以打开，有的无法打开，有的第一次打开很慢，第二次打开很快。

一次HTTPS请求缓慢的原因定位

 nginx-gateway部署在公有云 A, 业务测试服务器部署在办公区机房B,   公有云region A 和 办公区机房 B通过soft V**互连。B机房中有不同类型的应用服务器【nodejs,java(tomcat)】做nginx-gateway的后端upstream节点。nginx-gateway编译安装了ngx_http_upstream_check_module插件，ngx_http_upstream_check_module用于做后端upstream节点的健康监测, healthcheck为每个upstream的后端节点配置有一个raise_counts/fall_couts状态的计数器。业务方同事反馈:从外部访问内部某些应用有概率出现超时, 经观察, nodejs,java(tomcat)的raise_counts计数器概率性地重置为0， 

TCP?HTTP? 不同类型探测的引发的坑

  线上环境OS为centos7.6 x64, DBA 在机房演练MHA故障切换，但每次切换脚本执行失败。

MHA故障failover执行不成功的背后的大坑

  内部开发环境OS为centos6.8 x64,  请求第三方接口非常缓慢，应用报超时错误。

第三方服务接口响应慢的深入分析

从23:35到次日早上07:30, 偶尔收到10.205.1.26/10.205.1.27服务器报警:
 告警06:57:30 on 10.205.0.1.26 项目: Zabbix agent on 10.205.1.26 is unreachable for 5 minutes 详情:Agent ping:Down (1)

应用业务偶尔报500错误的原因定位

 同事反映在AWS的s3增加自定义header: Content-Encoding:gzip后，通过AWS 的cdn(cloudfront)加速后，chrome浏览器发现无法打开。

CDN故障案例content-encoding深入分析

文章

问答

视频

教程

学习中心

腾讯云实验室

直播

竞赛

腾讯云代码分析专区

腾讯iOA零信任安全管理系统专区

腾讯云架构师技术同盟交流圈

腾讯云数据库专区

腾讯云智能顾问专区

腾讯云原生专区

腾讯混元专区

腾讯云TCE专区

腾讯云Lighthouse专区

腾讯云HAI专区

腾讯云Edgeone专区

腾讯云存储专区

腾讯云智能专区

腾讯轻联专区 

腾讯云开发专区

TAPD专区

腾讯轻量云游戏服专区

EdgeOne AI 安全实战专区

腾讯云最具价值专家

腾讯云架构师技术同盟

腾讯云创作之星

腾讯云开发者先锋

腾讯云代码助手

云原生构建

TAPD 敏捷项目管理

Cloud Studio

SDK中心

API中心

命令行工具

涵盖代码开发、场景应用、自动测试全流程，助你从零构建专属AI助手

一站式MCP教程库，解锁AI应用新玩法

聚焦“写作效率、视觉美观与运行性能”三方面进行全面升级，为您提供更高效、稳定的创作环境

社区富文本&Markdown编辑器全新改版上线，欢迎大家体验!

诚挚邀请您参与本次调研，分享您的真实使用感受与建议。您的反馈至关重要，感谢您的支持与参与！

社区新版编辑器体验调研

腾讯云开发者社区推出了PT运维技术专栏，为你提供了PT运维技术的相关文章，致力于帮助开发者快速成长与发展。

PT运维技术

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐