腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
文章/答案/技术大牛
搜索
搜索
关闭
发布
首页
学习
活动
专区
圈层
工具
返回腾讯云官网
PT运维技术
专栏成员
举报
18
文章
29307
阅读量
12
订阅数
订阅专栏
申请加入专栏
全部文章(18)
nginx(6)
node.js(5)
编程算法(5)
linux(4)
运维(4)
java(3)
unix(3)
tcp/ip(3)
html(2)
云数据库 Redis®(2)
文件存储(2)
爬虫(2)
dns(2)
cdn(2)
socket编程(2)
安全(2)
DNS 解析 DNSPod(1)
c++(1)
python(1)
bash(1)
云数据库 SQL Server(1)
sql(1)
git(1)
api(1)
tomcat(1)
bash 指令(1)
SSL 证书(1)
http(1)
kubernetes(1)
存储(1)
分布式(1)
缓存(1)
网络安全(1)
ssh(1)
面向对象编程(1)
zabbix(1)
https(1)
sas(1)
kafka(1)
ipv6(1)
搜索文章
搜索
搜索
关闭
记一次EKS troubleshoting问题
node.js
linux
安全
nginx
tcp/ip
周五下班时刻,开发人员跟我反馈有业务偶尔超时,但业务很长时间并未重现异常, 让开发者以网络抖动打发掉这些询问者(实在抽不开时间)。熟悉业务的人即将抽出调岗,新的同学刚入职时间不久,还不能非常熟练处理业务问题,这个时刻只能自己先顶上了。
richard.xia_志培
2022-11-30
932
0
又见MTU问题导致页面加载缓慢
nginx
git
文件存储
管理后台无法正常打开,如图所示,其他的同事一直处于这个状态,但其中一个同事可以正常打开。
richard.xia_志培
2022-11-30
1.1K
0
redis性能故障的思考
云数据库 Redis®
运维
2月23日晚,业务方反馈应用有redis 超时现象,核心的服务也被波及到。
richard.xia_志培
2022-06-14
976
0
502偶现故障的分析
node.js
安全
nginx
socket编程
kubernetes
周五的上午时候,被业务方同学喊过去解决技术问题。问题表象是:业务偶发http 502, 且一次502就会导致上游业务方修数据,因此急需解决这个问题。之前开发方大题描述过业务架构,但是笔者从来没有登陆过该业务的生产环境,具体的运维部署架构不太清楚。仅在沟通过程中,了解到业务全部部署在k8s集群中,502是发生在apisix 和后端pod之间:
richard.xia_志培
2022-06-14
2.7K
0
记一次akamai CDN的故障
dns
cdn
分布式
编程算法
22日发生的cdn故障,对我们的业务产生严重影响(akamai应该为此赔偿客户损失)。由于故障发生在深夜,所以当时没有及时知晓故障,直到早上6点多才发现群里有处理故障信息,仔细阅读相关信息,发现已经是一个P-1故障。
richard.xia_志培
2022-06-14
885
0
从Kafka的故障引发的思考
运维
node.js
kafka
过去的Kafka的一起故障,虽然这起规则没有引起业务上损失,但是故障后的复盘值得深思。故障表现出来的现象和真实原因相差甚远。(不要根据现象就轻易下结论)
richard.xia_志培
2022-06-14
494
0
极端场景下jraft的验证
java
tcp/ip
unix
最近1-2周, 业务侧基于性能和一致性的需求,测试和验证基于sofa-jraft的框架。由于上线后事关生产环境的稳定性,于是加入调研jraft/raft相关领域调研,确保生产环境即使在极端情况下,也在我们考量的范围之内。
richard.xia_志培
2022-06-14
1.1K
0
运维体系建设套路
运维
随着时间和工作经历的沉淀,会所在的领域逐渐形成一系列解决问题的'套路', 高端的叫法:方法论。有了'套路',就可以根据公司现状和组织特点建立相应的体系。
richard.xia_志培
2022-06-14
1.4K
0
DB一次卡顿的事后优化
面向对象编程
爬虫
linux
云数据库 SQL Server
sql
3月30日下班时间,一条业务线突发业务故障,业务方反馈用户无法访问。由于时间点比较特殊,DBA/开发/运维都在回家的途中,很难第一时间处理DB故障。20-30分钟后,DBA到家后,在抓取MySQL/OS等相关信息后,重启了数据库,问题得到解决。
richard.xia_志培
2022-06-14
1.4K
0
数据库磁盘分区真的丢失了?
存储
sas
html
node.js
unix
1周前的周四,中途被业务方拉过去解决一次DB故障。由于不太了解当时的业务场景,只是听DBA说数据库服务器数据分区的磁盘丢失(笔者从来没有经历过磁盘突然丢失的场景),拿着同事的账号登录到发生故障的数据库服务器上,根据进程找到对应的磁盘目录,执行touch /data/mysql/abc, 可以正常执行,说明挂载的/data分区所在的文件系统是可以写的,MySQL命令行进入test库中,执行create table id_a(id int); 卡主, 在另外的一个mysql会话终端中,show processlist是可以正常执行的, show table|show databases都是可以正常执行。现象上看只要是DDL的语句执行均被阻塞,正当准备跟踪MySQL 的所有线程的时候,数据库进程已经被DBA 命令kill掉了。DBA重新挂载了一次/data分区后,启动数据库后,问题得到解决(这种做法大概率存在数据丢失,看后续分析)。
richard.xia_志培
2022-06-14
1.1K
0
规划Redis真的需要预留一半内存?
云数据库 Redis®
unix
linux
c++
编程算法
前段时间,由于太多的因素造成redis故障, 负面影响较大。复盘后决定将内存超出内存一半就需要告警,便于运维人员及时介入处理。 网上这种redis规划内存预留一半的文章汗牛充栋(https://cloud.tencent.com/developer/article/1095192)。真实的情况下,真的需要预留下一半的内存吗? 搞清楚这个问题,需要弄清楚2个事情: 1. Redis bgsave/AOF重写的运行机制。 2. Linux下的进程内存分布以及redis内存管理机制。 先说问题1: 1.redis跟内存相关的运行机制莫过于rdb持久化/AOF重写/内存剔除策略(高版本redis还存在着内存碎片整理的配置选项), 其中AOF重写和rdb持久化都属于fork子进程来完成的。本次就以rdb持久化为例,rdb的持久化可以由持久化的配置策略或者命令行bgsave或者主从全同步触发。redis在做bgsave的时候,fork出子进程来做bgsave。具体的过程如下: rdbSaveBackground()中fork子进程 ---> rdbSave() ---> rdbSaveRio()。fork后子进程拥有和父进程一模一样的进程空间,虽然采用了COW机制(父子进程的虚拟内存指向相同的物理page),但是ps或者top命令中的RSS显示的值都会算成自己进程所占的物理内存,这个可能是很多运维同学/DBA同学经常可以眼见的现象,恐怕这个就是潜意识里需要内存预留一半的重要因素。
richard.xia_志培
2022-06-14
1.7K
0
openresty LUA的ase加密的坑
nginx
python
编程算法
java
在使用openresty(1.13.6.2)中使用lua对业务方的token进行加解密的时候,发现AES加密出来的结果和java/python有一定的出入,openresty lua 通过AES加密得到的结果比java/python的多出一串字符串。反之,正常加密串无法解密。
richard.xia_志培
2022-06-14
4.1K
0
一次HTTPS请求缓慢的原因定位
网络安全
tcp/ip
https
api
SSL 证书
在业务灰度环境交付后,QA同事通过windows 拨号自建V**线路方式去访问该环境(通过v**线路分流/区域解析),可以正常测试国内的N个业务的接口,但无法通过v**线路访问www.sina.com.cn,然后试着访问海外的业务接口(不同机房),打开非常缓慢,于是尝试各种站点【百度, 腾讯视频,支付宝等】。发现有的可以打开,有的无法打开,有的第一次打开很慢,第二次打开很快。
richard.xia_志培
2022-06-14
1.8K
0
TCP?HTTP? 不同类型探测的引发的坑
node.js
nginx
java
tomcat
http
nginx-gateway部署在公有云 A, 业务测试服务器部署在办公区机房B, 公有云region A 和 办公区机房 B通过soft V**互连。B机房中有不同类型的应用服务器【nodejs,java(tomcat)】做nginx-gateway的后端upstream节点。nginx-gateway编译安装了ngx_http_upstream_check_module插件,ngx_http_upstream_check_module用于做后端upstream节点的健康监测, healthcheck为每个upstream的后端节点配置有一个raise_counts/fall_couts状态的计数器。业务方同事反馈:从外部访问内部某些应用有概率出现超时, 经观察, nodejs,java(tomcat)的raise_counts计数器概率性地重置为0,
richard.xia_志培
2022-06-14
978
0
MHA故障failover执行不成功的背后的大坑
ssh
linux
bash
bash 指令
爬虫
线上环境OS为centos7.6 x64, DBA 在机房演练MHA故障切换,但每次切换脚本执行失败。
richard.xia_志培
2022-06-14
577
0
第三方服务接口响应慢的深入分析
DNS 解析 DNSPod
ipv6
编程算法
缓存
dns
内部开发环境OS为centos6.8 x64, 请求第三方接口非常缓慢,应用报超时错误。
richard.xia_志培
2022-06-14
3.4K
0
应用业务偶尔报500错误的原因定位
运维
zabbix
socket编程
nginx
从23:35到次日早上07:30, 偶尔收到10.205.1.26/10.205.1.27服务器报警: 告警06:57:30 on 10.205.0.1.26 项目: Zabbix agent on 10.205.1.26 is unreachable for 5 minutes 详情:Agent ping:Down (1)
richard.xia_志培
2022-06-14
2.3K
0
CDN故障案例content-encoding深入分析
文件存储
cdn
html
编程算法
同事反映在AWS的s3增加自定义header: Content-Encoding:gzip后,通过AWS 的cdn(cloudfront)加速后,chrome浏览器发现无法打开。
richard.xia_志培
2022-06-14
2.4K
0
没有更多了
社区活动
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·干货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档