
背景:有个证券客户POC,跟友商对比,业务队列积压、出结果有两三秒延迟
排除云硬盘、virtio驱动、pagefile、网卡receive buffer等方面后,看到业务小文件很多且defender在运行,就添加命令排除了下,然后复测正常
WinDefend排除业务路径,可参考https://cloud.tencent.com/developer/article/2195212
别看上面三两句简单简单就解决了,也是有一定的排查规律可循的,这里已经脱敏。
1、优先排查云盘情况,发现20GB增强型云盘吞吐打满130MB/s持续时间较长,导致积压,云盘延时五六十毫秒符合预期,引导用新代次机型搭配延时表现比较好的极速型云盘再测试下,看延时降低后业务表现是否会好转;
2、用新代次机型搭配极速型云盘测试、用之前的增强型云盘扩容到460G确保吞吐上限增加到350MB/s再次测试,业务表现依旧;了解业务瞬时小文件非常多的特点后,发现WinDefend在后台比较活跃,怀疑其干扰业务执行,添加排除业务路径后,业务压测恢复正常。
我平时排查复杂问题一般是这个思路:
1、云平台iaas层面、云平台组件层面先排除,比如母机、云盘等均已排除
2、禁用或卸载杀毒防护软件
包括第三方杀毒防护软件、操作系统自带的WinDefend、云平台的安全组件、各公司内部自研的安全软件等
3、autoruns查看开机运行的程序
4、粗略过滤不包含微软关键字的进程,逐步缩小排查范围排除无关应用或服务
powershell:粗略过滤不包含微软关键字的进程
Get-Process | Where-Object {$_.company -notlike '*Microsoft*'} | Select-Object Name, Description, Company | Sort-Object Company正好走到第2步就解决了
如果这样都没找出,那就按下图其他方向继续排查

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。