项目的登录接口 /User/loginPage
从凌晨4点到下午1点一直有5k QPS的流量在压,询问了所有的压测团队,并没有在进行压测。这么大的流量影响到了现网环境,需要立刻找到原因,关闭掉异常流量。
1. 关闭重启相关压测集群,所有能使用的集群全部重启一遍,并让合作方也确认下是否还在压测,一顿操作猛如虎,发现还是有异常流量。
2. 根据访问的IP查询,把所有的压测集群的公网IP以及个人操作电脑的公网IP都查了一遍,都没有找到这些IP。
3. 通过查询压测集群EIP,发现果然能找到那个IP,查看压测集群的外网出带宽也确实有17Mbps的流量。
4. 去查这个nat网关,发现绑定了135台机器,一个一个去查难度很大。
5. 发现这个IP关联了合作方的机器,然后就去看合作方的集群有没有什么异常。(他们有十几个集群),发现有如下的机器问题很大。
6. 查了下流量,发现内网出带宽流加起来有16Mbps,也可以对应的上。
7. 把这个集群关闭后,流量就下来了。
在有异常流量访问时,首先尽可能关闭掉所有压测集群,然后再根据流量访问的IP进行排除流量出处,在实践的过程中,发现单通过查询公网IP的方式去排查异常流量IP还不够全面,有可能对应不上,还需要通过查看压测集群EIP的方式去排查,查看IP有关联哪些熟悉的压测集群,再查看压测集群状态是否异常,从而判断是哪个压测集群导致流量异常。
在每次压测结束后,需要确认下压测机的流量是否关闭,服务器也要确认流量是否关闭。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。