昨天频繁的收到MySQL实例关于Aborted告警邮件,看到告警邮件的实例信息,测试实例,优先级没没那么高,晚点抽空在看,可能到时候就好了,抱着侥幸的心理继续划水,但是没过1个小时,收到50多封告警邮件,实在受不了了,准备放下手头的事情优先处理该告警问题; 如下是告警邮件相关信息截图:
从告警看,是由于MySQL实例状态变量Aborted_connects不断增加导致的,正常情况下,该变量值应该保持0,但是现在在不断的累加,那么在什么情况下该状态值会不断的增加呢?这是解决该问题最先需要弄清楚的;
那么先看一下具体的现象:
Aborted_connects的值不断的增加,系统层面存在大量的TIME_WAIT状态的TCP连接,而且都来自于同一个IP地址,如下所示:
# netstat -tuplan | grep 4306 | grep TIME_WAIT | wc -l
1159
下面是部分tcp连接
......
tcp 0 0 192.168.7.xxx:4306 10.21.1.28:7586 TIME_WAIT -
tcp 0 0 192.168.7.xxx:4306 10.21.1.28:5198 TIME_WAIT -
tcp 0 0 192.168.7.xxx:4306 10.21.1.28:8314 TIME_WAIT -
tcp 0 0 192.168.7.xxx:4306 10.21.1.28:5076 TIME_WAIT -
tcp 0 0 192.168.7.xxx:4306 10.21.1.28:7610 TIME_WAIT -
tcp 0 0 192.168.7.xxx:4306 10.21.1.28:7962 TIME_WAIT -
tcp 0 0 192.168.7.xxx:4306 10.21.1.28:6546 TIME_WAIT -
tcp 0 0 192.168.7.xxx:4306 10.21.1.28:5354 TIME_WAIT -
tcp 0 0 192.168.7.xxx:4306 10.21.1.28:6596 TIME_WAIT -
tcp 0 0 192.168.7.xxx:4306 10.21.1.28:8342 TIME_WAIT -
tcp 0 0 192.168.7.xxx:4306 10.21.1.28:7184 TIME_WAIT -
tcp 0 0 192.168.7.xxx:4306 10.21.1.28:7476 TIME_WAIT -
tcp 0 0 192.168.7.xxx:4306 10.21.1.28:5994 TIME_WAIT -
tcp 0 0 192.168.7.xxx:4306 10.21.1.28:7322 TIME_WAIT -
tcp 0 0 192.168.7.xxx:4306 10.21.1.28:5340 TIME_WAIT -
tcp 0 0 192.168.7.xxx:4306 10.21.1.28:6798 TIME_WAIT -
实例层面可以看到,Aborted_connects的值不断的增加
mysql> show status like '%aborted%';
+------------------+-------+
| Variable_name | Value |
+------------------+-------+
| Aborted_clients | 4356 |
| Aborted_connects | 112524|
+------------------+-------+
2 rows in set (0.00 sec)
那么,先来看一下错误日志,看看错误日志中是否有相关记录,但是查看错误日志,并没有发现错误信息;感觉很疑惑;
接来下,我们先看一下在什么情况下Aborted_connects的值会不断的增加?
如下是官方文档针对该状态量的解释以及该变量不断增加可能产生的原因的说明:
Aborted_connects
The number of failed attempts to connect to the MySQL server.
If a client is unable even to connect, the server increments the Aborted_connects status variable. Unsuccessful connection attempts can occur for the following reasons:
从上面可以看到,如上的四种情况会导致该变量值不断增加:
但是从错误日志中并没有发现有用的信息,接下来,打开general_log来看一下数据库相关的操作信息,开启后,发现了新大陆,general_log日志中记录了大量如下的日志:
2021-11-18T09:16:19.234261Z 8328 Connect dev_test_rwh@10.21.1.28 on game_report_sg using SSL/TLS
2021-11-18T09:16:19.255753Z 8329 Connect dev_test_rwh@10.21.1.28 on game_report_sg using SSL/TLS
2021-11-18T09:16:19.352826Z 8330 Connect dev_test_rwh@10.21.1.28 on game_report_sg using SSL/TLS
2021-11-18T09:16:19.452269Z 8331 Connect dev_test_rwh@10.21.1.28 on game_report_sg using SSL/TLS
从该日志信息看,可以发现,从客户端10.21.1.28发起连接,通过dev_test_rwh账户连接数据库game_report_sg,但是可以发现,该账户却没有数据库game_report_sg的访问权限导致,那么正常情况,没有访问权限连接的客户端应该会会出现报错信息,于是连接业务人员查看相关连接情况,最终把该问题解决掉;