监控组件用途
监控组件需要提前安装到物理服务器中,安装后可提供性能监控、硬件故障监控、异常现象监控。
缺失影响
无法获取监控数据
无法定制告警消息,影响用户对设备情况的及时掌握。
无法主动发现硬件故障
无法由平台发现故障,需由用户识别故障,并报障处理。影响业务可用性时长。
监控信息配置
支持自定义告警阈值的指标包括(性能监控): CPU 使用率,CPU 平均负载,MEM 内存使用量,应用内存使用量,虚拟内存使用量,内存使用率,磁盘 IO 读流量,磁盘 IO 写流量,磁盘 IO 等待时间,磁盘 IO 的 CPU 使用率,磁盘 IO 的服务时间,磁盘空间使用率,网卡出带宽,网卡入带宽,网卡出包量,网卡入包量,外网出带宽,外网入带宽,外网出包量,外网入包量,外网出流量。
现象发生后触发的告警包括(异常现象监控):磁盘只读告警(某个逻辑盘不可写入,可能的原因是磁盘满或者文件系统故障等)。
较明确原因的硬件故障告警包括(硬件故障监控): 硬盘故障(有冗余),RAID 卡电池故障,RAID 卡缓存故障,硬盘故障(无冗余),硬盘即将故障(有冗余),硬盘故障(有冗余,槽位未知),电源故障(有冗余),风扇故障,硬盘故障(无冗余,在线换盘),SSD 硬盘故障(无冗余),网卡故障,内存故障,SSD 硬盘寿命耗尽(关机换盘)【表示需要关机换盘,否则存在极大风险】,SSD 硬盘温度过高(关机换盘),SSD硬盘坏块率过高(关机换盘),HBA 卡故障 ,操作系统硬盘故障(无冗余),主板故障 ,CPU 故障 ,电源故障(无冗余),硬盘即将故障(无冗余)。
说明
对于硬件故障告警,即使用户未在腾讯云可观测平台控制台进行告警配置,腾讯云可观测平台发现后,会有售后支持主动通知用户(通常是售后支持群)的流程保障硬件故障能及时跟进和处理;其他两类告警需要用户自行在腾讯云可观测平台控制台进行相应的配置。
监控组件安装(修复)指引
Linux 操作系统
下载:
wget http://mirrors.tencentyun.com/install/monitor_bm/AgentInstall.tgz
解压:
tar zxvf AgentInstall.tgz
安装:
cd AgentInstall;./setupagent.sh
验证:
执行
ps -ef |grep agenttools
命令,可以看到如下5个相关进程。[root@centos ~]# ps -ef |grep agenttoolsroot 3900 1 0 Jul10 ? 00:00:03 /usr/local/agenttools/agent/agent -c /usr/local/agenttools/agent/client.confroot 3907 1 0 Jul10 ? 00:00:00 /usr/local/agenttools/agent/agentPlugInDroot 3915 1 0 Jul10 ? 00:01:05 /usr/local/agenttools/agent/base -d5 -c1 -m4 -s /usr/local/agenttools/agent/base.confroot 3921 1 0 Jul10 ? 00:00:00 /usr/local/agenttools/agent/tcvmstatroot 3935 1 0 Jul10 ? 00:00:06 /usr/local/agenttools/agent/sysdddroot 41565 41419 0 15:50 pts/0 00:00:00 grep agenttools
Windows 操作系统
下载:
进入到黑石物理机 OS 内,并通过浏览器下载:
http://mirrors.tencentyun.com/install/monitor_bm/AgentInstall_win64.zip
解压:
将安装包解压成文件夹 win-agent,放到 C: 盘根目录下,目录结构为:
c:\\win-agent\\|--adssensor.dll|--agentplugin.dll|--agentRepNum.exe|--agentRepStr.exe……
安装
运行
C:\\win-agent\\uninstall.bat
,运行 C:\\win-agent\\setup.bat
验证:
1. 打开【我的电脑】,在地址栏输入 cmd,按 Enter。
2. 输入
netstat -ano
命令,按 Enter。即可看到连接远端9922端口。