简介
云服务器指标数据采集依赖于监控 Agent。 若您没法正常获取监控指标数据,请参见本文排查故障。
建议您首先根据 安装监控组件 重新安装监控 Agent,并等待3分钟查看监控数据是否恢复。若安装遇到问题或监控数据未恢复,请阅读下文详细排查。
故障原因及处理方法
处理步骤
步骤一:检查是否安装监控组件 Agent 或是否启动 Agent
Linux 和 Windows 未安装监控 Agent 或未启动 Agent 的排查步骤不一致,详情请参见下文。
1. 执行以下命令,查看 Agent 是否安装成功:
crontab -l |grep stargate
2. 检查 Agent 是否运行正常
执行以下命令,查看 Agent 是否正常运行:
ps ax | grep sgagentps ax | grep barad_agent
若如图所示则运行正常(注意barad_agent 进程数为3个):
若无显示或进程数量不符,则说明 Agent 异常,请以 root 账号执行以下命令启动 Agent ,提示stargate agent run succ
和barad_agent run succ
,表示重启成功。cd /usr/local/qcloud/stargate/admin./restart.shcd /usr/local/qcloud/monitor/barad/admin./stop.sh./trystart.sh
说明
Agent 启动后,等待3分钟后云服务器控制台确认是否已有监控数据。
运行服务(services.msc),查看 Agent 是否安装成功和是否启动。若 QCloud BaradAgent Monitor 和 QCloud Stargate Manager 服务未显示 “Running” 或“正在运行”,则说明服务未启动。可单击对应的服务名称,启动服务。
说明
若 Agent 已启动,仍无监控数据,可继续查看下面排查思路。
未安装监控组件会导致无法对您的服务器做更细致的监控,若服务器故障则将无法正常通知,存在高危风险。有关安装监控组件的更多内容,请参见 安装云服务器监控组件 文档。
步骤二:检查上报域名
监控 Agent 正常工作依赖下面 4 个域名正常解析:
update2.agent.tencentyun.com
receiver.barad.tencentyun.com
custom.message.tencentyun.com
metadata.tencentyun.com
Linux 和 Windows 检查上报域名和修复域名步骤不一致,详情请参见下文。
1. 检查上报域名是否可以正常解析
执行下列命令,确认4个域名是否都能正常解析:
ping -c 1 update2.agent.tencentyun.comping -c 1 receiver.barad.tencentyun.comping -c 1 custom.message.tencentyun.comping -c 1 metadata.tencentyun.com
正常情况下,在云服务器上可以正常解析以上4个域名,若上面的命令提示
unknown host
则表示域名无法解析,参见下列的方式修复。2. 修复域名解析
腾讯云在不同地域均提供了可靠的内网 DNS 服务器,建议不要覆盖默认 DNS 配置。如果需要修改默认 DNS 配置,可以参见以下方式修复上述 4 个域名的解析问题。
2.1 如果使用自建 DNS 服务或第三方 DNS 服务,建议在
/etc/resolv.conf
中追加腾讯云提供的内网DNS,具体请参见 云服务器内网 DNS 列表。2.2 如果使用自建 DNS,也可以把以上4个域名加到自建 DNS 中,域名和对应解析 IP 如下:
域名 | IP |
update2.agent.tencentyun.com | 169.254.0.15 |
receiver.barad.tencentyun.com | 169.254.0.4 |
custom.message.tencentyun.com | 169.254.0.5 |
metadata.tencentyun.com | 169.254.0.23 或 169.254.10.10 |
3. 如果以上两个方式不可行,可以在服务器的
/etc/hosts
文件中增加如下配置:169.254.0.15 update2.agent.tencentyun.com169.254.0.4 receiver.barad.tencentyun.com169.254.0.5 custom.message.tencentyun.com169.254.0.23 metadata.tencentyun.com
说明
修复后,再次检查域名解析是否正常。域名解析正常后,等待3分钟后到云服务器控制台确认是否已有监控数据。
1. 检查上报域名是否可以正常解析
执行下列命令,确认4个域名是否都能正常解析:
ping -n 1 update2.agent.tencentyun.comping -n 1 receiver.barad.tencentyun.comping -n 1 custom.message.tencentyun.comping -n 1 metadata.tencentyun.com
正常情况下,在云服务器上可以正常解析以上4个域名,若提示“找不到主机”则表示域名无法解析,参见下列的方式修复。
2. 修复域名解析
腾讯云在不同地域均提供了可靠的内网 DNS 服务器,建议不要覆盖默认 DNS 配置。如果需要修改默认 DNS 配置,可以参考以下方式修复上述 4 个域名的解析问题。
1. 登录 Windows 云服务器。
2. 在操作系统界面,打开控制面板 > 网络和共享中心 > 更改适配器设置。
3. 右键单击以太网,选择属性,打开 “以太网 属性” 窗口。
4. 在 “以太网 属性” 窗口,双击打开 **Internet 协议版本 4 (TCP/IPv4)**。如下图所示:
5. 选择使用下面的 DNS 服务器地址,根据 内网 DNS 列表中对应的不同地域,修改 DNS IP。修改完后单击确定即可。
6. 如果上述方式不可行,您进入
C:\\Windows\\System32\\drivers\\etc\\hosts
,在 hosts 配置文件增加如下配置:169.254.0.15 update2.agent.tencentyun.com169.254.0.4 receiver.barad.tencentyun.com169.254.0.5 custom.message.tencentyun.com169.254.0.23 metadata.tencentyun.com
7. 运行
services.msc
,按鼠标右键单击重启启动按钮,重启 QCloud BaradAgent Monitor 和 QCloud Stargate Manager 服务即可。
说明
步骤三:检查 uuid 是否正确
注意:
该方法只适用于 CVM 服务器,轻量应用服务器控制台没有 uuid 显示。
目前只有 Linux 会出现 uuid 配置不正确问题,详情请参见下文。
1. 进入 云服务器控制台 ,进入实例详情查看 uuid。
2. 登录云服务器,执行以下命令查看 uuid 。
cat /sys/class/dmi/id/product_serial```若服务器上 uuid 和云服务器控制台展示的 uuid 不一致,以 root 账号执行下列命令修复 uuid 并重启 Agent。```plaintextecho `cat /etc/uuid |awk -F '= ' '{print $NF}'` > /etc/uuid_to_serial; mount --bind /etc/uuid_to_serial /sys/class/dmi/id/product_serialcd /usr/local/qcloud/stargate/admin./restart.shcd /usr/local/qcloud/monitor/barad/admin./stop.sh./trystart.sh
说明
修复后,等待3分钟,然后到云服务器控制台确认是否已有监控数据。
步骤四:检查云服务器操作日志
云服务器操作关机后处于关机状态,会导致监控组件离线并且没有数据。
用户通过云服务器控制台或者登录云服务器,操作重启,升级云服务器,重装,制作镜像等常见的云服务器运维操作,都会使云服务器监控数据上报超时导致离线。
问题排查方式: 可以根据当时时间点排查云服务器是否有存在相关的运维操作,操作日志可以进入云服务器详情页面中操作日志中查看。
步骤五:检查云服务器负载
云服务器 CPU 高负载,内存使用占满,带宽占用过高都会导致监控组件上报数据异常。
问题排查方式:
CPU 高负载:详细排查步骤请查看 云服务器 CPU 或内存占用过高。
内存占用过高:可以登录云服务器或者查看监控图表是否有存在内存 使用达到
100%
的情况 ,若达到100%
,可以根据实际情况来扩容服务。 带宽占用过高:详细排查步骤请查看 云服务器带宽使用率过高。