节点异常关键字排障
当使用 TKE 集群服务的节点检查能力时,可能会检查出节点异常,包含建议您进一步排查的关键字,本文档总结了节点检查中出现的关键字、异常现象及对应的检查方式(通过正则表达式匹配内核 / dev / dmesg 日志进行检查),您可以根据本文档登录节点进一步排查异常原因。
节点异常关键字含义及检测方式
关键字 | 含义 | 匹配用的正则表达式 |
OOMKilling | 进程 OOM killing | Killed process \\d+ (.+) total-vm:\\d+kB, anon-rss:\\d+kB, file-rss:\\d+kB.* |
TaskHung | 进程长时间冻结(IO、NFS 等问题) | task [\\S ]+:\\w+ blocked for more than \\w+ seconds\\. |
UnregisterNetDevice | 网络设备泄露,如存在没有注册的网络设备 | unregister_netdevice: waiting for \\w+ to become free. Usage count = \\d+ |
KernelOops | 内核出现空指针 | BUG: unable to handle kernel NULL pointer dereference at .* |
KernelOops | 除0错误 | divide error: 0000 [#\\d+] SMP |
Ext4Error | Ext4 文件系统故障 | EXT4-fs error .* |
Ext4Warning | Ext4 文件系统警告 | EXT4-fs warning .* |
IOError | Buffer 写入设备阻塞 | Buffer I/O error .* |
MemoryReadError | 内存故障 | CE memory read error .* |
FilesystemIsReadOnly | 文件系统只读,无法写入 | Remounting filesystem read-only |
TCPMemOverFlow | TCP 内存不足 | TCP: out of memory -- consider tuning tcp_mem |
TCPSkOverFlow | Socket 太多引发 | TCP: too many orphaned sockets |
NFOverFlow | conntrack 表满 | nf_conntrack: table full, dropping packet |
ARPOverFlow | arp 表满 | \\w+: neighbor table overflow! |
BlockIOError | Buffer 写入设备阻塞 | Buffer I/O error on device (.+), logical block \\d+ |
BlockIOError | Blkio 请求阻塞 | blk_update_request: I/O error, dev \\w+, sector \\d+ |
FileOpenLimit | 打开文件超过系统上限 | VFS: file-max limit \\d+ reached |
SlabFreeErr | 释放 Slab 错误 | cache_from_obj: Wrong slab cache. (.+) but object is from (.+) |
MemPageFailed | Page 分配错误 | page allocation failure(.) order:[3-5],(.+) |
SoftLockUp | CPU 长时间没有调度切换 | BUG: soft lockup - CPU#\\d+ stuck for (.+) |
SchedInAtomic | 占有自旋锁时调用 sleep | BUG: scheduling while atomic:(.+) |
RCUStall | CPU RCU 长时间卡顿 | INFO: \\w+ self-detected stall on CPU (.+) |
PCICardErr | PCI Card 错误,如虚拟设备 | Card not present on Slot(.+) |