TKE Kubernetes 特性说明

最近更新时间:2025-12-18 14:26:01

我的收藏
腾讯云容器服务 TKE 基于原生的 Kubernetes 提供增强的特性,以下是各项增强特性的说明。

kube-controller-manager 主动 node detect

特性说明

当因为网络故障或者 apiserver 高负载导致 kubelet 无法上报心跳时,kube-controller-manager(kcm)会误判 node 处于 not ready 状态,并驱逐节点 pod。
本特性通过 kcm 主动探测节点是否存活的机制,保障了在 kubelet 无法访问 apiserver 场景下,比单纯依赖 kubelet 心跳更可靠的节点健康检测机制。

实现原理

在节点心跳上报的链路 kubelet -> vpcgw -> apiserver 中,vpcgw 故障会导致 kubelet 心跳上报失败,kcm 会误判断节点为异常,触发驱逐节点上的 pod,本特性是在 kcm 里面增强了判断逻辑,当出现节点心跳丢失,原生 Kubernetes 逻辑认为 node not ready 的时候,kcm 再主动去探测下 kubelet 是否还在工作,该机制比原生判断节点 not ready 的条件更加严格,避免了 pod 被误删除。
当出现节点丢失心跳但 kcm 主动探测成功时,kcm 会往问题节点上添加 taint,使用 taint 避免调度,对应的 key 和 effect 分别是 key: node.kubernetes.io/no-apiserver-connecteffect: NoSchedule