SRE运维进阶之路

从部署到实践，即刻拥有你的专属龙虾助手

OpenClaw开发者专区🦞🦞🦞

自行/邀约他人一键搬运博客，享价值百万资源包

腾讯云自媒体同步曝光计划

往期视频·干货材料·成员作品 最新动态

腾讯技术创作特训营知识专栏

新邀入驻腾讯云开发者社区，福利多多！

主要都是 kube-state-metrics 收集的， K8s 内置的资源对象 ， 只需要添加启动参数即可

企业级 Kubernetes 监控体系设计与实践

作为一名SRE，最深刻的成长往往源于“踩坑”后的反思。今天分享一次让我在面试中收获最多、成长最快的K8s故障复盘经历——一次由全局PID耗尽引发的Calico网络崩溃事件。

精彩！！！Deepseek 重写 K8s 故障处理案例，文笔真好，屌~

以下是 PersistentPodState 系统的调谐逻辑和 webhook 拦截逻辑的流程图：

KubeVirt + Calico 实现  VMI 固定 IP

没了docker， 在容器里面运行应用跑测试，用 docker build 镜像等最基本的功能都不能用了，如何解？

10分钟搭建本机 k8s、docker 环境，这款神器真香

前两篇文章，我们分别介绍 Kubevirt 的安装、基本使用 以及 将 oVirt 虚拟机迁移到 KubeVirt，我们留了两个ToDo，一个是本地磁盘的动态分配，一个是固定 IP 的需求，本期我们先解决第一个，本地磁盘的动态分配。

KubeVirt 进阶：设置超卖比、CPU/MEM 升降配、在线磁盘扩容

错误关键词 Operation not permitted、nf_conntrack: table full, dropping packet，问题出现在 代理层，conntrack table满了。

高并发下报错 "java.net.UnknownHostException" 案例分析

问题要点是：单点登录失败，看代码是 request 和 response 的 RedirectUri 不一样导致的。

别关心美国大事了，学点知识吧，兄嘚~【故障排查 之 单点登录跳转失败(Ingress 相关)】

上篇 6 张图带你深入了解 kube-scheduler ，已经知道 kube-scheduler 的工作流程，以及如何实现自定义插件。koordinator 和 crane 都是基于Scheduler Framework 进行实现的 负载感知插件。本文不再赘述，感兴趣可以看上篇文章。

K8s 负载感知调度实践（koordinator & crane）

2）同一时间如果有大量待调度的 Pod，如果处理，如果保证不能漏掉，应该先处理哪个 Pod，调度过程中，如果失败，如何处理，  所以得加个队列，有重试机制等

6 张图带你深入了解 kube-scheduler

 运维，这里指互联网运维，通常属于技术部门，与研发、测试同为互联网产品技术支撑的3大部门，这个划分在国内和国外以及大小公司间都会多少有一些不同。

HR 再问 运维是干啥的， 你就把这个丢给她

上次发文 K8s 无备份，不运维！，文章开篇，插入了一张 K8s 集群巡检的图片，好多小伙伴私信留言，问我要开源地址。由于其通用性不高，大多数公司需要结合自身的架构情况进行不同的巡检，所以我没有开源。

K8s 集群巡检

受内核调度控制周期（cfs_period）影响，容器的 CPU 利用率往往具有一定的欺骗性，下图展示了某容器一段时间的 CPU 使用情况（单位为0.01核），可以看到在 1s 级别的粒度下（图中紫色折线），容器的 CPU 用量较为稳定，平均在 2.5 核左右。根据经验，管理员会将 CPU Limit设置为 4 核。本以为这已经保留了充足的弹性空间，然而若我们将观察粒度放大到 100ms 级别（图中绿色折线），容器的 CPU 用量呈现出了严重的毛刺现象，峰值达到 4 核以上。此时容器会产生频繁的 CPU Throttle，进而导致应用性能下降、RT 抖动，但我们从常用的 CPU 利用率指标中竟然完全无法发现！

K8s CPU Throttle 优化方案

创建 source 为 imageio 的 DataVolume 对象，先创建依赖，Secret 认证信息、tls-certs 证书信息

将 oVirt 虚拟机迁移到 KubeVirt

数据持久化：dataVolume、hostDisk、PVC ，这里选用 dataVolume，可以动态创建 PVC， 并将镜像填充进去

从0开始装一套 KubeVirt 1.2.1

把联邦的所有配置信息都写到 annotations 里，整个创建流程与 K8s 类似。配置信息先到 Federated API Server，Federated Controller 把应用创建到各子集群。

K8s 多集群思考、实践和探索

域名系统（英语：Domain Name System，缩写：DNS）是互联网的一项服务。它作为将域名和IP地址相互映射的一个分布式数据库，能够使人更方便地访问互联网。DNS使用TCP和UDP端口53。

CoreDNS 概述及运维实践

Etcd 是 CoreOS 团队于2013年6月发起的开源项目，它的目标是构建一个高可用的分布式键值(key-value)数据库。etcd内部采用raft协议作为一致性算法，Etcd基于 Go 语言实现。

Etcd 概述

SLI（Service Level Indicator）：服务等级指标，其实就是我们选择哪些指标来衡量我们的稳定性。

评估 Etcd 性能及可靠性

HPA（Horizontal Pod Autoscaler）是 Kubernetes 中的一种资源自动伸缩机制，用于根据某些指标动态调整 Pod 的副本数量。

弹性伸缩落地实践

CLOUD NATIVE LANDSCAPE https://cncf.landscape2.io/?group=projects-and-products

云原生实践总结

文章

问答

视频

教程

学习中心

腾讯云实验室

直播

竞赛

腾讯云代码分析专区

腾讯iOA零信任安全管理系统专区

腾讯云架构师技术同盟交流圈

腾讯云数据库专区

腾讯云智能顾问专区

腾讯云原生专区

腾讯混元专区

腾讯云TCE专区

腾讯云Lighthouse专区

腾讯云HAI专区

腾讯云Edgeone专区

腾讯云存储专区

腾讯云智能专区

腾讯轻联专区 

腾讯云开发专区

TAPD专区

腾讯轻量云游戏服专区

EdgeOne AI 安全实战专区

腾讯云最具价值专家

腾讯云架构师技术同盟

腾讯云创作之星

腾讯云开发者先锋

腾讯云代码助手

云原生构建

TAPD 敏捷项目管理

Cloud Studio

SDK中心

API中心

命令行工具

涵盖代码开发、场景应用、自动测试全流程，助你从零构建专属AI助手

一站式MCP教程库，解锁AI应用新玩法

聚焦“写作效率、视觉美观与运行性能”三方面进行全面升级，为您提供更高效、稳定的创作环境

社区富文本&Markdown编辑器全新改版上线，欢迎大家体验!

诚挚邀请您参与本次调研，分享您的真实使用感受与建议。您的反馈至关重要，感谢您的支持与参与！

社区新版编辑器体验调研

腾讯云开发者社区推出了SRE运维进阶之路专栏，为你提供了SRE运维进阶之路的相关文章，致力于帮助开发者快速成长与发展。

SRE运维进阶之路

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐