首页
学习
活动
专区
工具
TVP
发布

SRE运维进阶之路

记录SRE运维、云原生
专栏成员
29
文章
7117
阅读量
13
订阅数
别关心美国大事了,学点知识吧,兄嘚~【故障排查 之 单点登录跳转失败(Ingress 相关)】
问题要点是:单点登录失败,看代码是 request 和 response 的 RedirectUri 不一样导致的。
SRE运维进阶之路
2024-11-07
930
K8s 负载感知调度实践(koordinator & crane)
上篇 6 张图带你深入了解 kube-scheduler ,已经知道 kube-scheduler 的工作流程,以及如何实现自定义插件。koordinator 和 crane 都是基于Scheduler Framework 进行实现的 负载感知插件。本文不再赘述,感兴趣可以看上篇文章。
SRE运维进阶之路
2024-10-25
1580
6 张图带你深入了解 kube-scheduler
2)同一时间如果有大量待调度的 Pod,如果处理,如果保证不能漏掉,应该先处理哪个 Pod,调度过程中,如果失败,如何处理, 所以得加个队列,有重试机制等
SRE运维进阶之路
2024-09-10
1690
HR 再问 运维是干啥的, 你就把这个丢给她
运维,这里指互联网运维,通常属于技术部门,与研发、测试同为互联网产品技术支撑的3大部门,这个划分在国内和国外以及大小公司间都会多少有一些不同。
SRE运维进阶之路
2024-08-27
1430
K8s 集群巡检
上次发文 K8s 无备份,不运维!,文章开篇,插入了一张 K8s 集群巡检的图片,好多小伙伴私信留言,问我要开源地址。由于其通用性不高,大多数公司需要结合自身的架构情况进行不同的巡检,所以我没有开源。
SRE运维进阶之路
2024-08-27
1290
K8s CPU Throttle 优化方案
受内核调度控制周期(cfs_period)影响,容器的 CPU 利用率往往具有一定的欺骗性,下图展示了某容器一段时间的 CPU 使用情况(单位为0.01核),可以看到在 1s 级别的粒度下(图中紫色折线),容器的 CPU 用量较为稳定,平均在 2.5 核左右。根据经验,管理员会将 CPU Limit设置为 4 核。本以为这已经保留了充足的弹性空间,然而若我们将观察粒度放大到 100ms 级别(图中绿色折线),容器的 CPU 用量呈现出了严重的毛刺现象,峰值达到 4 核以上。此时容器会产生频繁的 CPU Throttle,进而导致应用性能下降、RT 抖动,但我们从常用的 CPU 利用率指标中竟然完全无法发现!
SRE运维进阶之路
2024-08-05
1240
将 oVirt 虚拟机迁移到 KubeVirt
创建 source 为 imageio 的 DataVolume 对象,先创建依赖,Secret 认证信息、tls-certs 证书信息
SRE运维进阶之路
2024-07-04
1150
从0开始装一套 KubeVirt 1.2.1
数据持久化:dataVolume、hostDisk、PVC ,这里选用 dataVolume,可以动态创建 PVC, 并将镜像填充进去
SRE运维进阶之路
2024-06-19
1360
K8s 多集群思考、实践和探索
把联邦的所有配置信息都写到 annotations 里,整个创建流程与 K8s 类似。配置信息先到 Federated API Server,Federated Controller 把应用创建到各子集群。
SRE运维进阶之路
2024-05-11
2270
CoreDNS 概述及运维实践
域名系统(英语:Domain Name System,缩写:DNS)是互联网的一项服务。它作为将域名和IP地址相互映射的一个分布式数据库,能够使人更方便地访问互联网。DNS使用TCP和UDP端口53。
SRE运维进阶之路
2024-05-01
3540
Etcd 概述
Etcd 是 CoreOS 团队于2013年6月发起的开源项目,它的目标是构建一个高可用的分布式键值(key-value)数据库。etcd内部采用raft协议作为一致性算法,Etcd基于 Go 语言实现。
SRE运维进阶之路
2024-04-23
2220
评估 Etcd 性能及可靠性
SLI(Service Level Indicator):服务等级指标,其实就是我们选择哪些指标来衡量我们的稳定性。
SRE运维进阶之路
2024-04-23
2120
弹性伸缩落地实践
HPA(Horizontal Pod Autoscaler)是 Kubernetes 中的一种资源自动伸缩机制,用于根据某些指标动态调整 Pod 的副本数量。
SRE运维进阶之路
2024-04-23
1300
云原生实践总结
CLOUD NATIVE LANDSCAPE https://cncf.landscape2.io/?group=projects-and-products
SRE运维进阶之路
2024-04-23
1710
K8s 一条默认参数引起的性能问题
系统资源的瓶颈,可以通过 USE 法,即 使用率、饱和度以及错误数这三类指标来衡量。系统的资源,可以分为硬件资源和软件资源两类。
SRE运维进阶之路
2024-04-23
1180
SRE 学习路线
SRE(Site Reliability Engineering)站点可靠性工程是一种结合软件工程和运维运营原则的角色和方法论,旨在在系统、服务或产品的设计、开发、部署和运维过程中,采取一系列措施来确保其持续稳定运行、可靠性和可用性。
SRE运维进阶之路
2024-04-23
2810
什么?相同型号物理机 容器性能不如虚拟机?
[xx:xx] 扩容,扩容发布均有失败,但是虚拟机成功率高,容器 fullGC 时间长,请求堆积,异常
SRE运维进阶之路
2024-04-23
1120
Linux 性能基准测试工具及测试方法
上篇文章 「什么?相同型号物理机 容器性能不如虚拟机?」 ,给我们的经验教训,就是上线前,基准测试的重要性,这篇文章着重介绍一下「Linux 性能基准测试工具及测试方法」
SRE运维进阶之路
2024-04-23
3320
Kubernetes Controller 机制详解
Kubernetes API List/Watch 机制 与 Informer 客户端库
SRE运维进阶之路
2024-04-23
2660
我们的虚拟化变革之旅
我们最初采用oVirt作为我们的虚拟化平台,事实证明它是一个很好的产品,具有几个显着的优势。其开源性质使我们能够利用广泛的功能和定制选项。
SRE运维进阶之路
2024-04-23
1190
点击加载更多
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档