首页
学习
活动
专区
工具
TVP
发布

SRE

SRE理论知识及相关实践经验
专栏成员
8
文章
2934
阅读量
9
订阅数
SRE方法论之监控设计
《SRE:Google运维解密》中提出,监控系统的四个黄金指标是:延迟(Latency)、流量(Traffic)、错误(Errors)、饱和度(Saturation)。
不思jo
2023-11-17
4400
API网关是如何提升API接口安全管控能力的
近几年,越来越多的企业开始数字化转型之路。数字化转型的核心是将企业的服务、资产和能力打包成服务(服务的形式通常为API,API又称接口,下文中提到的API和接口意思相同),从而让资源之间形成更强的连接和互动关系,释放原有资产的价值,提升企业的服务能力。企业数字化转型使得基于API的业务系统剧增,随之而来带来的安全问题也日渐凸显。Gartner预测,到2022年,API滥用将成为最常见的攻击媒介,导致企业出现数据泄露。
不思jo
2023-09-22
2990
故障治理:如何进行故障复盘
故障复盘的重要性无需多说,每一次故障都是宝贵的学习机会,本人接手故障复盘工作已经半年有余,从一开始的手足无措,慢慢变得游刃有余。以下内容为本人从网上查阅学习多个专家经验,并结合工作经历总结而来,仅供参考。
不思jo
2023-09-12
4300
SRE方法论之减少琐事
我们先回顾一下SRE的定义:SRE就是用软件工程的思维和方法论,通过设计、构建自动化工具完成以前由运维工程师手动操作的任务。所以,SRE要把更多的时间花费在长期项目研发上而非日常运维中的琐事。
不思jo
2023-08-29
2010
SRE方法论之服务质量目标
为了量化客户对服务可靠性的期望,找到客户对可靠性满意的点,我们需要制定针对用户的服务质量目标,并且努力去达到这个质量目标。在这个过程中,我们需要定义一些服务质量指标(SLI)、服务质量目标(SLO),以及服务质量协议(SLA)。这三项分别是指该服务最重要的一些基础指标、这些指标的预期值,以及当指标不符合预期时的应对计划。
不思jo
2023-08-18
1860
SRE方法论之拥抱风险
系统不可能100%可靠,人都不可能100%健康,更何况我们人类创造的系统?所以,任何软件系统都不应该一味地追求 100%可靠。事实证明,可靠性超过一定值后,再提高可靠性对于一项服务来说,结果可能会更差而不是更好!极端的可靠性会带来成本的大幅提升:比如过分追求稳定性限制了新功能的开发速度和产品交付速度,并且很大程度地增加了投资成本和运维成本。
不思jo
2023-05-18
1920
SRE是什么,与传统运维有什么不同?
SRE,Site Reliability Engineering,中文翻译为站点可靠性工程师,这个词诞生于谷歌内部。将这个词语展开来说:首先,SRE的关注点在于可靠性;其次,SRE中的"S"指的是google.com网站(站点)。简单的从这个词来看,SRE就是负责维护google.com运行可靠性的工程师,当然随着时间的推移,SRE的维护对象不再局限于单一的网站服务,也包括非网站类的基础设施和系统。从以上解释来看,这不就是我们平常说的运维工程师嘛!那么SRE与我们传统认知的运维工程师有什么不同呢?
不思jo
2023-03-27
9360
证书过期为何频频出现,该如何避免?
近日公司内部多个App出现License证书过期导致App不可用事件。原因很简单,因为运维人员没有在用户报障之前发现证书过期并及时更换。
不思jo
2023-03-16
2500
没有更多了
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档