暂无搜索历史
在2021年年底,B站基于Prometheus+Thanos方案,完成了统一监控平台的落地。但随着业务的快速发展,许多问题也逐步显现。
大约70%的故障都是由变更引起的,B站也深受其害。在经历了多起由变更引发的事故后,B站设计并实施了变更防控平台,从技术支撑能力、技术落地、跨领域赋能、组织文化建...
在降本增效的背景下,OPPO数据库团队进行了缩容、减少节点数、机房搬迁等一系列操作,同时面临效率低下和溢出故障的双重挑战。团队为此采取了一系列调优措施,包括架构...
尤其是在节前高峰等重要时间点,提前进行风险和容量评估等工作显得更为重要和紧急,而如何利用巡检信息进行综合研判也就显得更有价值。
Apache HoraeDB 是蚂蚁集团针对高基数时序数据场景设计并优化的开源时序数据库,后捐献给 Apache 软件基金会。它专门针对需要处理大量时间序列数据...
酷家乐自某次故障后开始升级演练平台,旨在提高系统在面对真实故障时的应急响应效率。面对业务线真实场景演练中高达39%的人工验证比例这一瓶颈,酷家乐构建了自动化流水...
数据库是存储关键信息、支持业务运营和分析决策的基石。然而,数据库的复杂性——研发效率低、安全管控难、变更不稳定、数据管控难,和对其稳定性、安全性的极高要求同样使...
新东方的可观测标准化改造开始于2021年下半年。一直以来,新东方致力于提供综合性教育服务,这包括了双减政策实施前的K12教育阶段,以及之后的素质教育、智慧教育、...
如何全面把握系统现状,以便在关键时刻做出明智的决策?这是很多负责全局稳定性的管理者深感关切的问题。基于这一背景,同时也为了寻求提升研发工作效率提升,去哪儿网构建...
TakinTalks稳定性社区专家团成员,去哪儿旅行基础架构组技术专家。公司云原生 SIG 成员,负责测试环境治理平台、代码精简平台、组件市场等,专注于研发效能...
TakinTalks稳定性社区专家团成员,滴滴出行可观测架构负责人。深耕可观测领域多年,专注于架构设计与优化。带领团队完成了滴滴第二代到第四代的架构迭代。多个可...
TakinTalks稳定性社区专家团成员。2018年加入去哪儿网,目前负责去哪儿网CI/CD、监控平台和云原生相关平台建设。期间负责落地了去哪儿网容器化平台建设...
TakinTalks稳定性社区专家团成员。毕业于大连理工大学,10年以上大型分布式基础架构经验,专注于大型分布式基础架构和大数据处理领域。曾就职于58集团,主要...
TakinTalks稳定性社区发起人。参编《信息系统稳定性保障能力建设指南1.0》和《稳定性保障服务商能力要求》。2017年联合创立数列科技,专注于高可用性领域...
TakinTalks社区专家团成员。2019年加入去哪儿网,负责测试流程的治理和测试工具建设。主导/参与建设的平台有自动化测试、全链路压测、代码覆盖率、Mock...
TakinTalks社区专家团成员。拥有多年开发和运维经验,专注高可用领域,目前负责中国人寿混沌工程等多项高可用举措的规划和落地实施,对于构建高可用系统具有深入...
TakinTalks稳定性社区专家团成员。2017年加入微盟,目前负责公司APM体系建设,包含APM体系从规范到实施,推动APM体系在公司的落地,主导了微盟AP...
TakinTalks稳定性社区专家团成员。十年互联网行业研发经验,2015年加入哈啰出行,参与哈啰业务系统从0到1的建设,作为核心Owner主导多个重点稳定性保...
TakinTalks社区专家团成员,2020年加入B站,先后负责主站/直播/OGV/推广搜相关的SRE工作。深度参与多活、活动保障、混沌工程、容量治理相关的建设...
TakinTalks稳定性社区专家团成员,前虎牙SRE负责人,资深运维专家和架构师,拥有20年软件开发、架构、运维、SRE经验。历任项目研发负责人、SRE负责人...
暂未填写公司和职称
暂未填写个人简介
暂未填写技能专长
暂未填写学校和专业
暂未填写个人网址
暂未填写所在城市