本文转载自:腾讯小 Q 聊质量
对于如何主导一次事故复盘很有讲究和方法。对于主导事故复盘的人我们这里称其为“复盘owner”:有的公司是QA,有的公司是测试、开发或者其他角色来承担。
复盘的几个误区
走入误区的原因
事故复盘的正确打开姿势
复盘前:对事故过程和原因心中有数
是否有录单事故单,先要求录单责任人(运维、客服:不同公司有不同的要求)把事情发生经过写清楚。
找客服或产品运营同事确认具体的影响(事故越大,越要确认清楚,参见“了解事故影响小贴士”),找运维和涉及的开发问原因,根据原因涉及到的干系人及其部门,来定确定需要拉的非本产品或项目的人员和对应的复盘负责人。
对事故的关键原因做个初步判断,便于会上引导原因分析。
复盘会要拉上的人有(根据实际情况裁剪): 责任方人员(可能是:产品、测试、开发、运维等),责任方人员的直接领导,产品受影响方的开发(产品、测试等),产品受影响方的开发(产品、测试等)的领导,产品受影响方的“事故接口人”,根据严重情况有可能要拉上部门经理。
了解事故影响小贴士
复盘中:控场复盘会议
会议现场:引导大家按照顺序进行复盘。顺序如下:
review事故发生过程——> 事故原因讨论——>改进措施讨论——>定级定责——>总结陈词。
注意对以下事项的把控和确认:check影响范围和时长,定级,原因是否ok,改进措施是否可以落地,改进措施落地时间。
原因的追溯:多问几个为什么,尤其对一些明显看起来打太极的人。
会议结束:记得简单清晰概括原因、责任人、改进措施等,不要留存模糊的地方。
复盘后:事故报告和改进措施落地
跟进开发在事故单系统(如果没有系统,则通过邮件方式提供)里面把改进措施写清楚。
两天内出具事故报告,发送给参会人员,并抄送与这个事件相关的人,或者关注这事件的领导。
跟进改进措施是否按时落地,并进行记录和定期更新完成状态。
Tips:碎碎念
无论如何,能否有效复盘,并且通过复盘能挖掘出产品或项目的真实问题,“复盘owner”起到重要作用。
要做好事故复盘,“复盘owner”要做到的关键点:复盘前心中有数,拉到合适的人参加复盘会,复盘中按照步骤引导复盘,复盘后跟进措施落地。