故障排查手段
故障报告–> 定位问题 –> 检查 –> 诊断 –> 测试/修复 –> 治愈
常见的问题主要集中在定位、检查和诊断环节上
应该避免
- 关注了错误的系统现象,或者错误地理解了系统现象的含义
- 不能正确修改系统的配置信息、输入信息或者系统运行环境,造成不能安全和有效地的是假设
- 将问题过早地归结为极为不可能的因素,或者念念不忘之前曾今发生过的系统问题
- 试图解决与当前系统问题相关的问题,却没有认识到这些其实只是翘课或者这些问题其实是由于当前系统的问题造成的
遇到问题的正确做法是尽最大可能让系统恢复服务,缓解系统问题是第一要务
事故流程管理
- 划分优先级:控制影响范围,恢复服务,同时为根源调查保存现场
- 事前准备:事先和所有事故处理参与者一起准备一套流程
- 信任:充分相信每个事故参与者,分配职责让他们自主行动
- 反思:在事故处理过程中注意自己的情绪和精神状态,发现自己开始惊慌失措或者感觉到压力难以承受,应寻求更多的帮助
- 考虑替代方案:周期性重新审视目前的情况,重新评估目前的工作是否应该继续执行,还是需要执行更重要的事情或者更紧急的事情
- 联系:平常不断地使用这项流程,直到习惯成自然
- 换位思考:上次你是事故总负责人,下一可以换一个职责试试,鼓励每个团队成员熟悉流程中的其他角色
事后总结
需要总结的条件: