故障管理流程 Incident Management
目标
在短时间内恢复服务正常运营(满足 SLA [Service-Level Agreement]),将业务运营的负面影响降至最低。
范围
包括:
- 用户和技术人员报告的失效、问题或疑问
- 事件监控工具的自动发现和报告
对企业的价值
- 能够检测和解决故障
- 能够将IT活动与实时业务优先级相关联
- 能够发现潜在的服务改进方面
- 服务台可以从中发现额外需要的服务或培训需求
- 故障管理在企业中有很高的曝光率,更容易展示出流程价值所在,为争取投资提供支持。
基本概念
处理时限:
- 根据 SLA 中规定的整体故障响应与解决目标,在不同的故障处理阶段必须确定具体处理时限。要在 OLA [Operational Level Agreement] 和 UC [Underpinning Contract] 中作为目标明确规定
- 所有支持小组必须清除了解这些处理时限
- 可以借助服务管理工具用于自动执行处理时限,并根据预定义规则升级
故障模型:
- 预定的“标准”故障模型将有助于在故障发生时对应到合适的故障
- 按故障模型要求将信息输入到故障处理支持工具中,之后该类工具可以自动进行流程的处理、管理与升级工作
模型包括:
- 处理故障应遵循的步骤
- 这些步骤应遵循的时间顺序,相互依赖关系
- 职责
- 措施完成的时间表与阈值
- 升级程序,应该联系谁,何时进行升级
- 任何必要的证据保留
重大故障:
- 组织必须明确标识出哪类事件构成重大故障
- 必要时可以动态成立一支重大故障处理团队
- 如果需要调查故障原因,问题经理也需要参与其中
- 服务台需确保所有活动均记录在案,且用户了解具体进展