标签 故障管理流程 下的文章

  1. 目标

    在短时间内恢复服务正常运营(满足 SLA [Service-Level Agreement]),将业务运营的负面影响降至最低。

  2. 范围

    包括:

    • 用户和技术人员报告的失效、问题或疑问
    • 事件监控工具的自动发现和报告
  3. 对企业的价值

    • 能够检测和解决故障
    • 能够将IT活动与实时业务优先级相关联
    • 能够发现潜在的服务改进方面
    • 服务台可以从中发现额外需要的服务或培训需求
    • 故障管理在企业中有很高的曝光率,更容易展示出流程价值所在,为争取投资提供支持。
  4. 基本概念

    • 处理时限:

      • 根据 SLA 中规定的整体故障响应与解决目标,在不同的故障处理阶段必须确定具体处理时限。要在 OLA [Operational Level Agreement] 和 UC [Underpinning Contract] 中作为目标明确规定
      • 所有支持小组必须清除了解这些处理时限
      • 可以借助服务管理工具用于自动执行处理时限,并根据预定义规则升级
    • 故障模型:

      • 预定的“标准”故障模型将有助于在故障发生时对应到合适的故障
      • 按故障模型要求将信息输入到故障处理支持工具中,之后该类工具可以自动进行流程的处理、管理与升级工作
    • 模型包括:

      • 处理故障应遵循的步骤
      • 这些步骤应遵循的时间顺序,相互依赖关系
      • 职责
      • 措施完成的时间表与阈值
      • 升级程序,应该联系谁,何时进行升级
      • 任何必要的证据保留
    • 重大故障:

      • 组织必须明确标识出哪类事件构成重大故障
      • 必要时可以动态成立一支重大故障处理团队
      • 如果需要调查故障原因,问题经理也需要参与其中
      • 服务台需确保所有活动均记录在案,且用户了解具体进展

- 阅读剩余部分 -