编译文章——可用性管理操作指南(四)(By AMT 张纯棣 接上月三)

2006-5-24 1:41:01【作者】 畅享网 【进入论坛】
本文关键字 文章交付
广告

可用性管理操作指南(四)

 

编译:AMT 张纯棣

 

 

在这以生命周期循环过程中,任何一个突发事件都会经历如下环节:

-          突发事件启动

-          突发事件监测

-          突发事件诊断

-          突发事件修理

-          突发事件恢复

由于IT服务的可用性和突发事件可看成一个整体,在上述每个阶段中所花费的时间都会影响到整个宕机时间。恢复设计被认为是有效处理生命周期每个阶段IT设施故障的最好方法,这些IT设施部分都支持着整个组织的关键业务功能和交易。

 

突发事件生命周期

下图表示了各突发事件生命周期阶段之间的关系,以及每个阶段所花费时间是如何影响整体宕机时间和IT服务的可用性。

3:突发事件生命周期

 

一个或多个解决措施的存在可能会减轻突发事件为可用性带来的部分或全部负面影响,但整体的恢复生命周期仍保持不变。虽然修理和恢复流程可能被改变,但根据定义,服务仍由IT基础设施提供,并且这样可能限制了某些被允许的诊断和恢复措施的效果。另外,从解决措施恢复到正常运行状态,可能需要对宕机时间进行安排,这就需要与客户进行商议。无论在哪一种情况下,突发事件的周期都被人为的延长了,但这么做确实可以使可用性达到最大化。

 

恢复设计的角色是检查突发事件生命周期的每个阶段,以缩小每个阶段所花费的时间。这一工作可以从两个方面来考虑:

 

MOF流程和步骤

当然,MOF流程模型中操作和支持阶段的管理流程质量对突发事件侦测和解决的速度起着至关重要的作用。恢复设计需要保证这些原始流程的成熟度都达到一定水平,以支持被实施的IT服务。

 

每个IT组成部分的具体需求

要始终关注关键IT组成部分,每一个IT组分都需要从细节上认真考虑,分析最优恢复计划请求,以保证在突发事件生命周期的每个阶段都满意。一份对各阶段生命周期的详细描述如下:

 

突发事件启动

在超出与客户达成协议的可用性定义范围内,业务功能或交易变的不可用或发生质量降低。这可能是由于一个IT组分发生故障,或者环境发生了问题,如电力故障,应用错误,或人员操作错误,如不注意关闭错误的服务器等等。

 

突发事件检测

此阶段是IT组织开始对问题逐渐了解的阶段。一般通过产生或者接受一个错误信息或其他一些可视或可听到的信号警告等等。有效的事件处理机制需要立即到位,以保证突发事件近可能以最快的速度被识别出来,并且不会被其他的干扰事件所影响。主动的门限预警提供了绩效的提前预警功能,和能力问题预警等等;另外,在理想状态下,IT组成成分本身也会被安装上一些合适的预警设备,具有预警功能等。

 

尽管某些故障类型无法避免,从可用性角度来说,最糟糕的情况是由用户的呼叫电话报告了一个重大的服务中断。

 

突发事件诊断

这一阶段中,是真正发现问题的根本原因阶段,与那些表面上的现象是不同的。诊断活动包括,对监测到的事件做出反应的时间,以及识别适当的资源来寻找这些问题的根源,以及让这些资源各尽其职,使其能与系统进行有效交互。

 

一旦加入到这一流程中,专家需要获得对已知问题库、正确培植信息、最近变更历史、适当的诊断工具以及有效的升级路径和联络清单等信息的完全访问权。

 

突发事件修理

这一阶段中,任何潜在的故障或系统问题都被识别出来,并被修复或已找到一些应急措施绕过这些故障。使用我们早期举过的突发事件例子,修理可能意味着某些IT组分被替代,电力供应的恢复,实施一个紧急的应用系统部件,或重新启动一个服务器等等,都属于这类活动。这一阶段要考虑的事情包括,下班时间的电话呼叫转移,与内部团队和外部供应商之间的合同协议,共享同一个设备仪器等等。

突发事件的修理不代表IT服务再一次的完全可用,或者说他被备份或运行等。

 

突发事件的恢复

在本阶段,突发事件的恢复活动都已完成,IT组成部分又回到了一切就绪的状态,恢复到正规的处理状态。例如,一个替代硬盘驱动器需要将其数字重新储存,或者通过备份,或者从一个在线流程中获得,在他被用到生产运作流程之前,准备好一切数据。在本阶段,要注意为IT组成部分准备合适的恢复流程细节信息,以及维护适当关系和依赖性的步骤。

 

设计服务故障时的客户满意服务

知道,好的客户满意度仍可以在故障发生的时候被维持,尽管这一时期可能发生了不可预测的宕机。关键一点是要注意,在可用性管理生命周期的需求定义阶段,建立一个合适且现实的期望,并对环境进行清晰的描述,尤其是可能会导致服务故障的环境,解释如何用相关资源来保护这些服务不受中断等等。

 

当然,如果IT服务从来无法达到与客户达成的可用性级别协议,那么他们就有权利来表示反对。如果故障的原因和故障处理的方式在客户所期望的范围内,那么客户的满意度就被维持了。

 

一个有效的处理和恢复故障流程通常需要伴随着有效的与客户沟通路径。客户需要定期被通知故障恢复的进度,尤其是在故障恢复的整个过程中。向客户提供实际的时间表尤其是告知客户,什么时候客户的服务可以继续使用

 

管理流程

在上述有关可用性设计的论述中,与管理流程相关的大部分可用性元素都已被考虑到了。在MOF模型中,IT服务管理流程的可用性影响非常重要,值得着重阐述。

 

可用性管理需要用来支持关键IT服务的确保MOF流程是足够成熟的,并有必要的人员、技能和工具来有效的进行支撑,履行其各自的职责。设计流程应该专著于每个管理环节的细节,尤其是那些用来支持IT服务的管理流程。

 

用来有效管理并帮助履行这一职责的工具,同时也是一套完整的可用性设计流程一部分的,便是可用性概览或者说由一个专门进行可用性管理、ITILMOF咨询的外部组织所提供的评估服务。这一服务可以为现有的任何IT基础架构建立一套流程成熟度基线,并将其与新的或者现有的IT服务进行对照和比较。

 

规范化运营级别协议

IT与客户对一个有效的可用性成本级别达成一致性意见后,这样的协议需要被规范成一套文档,也称为运营级别协议(OLA)。OLA作为IT与用户之间服务级别协议的一部分。而OLA则是各实体之间的一个协议。SLA是一个法律上的文档,而OLA则大多是具有一定的行政因素。

 

根据已达成的协议以及双方对可用性的理解,还要与客户对可用性的报告机制、报告的力度级别、报告的形式和风格、以及报告的频率等等,一一进行确认。

 

考虑到新的IT服务在引入主要变更、可用性目标和衡量标准的时候,需要按照客户的要求进行调整,以达到一套有效的接受标准,帮助证实任何新的系统和支持设施都满足客户的目标。这一工作也包括接受可用性管理的测试角色,以及有效的监控和报告新IT服务的能力。

 

运营级别协议需要包括:

¨         对提供的业务处理进行定义

¨         对组织的重要性

¨         用户的人数

¨         宕机对业务的影响

¨         宕机或者不可用性产生的成本以及这些成本如何改变的

¨         服务所需要的时间

¨         服务的周期、处理的最终期限等等

¨         次关键的服务

¨         计划内的维护和升级时间

¨         在应急措施计划被启动前,用户的容忍时间是多少

 

如何衡量可用性包括

1.          定义可用时间

2.          定义宕机时间

3.          必须的最低绩效

4.          被提供的最小访问点

5.          可用性如何被报告以及报告的频率

这一工作与几个服务级别管理功能有着紧密的联系,因为服务级别管理经理最终负责与客户谈判服务级别并确定最终的服务级别文档。

 

 

 

 

如果您希望与本文章的作者或其所在机构,进一步交流,请联系:畅享网 姜小姐
jill.jiang@amt.com.cn | 021-51096826-112 | 在线联系
IDS  Scheer专栏借助SAP系统实现企业全面预算管..

不同类型企业的全面预算管理的内容和过程都是有差别的,而以盈利为目的的企业其全面预算制订的过程一般是类……

前沿论丛[原创]项目型企业的知识管理及I..

项目型组织要保证做正确的项目和正确地做项目,利用知识管理的手段,借助先进信息技术平台,在组织内部开展……

云顶山涧——吴勇毅SaaS不是自来水,CIO如何面对尴..

面对SaaS在中小企业的推广的障碍与瓶颈,CIO要如何正确分析企业的IT需求,怎么样才能对症下药、有……

农民锅微软ERP文集[原创]微软ERP的二次开发管理10..

微软ERP体现中开发顾问成为微软ERP行业区别其他ERP的一个标志,这就引发了许多微软ERP二次开发……