编译文章——可用性管理指南(二)By AMT 张纯棣本文关键字 文章交付 广告 可用性管理操作指南(三) 编译:AMT 张纯棣 识别主要的IT服务组分 可用性设计流程的第一步就是如何识别出支持完整的端对端服务的主要IT技术组分、基础架构、人员和流程,这些元素都是一个关键业务功能和事务中不可获却的一部分。 在这一阶段中,最常见的做法就是把端对端的服务提供分解为若干可以管理的服务部分,一次检查每个部分。MOF将支持IT分为的整个基础设施划分为如下几个IT领域: -
服务 -
应用 -
中间件 -
操作系统 -
硬件 -
网络 -
设备 -
出口 可用性设计 上述每一个IT组成部分的完整生命周期都可以被看作是实现可用性最大化的一个方面。适用性、可靠性、可维护性和每一个IT组成部分的服务能力可以从以下两个主要的方面来考虑: -
可用性风险与对策 -
生命周期管理需求 可用性风险和对策 要对可能造成每个IT组分可用性风险的环节进行认真考虑,并设计出合适的解决方案,以减轻这些风险: 根据MOR的IT域,一个可用性风险的性质有很多种:以下列出了若干IT域常受到的可用性风险: -
应用、中间件和操作系统方面 §
单点故障 §
不正确的配置选项 §
设计缺陷 §
薄弱的开发方法 §
编码错误 -
硬件与网络方法 §
单点故障 §
过时的固件 §
低质量的文档 §
供应上支持质量 §
缺少抗静电预防措施 §
缺少备用件 §
电缆的标签不清楚 -
设备方面 §
不充分的空调能力 §
电力不足 §
火灾与洪水 §
存放地点的安全性 -
出口方面 §
来自于效用的单电力供给 §
来自于远程通讯的单向通讯 -
人员 §
低质量的工作流程 §
缺少原则和约束 §
缺少技能 可用性管理与服务连续性管理通常是紧密联系的。这两个流程的目标都是消除IT服务的可用性风险,并引入解决措施以实现这一目标。可用性管理主要关注于如何处理队可用性的常规风险,这些风险可能会每天都发生。服务连续性管理则侧重于更加极端和相对罕见的可用性风险,如火灾和洪水,对于任何没有预料到的可用性风险都要有所顾忌。 服务级别管理影响着这两个管理流程。服务级别管理(SLM)主要负责如何与客户进行交互,并决定哪一个IT服务对于整个公司的生存来说是最关键的,以及在服务出现故障时选择哪个业务备选方案以延续服务。 可用性管理通过优化工作流程,并进一步地识别出支持那些服务的关键IT基础设施成分,识别出是否流程中包括任何单点故障或对可用性管理带来其他风险,选择最有效的解决方案,以最节省成本的方式来解决问题。 如果不存在直接的解决方案,或者那些解决措施超过了IT服务可以承受的范围,那么这些问题将被转移到服务连续性管理中来处理。在每一个IT域内,都有一些具体的可用性风险,这些风险被认为不大可能通过调整成本来降低风险,或者这些风险本身是不可预测的。例如,某些数据中心预测一个流星雨将会发生。在他们所采取的所有措施中,没有一项是花钱安装抗流星雨的防护装置。在这样的情况下,服务连续性管理列出了什么必须做以恢复这些服务。我们不需要对每一个风险都列出其独立的服务连续性计划。一个计划就可以覆盖所有的风险,如洪水、火灾、流星雨、恐怖袭击以及任何其他可能使整个数据中心运转失常的不可测事件。无论在什么时候,我们都需要一份完整的服务连续性计划,即使组织中已有了一分可用性计划来处理那些常规的问题。 正如我们早先举出的例子,服务器内一个单独的电力供应可能在任何阶段发生故障。可用性管理可以使用的一个非常有效且低成本的解决方案就是使用采用了热插拔冗余电力供给的服务器技术。这一技术允许第二个电力供给实现无缝连接,在故障中立即接管整个电力供给,在不打断IT服务的情况下代替现在的在线电力供给源。服务连续性管理既需要对电力供给故障做出应急措施计划,与此同时,也要做出计划防止第二电力供给也发出故障而第一电力供给仍在修理中。虽然这一情况不大可能发生,但我们必须防患于未然。下图描绘出了可用性管理的各中关系: 服务级别管理 识别关键IT服务 识别最低业务需求 可用性管理 业务连续性管理 在每个关键IT服务领域内识别关键客户功能 识别对关键IT服务起作用的IT基础架构 识别关键IT组成部分 在每个关键IT服务领域内识别关键客户功能 该故障是否可测?是否解决措施是可以承担的? No 生成应急措施计划 设计并实施解决措施 突发事件发生 是否存在解决措施?该措施起作用吗? No 启动应急措施计划 服务是否完全被恢复? Yes Yes No Yes 服务正常进行 图2:可用性管理与服务级别管理之间的关系(请见附件) 当一个可用性风险被识别,并被确认在可用性管理补救范围内可以解决,下一步就是识别出合适的解决方案,引入到IT服务中以尽量减小该风险为IT服务所带来的损失。 务必保证任何被采取措施的成本都是可以承担的,并可以根据与客户达成的宕机成本协议进行成本调整。可用性管理的目的是在成本约束范围内提供一个最优级别的可用性。一个相应的解决措施可能部分地受到设计环节的影响,比如,一个备用系统仅拥有整个主系统一半的处理能力。无论这样的系统是否可以被接受,务必将其与客户同意的可用性定义进行对比,保证这样的解决措施一旦被使用,便能发生效用。 如果无法为某个特别风险找出其合适的成本,那么我们需要与客户重新商议任何一个可用性目标,实施一份快速恢复战略,或者将这一问题转交给服务连续性管理。尽管服务连续性管理提供了应急措施计划来处理各种灾难,这种做法却可能在IT服务被完全恢复前延长宕机时间,因此,这一因素需要在与客户的再商议中认真考虑。 上述循环周期:客户需求、风险识别和设计影响可能在设计和实施一个高可用性的IT服务过程中被重复若干次。 生命周期管理需求 若想实现最高的可用性,就必须对基础架构中每一个IT组分的需求进行认真仔细的研究,在完整的生命周期管理中确定需求、合适的角色和职责,工具,流程以及在IT架构中被嵌入的流程步骤,和实现这些流程所需的员工级别与技能需求等等。 这一流程的目标是识别出可以实现最大化IT设施组分可用性的操作性工作,如快速启动和快速关机时间等。实现周期的健康检查和其他主动性监控以及对个性化设置或具体工具的需求都要认真被考虑。 对每个IT设施组分进行管理包括有效的处理如下任务: -
开机和关机,包括子系统依赖性等等 -
监控 -
端对端健康检查 -
行政管理 -
密码维护 -
消费替代方法 -
备份和恢复方法 -
紧急情况批处理方法 -
升级和变更方法 -
利用在线备份和在线配置属性 -
失败—覆盖和失败—恢复请求 -
操作、监控和诊断技能 -
事件产生与需求处理 -
配置文档需求 -
供应商文档更新 为了最大化IT服务,以支持一个IT设施的潜在运行需求,管理流程和IT基础设施的可用性需要被仔细认真的重新设计。类似的在设计流程包括,对各种被涉及团队的角色和职责进行重新定义,使用工具和技术的再设计,以及那些为保持IT服务正常运行所需的在线和离线具体任务,同时还要处理那些日常的和突发性的问题或故障。对任何侵略性维护的请求都要根据达成的服务协议、内部和外部合同和服务级别协议等进行认真核对、合理安排。 恢复设计 无论设计和管理流程由多么的天衣无缝,在服务递交过程中,仍可能发生IT服务故障。在设计高可用性的IT服务时,第二个主要的活动就是被动进行的快速高效的恢复服务。因此,被处理的突发事件可能是一个未预料到的事件或者甚至是一个保护服务措施的故障等等。对一个特殊的可用性风险来说,如果该措施若想发生效用会为客户带来昂贵的成本,那么,快速恢复可能是其最佳的设计选择。 在不太极端的情况下,有时可能也需要执行有效的突发事件侦测和恢复机制,因为即使是很小的一个问题也需要通过适当处理来阻止这样的错误被延续到链条上其他环节。在双冗余电力供应一例中,任何主供应器发生的故障都需要在副供应器发生故障前被清晰的识别出来,并选择合适的副供应器替代,以避免造成更大的服务损失。 如果您希望与本文章的作者或其所在机构,进一步交流,请联系:畅享网 姜小姐 jill.jiang@amteam.org | 021-51096826-112 | 在线联系 |
|
|
|