IT运维管理帮你赢得用户(AMT 廉奇志)
各运营商都在借鉴IT运维管理的最佳实践:ITIL,已经或正在建设覆盖各个应用系统的IT运维管理体系。 声明: 1.畅享网专栏专家文章仅代表作者个人观点,并不代表畅享网赞同其观点和对其真实性负责,本网不承担此类稿件侵权行为的连带责任。 2.在本网的文章页面上进行跟帖或发表言论者,均为网友言论,不代表畅享网观点。 广告 电信行业也要改朝换代了,一味拼覆盖、比放号的时代即将过去,“服务竞争”的时代已经来临。而电信运营商复杂的业务需要强大的应用系统作为支撑。这一深刻的变化必然导致业务支撑系统将成为今后运营商竞争的焦点。如何能够快速地构造出高质量的应用系统或有效的进行定制开发来满足不断变化的业务增长所带来的需求?如何能够有效地管理集成商(或外包商)而不是受其牵制?这些都是各电信运营商所面临的问题。 为了适应业务的发展和竞争的加剧,各运营商都在借鉴IT运维管理的最佳实践――ITIL(IT Infrastructure Library,IT基础架构库)已经或正在建设覆盖各个应用系统的IT运维管理体系,从而保证企业的核心业务能在一个安全、可靠的运营环境中运营,促进业务的增长。 ITIL已经为《财富》500强的一些企业所采用,并取得了预期的效果。Gartner和国际数据集团(IDC)等世界权威研究机构的调查研究表明,企业通过在IT部门实施最佳服务管理实践,将因重复呼叫、不当的变更等引起的延误时间减少了79%,每年每个终端用户平均节约800美元的成本,同时每项新服务推出的时间也缩短一半。但收益的获得并不会这么简单,让我们看一下某省电信企业的实践。 某省电信企业,为配合业务的飞速发展,实现对各业务支撑系统的统一监控、统一管理、统一维护,最终全面实现对“网元级、资源级、应用级”的维护管理要求,决定建立对IT基础架构及其承载的各项应用的全面、深入、细致的监控管理系统(包括网络信息监控、安全信息监控、终端信息监控),达到信息、人员、业务的相互协调,保证系统资源的合理使用,最大限度地发挥各IT系统在生产和管理中的作用,保证各级业务应用系统的连续、高效运行,从而更好地为用户服务。 考虑到日后业务的扩展和本身各种管理系统的不断完善,基于对管理系统需求的分析和制定的管理系统设计原则,该公司制定了如下的管理体系结构蓝图(如图1所示)。 图1 XX公司IT网络管理/安全管理系统体系架构蓝图 首先,根据被管理资源的特性,资源被分成业务应用系统资源,分布式系统资源和网络系统资源。业务应用系统资源具有其特定的属性与体系结构,技术标准与管理方法(如ARM,Application Response time Measurement)。网络系统资源遵循一系列网络通讯协议,包括网络管理标准协议SNMP(SNMP是网络管理的主要信息载体)。对于分布式系统资源,开放性使资源从服务器系统到操作系统到数据库及中间件都具备可以统一的管理标准与协议,如CIM(Common Information Model)标准等,从而使监控,管理功能的统一成为可能,单一代理技术可以得到完美实现。在资源的直接管理接口上,业务应用系统,分布式系统与网络系统的接口自成体系。 在被管理的主机系统,分布式系统和网络系统之上,是系统管理的基础设施,或系统管理框架。在这里,基于三类被管理资源的不同特点,采用不同的管理框架结构针对每一种资源。管理系统的自动化及基于策略的资源分配是管理基础设施的重要组成部分。 在系统管理基础设施之上,根据ITIL的最佳管理实践,建立四个相对独立的管理子系统,相应的管理流程在子系统中得到实现。子系统的功能定义跨越三种不同类型的资源,但在实现上采用相同或不同的技术手段。 子系统1 包括系统监控,可用性管理,性能管理,业务影响监控,可靠性管理流程与系统实现。ITIL服务支持流程-事件管理、问题管理,服务交付流程-可用性管理、容量管理、服务级别管理在本子系统的支持下中得到贯彻执行与体现。 子系统2 安全管理策略,流程与系统实现,实现ITIL安全管理流程。 子系统3 包括配置管理,版本管理,操作管理系统与流程实现。基于ITIL服务支持流程-配置管理、发布管理设计系统管理软件分发,IT资产发现与存储,数据备份恢复操作策略与管理等,并建立配置管理数据库(CMDB,Configuration
Management Database)。 子系统4 服务连续性管理策略,系统与流程实现,遵循ITIL服务交付流程-IT服务持续性管理。 表1 四个管理子系统 以上四个子系统相对独立地运行。子系统之间的信息交换主要通过上一层功能-层次型事件综合及相关性智能处理平台实现。 层次型事件综合及相关性智能处理平台是实现事件管理的平台,是管理系统的第一个集成点。智能相关性处理,可扩展的分布式事件处理结构,自动化任务执行体系和基于角色的多用户示图是事件管理的平台的必备功能。 事件管理的平台提供管理系统的信息交换总线(在分布式总控中心(一级)加分控中心(二级)方案中将显得尤其重要),是管理系统集成的重要组成部分。 在事件管理的平台之上,建立三个共享、统一、集成的管理子系统。首先是数据挖掘,趋势分析与报表系统。这一系统建立在企业级的系统管理数据仓库之上,提供管理系统报表与发布,系统性能趋势分析与管理信息数据分析与挖掘的功能。第二个子系统是服务水平管理系统,这一系统主要基于企业级的系统管理数据仓库,将服务水平协议和约计算机化,监控各项服务的服务水平,通过数值分析的方法进行服务水平的趋势分析。第三个系统是企业级服务台系统与人机交互流程。它的实现将伴随系统管理知识库的创建。以上三个系统都将企业级的CMDB作为IT资源配置信息的主要来源。 在总体管理体系结构的最上层是系统管理门户系统,负责信息发布,个性化的人机交互,实现管理系统界面的集成。 这个平台集中并最终实现企业全面的IT管理。当然,这个平台的建设不是一蹴而就的,而是采用分阶段的方式完成管理系统的建设。在管理系统建设的每一阶段,从管理体系,管理流程与管理组织结构建设三个方面达到建设的目标。通过若干阶段的建设与实践,达到企业总控中心的管理水平,并实现提高生产的可靠性和运行效率的最终目标。 IT运维管理体系的建设中要注意P(Process,流程)、P(People,人员)、T(Technology,技术)三要素的有机结合,相互统一。 P(Process,流程) ITIL的核心就是流程,但ITIL本身只是提供了“做什么”的最佳实践,并没有提供“怎么做”的具体流程,因此需要在具体实现过程中,理论与企业的具体实际相结合,建立符合企业特点的流程规范,避免以下两个误区:
另外,由于ITIL涵盖的内容很广,不可能在短期内在企业中全面实施。应该根据实际情况,选取实施重点,逐步实施,逐步完善。比如首先实施服务台和服务支持流程,再实施安全管理的监控和管理体系,再实施服务级别管理等服务交付流程,再实施ITIL框架下的其他部分。 P(People,人员) 人员也是关系IT运维管理体系建设成败的关键,流程有了,系统上了,但是如果使用者对此有抵触情绪,而绩效考核手段又没有发挥作用的话,流程和系统只能被束之高阁。因此,在运维系统建设过程中,建立了一整套科学的考核制度,以激励运维人员更有效地提高服务质量和服务水平,是至关重要的。 运维人员KPI(关键绩效指标)的制定应该与运维流程和SLA(Service Level Agreement,服务级别协议)密切相关。SLA的达成需要流程上的各部门、岗位的协同处理,因此按照SLA约定的服务承诺指标(比如服务时限),分解到流程的各个活动上去,再对应到执行该活动的岗位、部门,就得到了此岗位、部门的某一个或多个KPI。这样,每月故障处理情况的统计报告就直接与各岗位、部门的绩效考核挂钩,通过这样的考核机制,形成对员工日常工作的科学评价,既调动了员工积极性,又提高了工作效率和服务质量。 另外,运维流程和系统的实施,可能会因为下面所列的原因而带来抵触情绪:旧的思想观念的抵制;不明白什么问题需要通过转变来解决;不相信自己的工作会由此变得容易;技能缺乏,不具备在新环境下工作的技能;担心自己的工作会被取代;对变化的恐惧;利益的冲突;缺乏经验。 因此,变革管理在IT运维管理体系建设中也是非常重要的内容。在变革过程中,需要从明确转变的目的、管理层的承诺和表现、员工的参与程度、技术解决方案和绩效评估方面来综合考虑。其中任何一项的缺失,都会导致一些负面和消极的行为。 T(Technology,技术) 网络管理是运维系统的组成部分。对系统的监控也是运维的主要业务之一。以往网管系统实现了对平台的监控,可是在实际运维工作中,平台往往只有少数的几个系统管理员负责,大多数业务人员更多地是面对业务系统。对于业务的监控和管理,是业务人员更加关心的问题。因此,在网管系统中,应加入业务监控的内容。 需要注意的是,业务是建立在平台的基础之上的,而不是孤立存在的。因此,监控中,应强调业务监控与平台监控密不可分的联系,从业务的角度出发,建立平台与业务的关联关系。在故障发生时,应能够即时描述对业务的影响程度,能够描述故障的影响范围。 例如:采集源的某台交换机产生异常,除了可以看到交换机告警外,我们还应该能够在业务拓扑图中直观看到,采集系统受到影响,同时采集、预处理、分拣等相关业务也不同程度受到影响。其影响程度,能够通过不同的颜色直观地展示出来。 只有这样才能够更加直观而全面地反映系统的运行状态,反映业务的运行情况。能够帮助运维人员在故障发生时,快速修复关键部件,减少故障带来的损失。 在流程、人员、技术都具备之后,还要改变服务的模式和服务的观念,变被动式(reactive)到主动式(proactive)。 在现行的运维工作中,我们经常遇到这样的情况:一方面是运维部门疲于应付各种突发事件,加班加点处理各种重复事件,工作繁重,身心疲惫;一方面是客户代表不断抱怨和投诉“技术人员服务水平太低”。二者不可调和的矛盾,是新运维系统要解决的重要问题。 传统的运维方式给人的印象是:故障发生前,维护人员似乎无所事事;故障发生后,则是手忙脚乱。这就是被动服务给人们留下的印象,运维人员是在被动地等待故障的发生。在新的运维系统中,我们必须改变原有的运维方式,变被动服务为主动服务。 在主动服务模式下,运维人员主动地监控系统的变化,对日常工作及故障处理完成后主动进行问题分析,对系统的变更风险进行评估。在新系统中,可以通过种种技术措施,使得运维工作从被动服务转移到主动服务,如:增加变更管理流程以防范变更风险。 在日常运维工作中,变更工作是在所难免的。例如,新的系统安全漏洞被公布,为了保证系统安全,就需要安全系统补丁,而这种变更给系统带来的风险则是难以估计的。例如在安装补丁后,有时会产生大量莫名其妙的问题。这么一个简单的例子已经可以说明,如果没有很好的风险防范手段,系统变更将给我们的日常运维工作带来大量的问题,后果往往是难以想象的。在新系统中,我们可增加变更管理流程。在变更管理流程中,变更方案需提交变更经理,由变更经理组织由专家组成的变更顾问委员会(CAB)对变更进行风险评估,在评估通过后才能够进入变更的实施过程。变更管理是防范变更风险的最好办法。 当然,主动服务是一种理念,在这种理念下,我们可以定义更多的流程,如问题管理流程,对系统中存在的隐患问题进行挖掘,防患于未然。总之,我们应该树立这样一个理念,在各流程的定义中进行运用,主动地提早发现系统存在的风险和隐患,减少突发事件的发生。 现在中国的各电信运营商已经建立起了庞大的IT基础架构,BOSS系统、客服系统、经营分析等系统也已投入使用。可以说,进入了“运维管理”的新阶段。这个时候需要企业静下心来、实实在在的挖掘系统的潜能,建立IT与业务部门之间的高效管理体系,更好地满足用户的需求,赢得用户。谁抓住了现在,谁就抓住了未来。 本文作者廉奇志 AMT北方区顾问总监 作者联系方式:Tony.Lian@AMTeam.org 有关AMT培训之【IT运维管理】类课程
欢迎垂询:北京:010-58694315,上海:021-51096826,广州:020-83652639 如果您希望与本文章的作者或其所在机构,进一步交流,请联系:畅享网 姜小姐 jill.jiang@amt.com.cn | 021-51096826-112 | 在线联系 |
|
|
|