追求安全快速的运维服务 (AMT 张哲)金融行业是典型的IT驱动的行业,金融行业的信息部门是怎样提供安全平稳的运维服务呢? 广告 上海期货交易所坐落在在黄浦江东岸,浦东新区轴心大道——世纪大道东侧。一个明朗的夏日上午,当我们走入主裙结构的建筑时,上海期货交易所技术部高级总监严少辉先生已经安静坐在我们面前。 严少辉,毕业于华东师范大学,1992年投身IT,1994年加入上海金属交易所。 1998年,上海金属交易所、上海商品交易所和上海粮油商品交易所合并,组建成为上海期货交易所。严少辉在上期所已经工作11年,从一个技术人员到技术部门的核心人物,现任上海期货交易所技术部高级总监。 期货交易是我国资本市场的重要组成部分,期货市场的安全、稳定和可靠运作对在经济生活中有重要影响。期货交易有大量的数据需要处理,上海期货交易所这个全国最大的期货交易所的系统规划和建设情况是怎么样,技术部门又是怎样实现对系统进行安全、稳定可靠的运维管理的呢? 市场化的组织结构 通过采访,我们了解到上海期货交易所的信息系统建设方面采用了市场化的组织结构,系统的开发和建设由控股的专业技术公司完成,而系统的规划、运维和内部支持由技术部负责;另外,由技术管理委员会协调技术部和技术公司,并且监督系统建设和运维事宜。这样做的优点主要体现在以下两个方面: 一方面,精简机构,充分发挥人力资源优势。交易所执行市场服务和监管职能,技术公司具有专业的系统开发和建设职能。交易所的做法相当于将系统的开发和建设外包给了专业的技术公司。同时技术公司利用技术上的领先地位,服务于整个市场。交易所内部的技术部门没有必要保留大量的系统开发人员,大大的优化了组织管理机构,充分发挥人力资源优势。 另一方面,开发与运维的界限更明晰,提高企业的效能。开发外包给专业的技术公司,用IT实现业务功能,而技术运营部门负责系统的运营和维护,并且把业务需求转变成IT,开发和运维之间界限的明晰,可以有效的提高企业的效能。 规划和建设:以业务为导向 在网络架构上,在中国证监会期货监管部的统一规划下于2000年,全国的上海、大连、郑州三地的期货交易所之间实现高速互联,各交易所采用垂直的三层结构,分别是接入层(Access)、隔离层(执行相应安全策略)和应用层,共享网络和通讯链路,实现交易所之间的信息交互,完成会员间远程交易和结算。 2004年7月完成整体规划设计以来,上海期货交易所当年完成骨干设备的更新换代。在建设骨干网络的同时,也同步部署网络管理系统。使用CiscoWorks、Micromuse Netcool和NetScout等网络管理工具来实时监视网络运行状态,故障管理及性能情况。第一期网络建设项目已于2004年年底顺利完成。核心和骨干网络设备已从原来的Cabletron设备更换为Cisco主流设备;实施完成了交易网络与生产、办公网络的完全隔离,进一步完善安全防范体系。 在大力IT基础设施建设的同时同步建设相应的综合管理系统,目前已经基本完成了综合网络管理平台的建设,全面提高网络监控能力,从而为将来新一代业务应用打下一个坚实的网络基础,搭建了可靠的基础设施环境。规划中的基础设施还有统一的身份鉴别系统、存储系统和灾难备份中心等。目前灾难备份中心的项目工程的前期准备工作正在紧锣密鼓地筹备中。 在系统的规划建设过程中,以前的规划建设是先做IT再做业务模型,然而这种情况从2003年开始发生转变,以IT为导向转变为以业务为导向。说到底,IT是为业务服务的,IT系统主要是为了对业务的支持,以业务为导向的规划建设是正确之选。 运营和维护:建立安全快速的反应机制 “留痕”审核 安全有效 信息安全是安全的核心,身份鉴别的是一个很重要的问题。然而目前仅使用加密手段的身份鉴别技术具有局限性,目前主要通过“留痕”来审核信息的安全性。日志本身是具有规律的,如果发生任何改动,系统都会留下痕迹。系统的运行日志和交易日志都有一定的规律可循,交易日志化有助于故障问题的查找和分析,同时可以帮助建立和完善事后监督的机制。交易系统实现不同用户类别的权限控制,如交易系统的管理员不涉及具体交易业务的处理;另外对业务处理则根据实际情况实行分权控制,各种权限互不覆盖。通过“留痕”审核,可以把系统的风险控制在可接受的水平。 从2004年开始,在技术部门内部专门成立一个六人业务支持小组致力于提高交易系统性能,使系统容量和处理性能的增长速度比业务的增长快,有效的保障了业务的发展。同时,还注意提高工作的有效性,在平时的工作过程中,系统产生的日志量很大,这给检查日志的人带来了很多麻烦,经过优化,在保证日志的完整有效的前提下,只要记下关键的日志,力求使日志变的简洁,从而提高决策的速度,提高部门和员工的绩效。 快速的反应 有效的管理 在系统的运营和维护过程中可能发生两种典型的事件,一种是突发性的,一种是常规性的。为了更加有效的进行管理,应该把突发性的事件总结、归纳,逐渐将其纳入常规管理的范畴,形成良好的管理规范,也会极大的提高管理效率。 比如会员的远程链路突然短了属于突发性的故障,那该如何处理?对于会员的远程链路突然断了,响应速度必须要快,故障管理中心的票单出来后需要1分钟来分配任务。但是,实际执行中不等任务分配,直接通过Micromuse Netcool故障管理平台,10秒钟就知道问题发生了,之后及时的找出原因,首先与电信部门取得联系,然后与会员取得联系,查明问题到底出在哪里。会员最关心是问题出在哪里,何时能够有效的解决问题。在这过程中,通过不断的积累,关键是形成这样的处理机制,并且按照相应的流程执行。 公司在运维机制上,是否有稳定的且有效的运维规范呢?技术部门对安全管理总结了关键的两个方面:一方面,把规划的安全架构落实到实现方法中去。严总把安全架构比作高等数学,只要方法对了,最后总是有答案的;而不像数学分析,重在分析,不一定有解。另一方面,不断完善的安全策略。如何在短时间内把封闭的安全策略统一是一个十分重要的工作。在基础设施建设上,按照“垂直分层、水平分区”的方法制定不同的安全域,在不同的安全级别下,分层次的统一部署。同时公司也在注意国际上安全等级保护规范如:BS7799,而且以后也会不断的完善机制,形成行之有效的安全策略。
如果您希望与本文章的作者或其所在机构,进一步交流,请联系:畅享网 姜小姐 jill.jiang@amt.com.cn | 021-51096826-112 | 在线联系 |
|
|
|