|
数据仓库开发策略(上)(by AMT 胡鹏)本文关键字 理论探讨 广告 摘要:从1990年代开始,如果说对于企业的生存,存在唯一的关键因素的话,那就是对千变万化的商务环境快速分析、规划和反应的能力。 数据仓库开发策略(上) by AMT 胡鹏
从1990年代开始,如果说对于企业的生存,存在唯一的关键因素的话,那就是对千变万化的商务环境快速分析、规划和反应的能力。为了做到这一点,企业的高层管理者、分析家和知识工作者需要更多、更好的信息。 如今,全世界的各种组织所运用的信息技术本身在不断取得突破,而另一方面,在许多组织中,尽管每个人的桌面上都摆放着功能强大的计算机,通讯网络也扩展到全世界,但当众多的执行官和决策者们想从组织中获取已经存在的信息时,依然感到无从下手。 大大小小的组织每天都在新建着数十亿字节与业务相关的数据,以及数百万条与客户、产品、运作和员工相关的记录,但在很大程度上,这些数据被锁定在各种计算机系统中,可望而不可及,这种现象可称为“牢房中的数据”。 据专家们估计,在企业采集、处理并存贮的数据中,实际上只有相当小的一部分可供执行官或决策者们利用。尽管数据操纵和提交技术已逐渐开发完善,然而为大型企业研发IT策略的人们最终却发现,企业的大部分领域仍然属于“数据贫民区”。 1.2)数据仓库——为企业提供数据访问 目前,一系列的相关概念及工具汇聚起来已形成了一门技术,可攻克上述难题,为企业的关键人员提供任何层次上的信息访问,以助企业在日趋激烈的竞争世界中得以生存和繁荣,这就是“数据仓库”。数据仓库是从各种研究者或机构的无数次反复尝试中成长起来的,可为企业获取数据提供灵活、有效、高效的方法,使企业的这种最重要、最有价值的资产得以充分利用。 1.3)运作型系统 VS. 信息型系统 从数据仓库实践中产生的概念,最重要的也许是这样一种共识,即在所有的组织中都存在着两种根本不同类型的信息系统:运作型系统和信息型系统。 运作型系统正如其名称所指,是帮助我们运转企业日常业务的系统,这些系统是所有企业的中枢神经,如“订单录入”、“库存”、“制造”、“薪酬”和“会计”等系统。由于对企业非常重要,因此运作型系统几乎总是企业进行计算机化的最先部分。经过多年的发展,这些运作型系统得到不断扩展、改善、增强和维护,已被彻底的整合到企业中。的确,当今世界的多数大型企业,如果没有运作型系统及其所提供数据的支持,则必将停止运转。 另一方面,企业中还有一些与组织规划、预测和管理有关的功能,对于企业如何在当今快节奏的世界中生存下来至关重要,比如“营销规划”、“工程规划”和“财务分析”等,这些也要求得到信息系统的支持,但这些功能与运作型功能不同,所要求的系统及信息类型也不一样,这种基于知识的功能就是信息型系统。 “信息型系统”与数据分析及决策有关,其中经常涉及关于企业当前及以后应如何运作方面的重大决策。信息型系统与运作型系统不仅侧重点不同,通常其所涵盖的范围也不同,运作型数据需求一般侧重于某个单独的领域,而信息型数据需求则一般需要跨越若干种不同领域,并且需要大量相关的运作数据。 在过去的这些年中,数据仓库已经迅速地从一系列的相关概念发展为一种数据传输的体系架构,可以满足企业最终用户的计算需求。 2)数据仓库框架 数据仓库的发展之所以耗费了如此长的时间,其中一个原因是因为这种技术所涉及的内容确实非常广泛。实际上,对数据仓库最确切的描述应该是,一种用于管理企业内部信息型数据的企业范围的框架。 2.1)数据仓库体系结构 数据仓库体系结构(Data Warehouse Architecture ,DWA)是指,为了满足企业内部最终用户的计算需求,由数据、通讯、流程及提交等组成的整个架构。体系结构由若干互连的部分组成: 运作数据库/外部数据库层 图 一 数据仓库体系结构
运作型系统的数据处理是为了支持主要的运作需求,为此,需要预先建立运作数据库,以为定义清晰的业务事务提供高效的处理结构,这类事务的数量相对较少。然而,运作型系统主要侧重于某些方面,具有局限性,因此,对于其它管理或信息型目的来说,用于支持运作型系统的数据库难以提供所需数据,这种获取运作数据的困难可以通过一个简单的事实来说明:许多运作型系统通常都有10~15年的历史,这么长的时间意味着其数据访问技术本身已经很陈旧了。 显然,数据仓库的目标就是要将锁定在运作数据库之中的信息释放出来,并与其它数据源(通常是外部的)中的信息相结合。大型机构正不断地从外部数据库获取另外的数据,这些信息包括人口统计学、计量经济学、竞争及购买趋势等,“信息高速公路”的存在使我们每天都可以访问更多的数据源。 2.3)信息访问层 数据仓库结构体系中的信息访问层是最终用户直接面对的层面,特别是,它代表了最终用户每天经常使用的工具,比如Excel、Lotus 1-2-3、Focus、Access、SAS等等,这一层还包括了一些与显示及打印相关的软硬件,以便为数据分析及表达提供报表、电子数据表、图形、图表等。在过去的20年中,信息访问层已得到了极大的扩充,特别是当最终用户转向PC和PC/LAN之后。 如今,用于数据操纵、分析和提交的工具越来越多、越来越成熟了,然而,要想将运作数据库中的数据简便、无缝地提供给最终用户的工具,这中间仍然存在着不可忽视的问题。解决这个问题的一个关键因素,是找到一种可供整个企业共同使用的数据语言。 2.4)数据访问层 数据仓库体系结构中的数据访问层涉及到信息访问层与运作层之间对话的能力。在当今的网络世界中,已形成了共同的数据语言,即SQL,SQL最初是由IBM研发的一种查询语言,经过20年后,这种语言已成为数据交换的一种事实上的标准。 在过去这些年中所取得的一个重大突破是一系列数据访问“过滤器”(如EDA/SQL等)的成功研发,这使SQL几乎可以访问所有的DBMS(数据库管理系统)和数据文件系统,不论是关系型的还是非关系型的。利用这些过滤器,新型的信息访问工具可对具有二十年历史的DBMS之中的数据进行访问。 数据访问层不仅可跨越同一硬件上的不同DBMS及文件系统,同时还可跨越不同的制造商和不同的网络协议。数据仓库策略的重点之一就是向最终用户提供“通用数据访问”,这最少从理论上意味着,不管最终用户处于什么样的地理位置,也不管使用什么样的信息访问工具,都应该能访问企业中任意的、所有的数据,以满足工作需要。 因此,数据访问层应该负责信息访问层和运作数据库之间的接口,在某些情况下,这已经是某些最终用户的全部需求了,然而,一般情形下,企业还须发展更高级的模式以支持数据仓库。 2.5)数据目录(元数据)层 出于通用数据访问的需要,必然要维护某种形式的数据目录或是元数据信息库。元数据是关于企业数据的数据,COBOL程序中的记录描述是元数据,FORTRAN程序中的数组声明、SQL中的创建声明以及ERA表中的信息等也都是元数据。 为了得到一个完整功能的数据仓库,必须拥有各种各样的元数据,包括关于最终用户数据视图的数据和关于运作数据库的数据等。最理想的情形是,最终用户能从数据仓库(或从运作数据库)访问数据,同时不必知道数据存放位置,不必知道存放在哪一张表中。 2.6)处理流程管理层 处理流程管理层涉及到对各种例行任务的排定,以便建立或维护数据仓库及其数据目录信息。处理流程管理层可被看作是众多处理流程(程序)的调度程序或高层工作控制,这些流程必须得到执行以保持数据仓库的及时更新。 2.7)应用程序通信层 应用程序通信层负责企业计算网络上的信息传输。应用程序通信也即是指“中间件”,但其所涉及的不仅仅是网络协议,例如,应用程序通信可用于将运作型或信息型应用程序与最终数据格式隔离开来;也可用于收集事务和消息,并在特定时间将其传送到指定位置。传输系统中的应用程序通信是数据仓库的基础。 2.8)数据仓库(物理)层 (核心)数据仓库主要是为信息型使用需求提供数据的,在某些情形下,可以把数据仓库简单地想象为一个逻辑的或虚拟的数据视图,很多时候数据仓库可能并不真正涉及到数据存贮。 在物理的数据仓库中,运作数据或外部数据的副本以易于访问的、高度灵活的形式进行存贮,有时需要存贮多个副本。数据仓库越来越多地被存贮到客户端/服务器式的平台上,不过存贮到大型机上的也为数不少。 2.9)数据分段层 数据仓库体系结构的最后一个组成部分是数据分段层。数据分段也称为副本管理或复制管理,但实际上,数据分段包括了所有必需的处理流程,这些流程负责从运作数据库及外部数据库中获取数据,然后就行选择、编辑、汇总、合并等操作,最终装载到数据仓库中。 数据分段经常会涉及到复杂的编程,但现在已有越来越多的数据仓库工具可对这一流程提供帮助。数据分段另外还涉及到数据质量分析程序和过滤器,可对已有的运作数据确定其模式和数据结构。 未完待续 作者联系方式:hupe2000@sina.com 如果您希望与本文章的作者或其所在机构,进一步交流,请联系:畅享网 姜小姐 jill.jiang@amt.com.cn | 021-51096826-112 | 在线联系 |
TTNN-BI观点十月刊——湖光山色2007,国际权威重新定义了BI。从当前实践看来,这种定义符合实际,毕竟BI要落地,要能给企业带来真正的收益。当然,如何落地,自然必须有技术的支撑和管理策略及相…… 专业博客 |
|
|