|
数据仓库开发策略(下)(by AMT 胡鹏)本文关键字 理论探讨 广告 摘要:从1990年代开始,如果说对于企业的生存,存在唯一的关键因素的话,那就是对千变万化的商务环境快速分析、规划和反应的能力。 数据仓库开发策略(下) by AMT 胡鹏
有多少个机构,也许就有多少种数据仓库的开发方式,另外,还有多个不同的维需要予以考虑: 数据仓库的范围 图二的二维表格显示了基本选项,其水平维表示数据仓库范围,垂直维表示必须存贮及维护的冗余数据量 图 二 数据仓库选项
数据仓库的范围可能会跟整个企业从一开始的所有信息数据一样宽广,也可能会跟仅用一年的一个个人数据仓库一样狭窄,这些数据仓库之间并没有什么本质区别。 实际上,范围越宽,数据仓库对企业的价值越大,创建和维护所需投入的资金和时间也越多,综合考虑之下,多数企业倾向于从功能型或部门级的数据仓库开始,当用户提供反馈后再进一步扩展。 3.2)数据冗余 当企业在考虑数据仓库选项时,数据冗余的选择基本上可划分为三种水平: 不能说哪一种方式是最好的,每一种选择都适合某种特定的要求,而数据仓库策略最终也许会同时包括三种选择。 3.2.1)“虚拟”或“点到点”的数据仓库 “虚拟”或“点到点”的数据仓库策略意味着,利用任何一种“数据访问网络”的工具,最终用户都可以直接对运作数据库进行访问。这种方式具有最大的灵活性,同时所需装载和维护的冗余数据量也最小,但这种方式也会造成对运作型系统最大的无计划查询负担。 一般说来,虚拟数据仓库通常是某些企业的初步策略,对于这些企业的大部分最终用户来说,他们获取运作数据的需求是宽广的,同时又是不确定的,查询请求的频度一般较低。虚拟数据仓库通常为企业提供了一个出发点,以了解最终用户的真正需求。 3.2.2)集中式数据仓库 当人们最初接触数据仓库的概论时,大多数人都自然地认为数据仓库应该是集中式的。集中式数据仓库是一个单独的物理数据库,包含了某个特定功能领域的所有数据,比如部门的、分公司的、企业的等等。集中式数据仓库的选用,一般是当存在着对信息型数据的共同需求时,并且要求大量用户已经连上了集中式计算机或网络。集中式数据仓库中存贮的可以是任意特定时期的数据,通常,集中式数据仓库包含的数据还来自于多个运作系统。 集中式数据仓库是实际存在的,数据仓库中所存贮的数据都是从同一地方进行访问,必须经常进行装载和维护。通常,数据仓库建立在先进的RDBM或某种形式的多维信息数据库之上。 3.2.3)分布式数据仓库 分布式数据仓库正如其名称所指,数据仓库的某些组成部分分布于各种不同的物理数据库中。大型机构正逐渐将决策权下放到组织中越来越低的层次上,理所当然,也就将决策所需的数据下放到为本地决策服务的局域网上或本地计算机中。 3.3)最终用户的类型 数据仓库的组织也同样有多种方式,尤其要注意的是,最终用户的范围也在逐渐拓宽。通常可将最终用户按三个大类加以区分: 执行官和经理 这三类用户中的每一类都有自己的一系列要求,包括数据、访问、灵活性和易用性等方面。 4)开发数据仓库 开发一个好的数据仓库跟其它IT项目并没有什么不同:要求精心的策划、需求定义、设计、原型构造和实施等,其中的首要因素是规划过程,这决定了机构最初的数据仓库策略。 4.1)制定数据仓库策略 在开发数据仓库之前,制定一个平稳的数据仓库策略是非常重要的,必须要适合其需求和用户数。谁是使用者?范围多宽?将建立何种类型的数据仓库? 当企业刚开始进入数据仓库领域时,有多种策略可供选择,其中一种是建立“虚拟数据仓库”环境。建立虚拟数据仓库需要做到:(1)配置一系列的数据访问、数据目录及处理流程管理设备(2)培训最终用户(3)监视数据仓库设备的实际利用情况(4)以实际运用为基础,建立物理数据仓库以支持高频需求。 第二种策略是简单地对某个运作系统的数据进行复制而得到数据仓库,并为其配备一系列的信息访问工具。这种策略的优点是简单而且快速,但是,如果已有数据的质量不高或者数据访问手段不完善,则会引发大量的严重问题。 最后,最优的数据仓库策略是:首先根据对企业的价值选定一个用户群,然后对他们的观点、问题和数据访问需求进行分析,针对这些需求建立原型数据仓库并载入数据,以便最终用户进行试验和调整需求,当这些需求得到普遍认同后,就可以从整个企业的所有运作系统或外部数据源获取数据并装入数据仓库。如果有必要,还可以配备信息访问工具,使最终用户能利用他们喜爱的工具获取所需数据,并最终建成一个基于核心数据仓库的、高性能的多维信息访问系统。 归根到底,没有任何一种建立数据仓库的方法是对所有企业都适合的,由于每个企业的具体情况不同,因而其需求也是不同的。另外,随着我们对数据仓库开发了解得越来越多,数据仓库技术也在不断地进步着,这表明唯一实用的方法就是与时俱进。 4.2)逐步改进数据仓库体系结构 图一所示的数据仓库体系结构仅给出了一个框架,目的是为了理解数据仓库和说明数据仓库的各组成部分是如何协同工作的,只有最成熟的机构才可能一次性地建立如此一个体系结构。另外,这个数据仓库体系结构提供的只是一种“路标”,为实际设计指明方向。这个数据仓库体系结构与具体选择相结合,可以确保机构的数据仓库框架向合理的方向发展。 4.3)设计数据仓库 设计数据仓库与设计传统的运作系统是极不相同的,首先,数据仓库用户通常并不象运作系统用户那样清楚地了解其需求;其次,设计数据仓库与设计运作系统相比,所涉及业务概念的范围要宽广得多,也更难以定义,在这方面,数据仓库与业务流程重组(BPR)更为相似;最后,理想的数据仓库设计策略不是“自顶向下”的,而是“从外向内”。 虽然数据仓库设计与我们已习惯的方式不同,但其重要程度却一点也不低。最终用户对其需求几乎一无所知,很难作出定义,在实际操作中,数据仓库的设计者们发现,他们不得不利用书中的一切诀窍来帮助用户“想象”其需求,为此,健壮的运转原型是极为必要的。 5)管理数据仓库 数据仓库不是魔术,需要负担大量的坚苦工作;很多时候数据仓库项目被看作是一种免遭歧视的权宜之计,被认为提供了一些谁也用不着的东西。其实数据仓库需要得到精心的管理和经营,要想数据仓库成为一项优良投资,只有当最终用户确实能更快、更合算地获取重要信息才行。因此,管理层得认真思考这些问题:数据仓库究竟应有怎样的性能?如何向用户群正确描述数据仓库的功能?管理层得意识到,数据仓库结构与任何其它的重要应用程序一样,必须得到精心维护。实际经验说明,数据仓库已迅速成为各种机构中应用最多的系统之一。 管理层,尤其是IT管理层,还必须认识到,如果他们开展数据仓库计划的话,那他们将创造对运作系统的新需求:更优数据的需求、一致性数据的需求以及不同类型数据的需求等。 6)未来展望 数据仓库是一种新领域,什么样的新发展可能会对其造成最大影响是难以估计的,但显然,带有改良查询引擎的并行数据库服务器很可能是其中最重要的方面之一,并行服务器可以在极短的时间内访问大量的数据库。 另一重要技术是混合了传统数字、文本和多媒体的数据仓库,先进的数据可视化工具将使用户看到一些前所未见的东西。 7)结论 数据仓库并不是新现象,所有的大型机构都已经拥有了数据仓库,不过没有进行妥善的管理。以后,随着新产品和新技术的不断推陈出新,数据仓库也将大量增长。对于数据仓库策划者和开发者来说,要想在这个阶段脱颖而出,就必须具有清醒的头脑,以选择正确的策略和方法,为今天的优良性能和明天的灵活性提供保障。 全文完 浏览:数据仓库开发策略(上) 作者联系方式:hupe2000@sina.com 如果您希望与本文章的作者或其所在机构,进一步交流,请联系:畅享网 姜小姐 jill.jiang@amt.com.cn | 021-51096826-112 | 在线联系 |
TTNN-BI观点十月刊——湖光山色2007,国际权威重新定义了BI。从当前实践看来,这种定义符合实际,毕竟BI要落地,要能给企业带来真正的收益。当然,如何落地,自然必须有技术的支撑和管理策略及相…… 专业博客 |
|
|