数据仓库:沙中淘金

2002-11-8 9:50:44【作者】 畅享网 【进入论坛】
本文关键字 理论探讨
广告

数据仓库:沙中淘金

薛斐  

前几年经济技术高速发展带来的信息膨胀与这两年的全球经济衰退把企业推到了这样一种境地——已经积累了大量的数据,还没有来得及转化为获利能力,就遭遇到了紧缩开支的压力。数据仓库恰恰就是这样一种沙中淘金的技术,可以把海量数据转化为获利能力。

在不景气的市场环境中,做出对新技术进行投资的决策真不容易,每个人都必须谨慎行事。然而,数据仓库可说是一种以攻为守的新技术。

数据仓库这个话题虽然不温不火地谈论了好几年,但它的真正意义并未被国内大多数企业充分意识到。其中的原因也许是这个名字过于“学究气”,让人敬而远之。然而,当这种信息技术利器与企业经营结合起来的时候,它的作用又是那样的现实。

从“学究气”说起

在20世纪80年代,数据仓库还是一个“异端邪说”。守旧的数据库老学究们坚持认为应该建立单一的数据模型去满足多种用途。“既然是为了不同的目的,就应该建立不同的数据模型”,这种说法显得过于标新立异。然而,正是这种学说使得数据仓库蓬勃发展,既包括集成化的数据,又包括历史数据;既有细节数据,又有综合性的摘要数据,这些特性使数据仓库为企业打开了信息分析、信息处理的大门。

从另外一个角度去看,数据库向数据仓库的飞跃同样耐人寻味:数据库主要是面向事务处理,很好地优化了数据存储和数据更新;数据仓库主要是面向管理决策,优化了数据的访问和利用。数据库和数据仓库是组织和设计数据结构的两类完全不同的方法。

从传统数据库理论的束缚中挣脱出来以后,数据仓库技术的发展极为迅速,很快就发生了变异,形成了不同的技术特色。以下是几种有代表性的数据仓库:

● 运作型数据存储 (ODS,Operational Data Store):包含数据仓库和运作系统两种特性的混合数据仓库系统;

● 数据集市:小规模、面向部门/工作组的特定应用、可快速实现的小规模数据仓库;

● 探索型数据仓库(Exploration Warehouse):在这种数据仓库中,使用者(Explorer)可以针对海量数据的细节进行复杂的查询;

● 数据挖掘数据仓库(Data Mining Warehouse):在这种数据仓库之中,数据挖掘者可以验证自己的假定、判断和猜测;

● 项目型数据仓库(Project Warehouse):为某个特定的临时性项目而专门建立的数据仓库。

随竞争而动

数据仓库上述分类方法主要是从技术的角度来看的。对于企业来说,更实用的角度应该是从应用出发。如今,数据仓库最主要的企业应用包括三个领域:CRM、ERP和电子商务。应该看到,不论是哪种应用,都对数据仓库提出了一些共性的要求。

近两年,大规模数据仓库技术的变化更加迅速,主要表现在:数据量和用户数量的爆增使数据仓库在可伸缩性方面遇到了前所未有的挑战;数据分析的规模和复杂性有了空前的提高;数据来源的数量和类型呈现多样化。随着采购决策的分散化,分布在各地、各部门的应用系统和数据集市就像是山坡上的蘑菇一样到处泛滥。实际上,数据仓库系统需要管理的数据类型,包括大量的实体、关系、属性和映射,其数量远远超出了人们的想像。越来越多的数据类型和关系意味着需要更强的数据综合能力。

同时,系统运行的节奏大大加快了。Internet把人们对于信息时效性的期望提到了分分秒秒的程度。于是,所有的运行周期都缩短了——数据更新、分析、报告、决策和行动也必须在分秒之间完成。按月进行更新的数据仓库已经成了“远古时代的恐龙”。所以,数据仓库虽然仍在沿用5年前的名称,但它的本质已经完全不同了。企业如果不能拥有一个集成化、可伸缩的基础架构,就会面临完全失去控制的危险。

企业必须快速、有效、深入地开采数据,并且简便易行地管理数据仓库的变化,而且这种变化常常是出人意料、无法预知的。所以,可扩展性显得尤为重要。同时,集成性、性能、分析能力、数据及时性和系统可管理性等方面的要求缺一不可。

集成性

数据仓库本身的使命是从根本上实现整个企业的数据集成并使企业所有成员从中受益,实现更加正确、高效的分析与决策。然而,数据仓库本身的结构复杂性却使得集成问题更加难以解决。所以,数据仓库的基本需求就是要让它自身的各个组成部分——数据库引擎、ETL引擎、OLAP引擎、数据挖掘引擎以及元数据库等部分能够有机地集成起来。

数据存取性能

为了在市场上有更出色的表现,企业需要更快速地行动——更快地进行管理决策,更快地推出产品和服务,更快地开发新产品,更快地对市场和技术的变化做出反应。所有这些最终都归结为快速地存取数据。数据仓库之中存放着详细的交易、客户和产品数据。这些数据如果不能快速存取,就会毫无价值。

信息分析性能

对于数据仓库性能要求的下一个层次是从海量数据中发现其中的意义——不仅揭示“哪里出现了异常情况”,而且揭示“哪里出现了假象”;不仅揭示“哪个客户在我这里花的钱最多”,而且揭示“哪个客户为我贡献了最多的利润”;不仅揭示“哪些客户和我做生意历史最长”,而且揭示“哪些客户最有可能被我所保留”。总之,要为企业决策提供实质性的帮助,而非似是而非的判断。

数据的及时性

经济技术环境变幻莫测,决策速度至关重要。同一个客户,在呼叫中心、企业网站或者服务柜台所受到的待遇常常是不同的,而对客户做出购买决定影响最大的交互活动常常只是最后的几分钟或者几个小时。因此,所有的决策都必须以最新、最及时的数据为基础。

在许多行业,电视广告和无线广播广告的内容每天都需要随着客户前一天的购买情况进行调整。例如:书籍和服装类商品的获利能力常常是由最近几周的市场活动所决定的;食品商店的存货情况应当以小时为单位来考虑。决策系统应当运行在以分钟或者小时为单位进行更新的数据库之上。有价值的数据仓库必须既有能力整合历史数据,也有能力整合最新的数据。在一个大型数据仓库之中,保持最新数据意味着每周、每天、每小时甚至每分钟都必须进行大量的数据更新。

适应性

企业建立数据仓库的目的,在很大程度上是为了适应内外环境的迅速变化。数据仓库本身也必须随环境而变化。例如:有新的应用系统投入使用,形成了新的数据源;各个应用的工作负载和使用方式发生变化,产生的数据量也就有所不同;对于数据库的查询可能突然集中在某个特定的领域;企业的并购更容易让原来的数据仓库面目全非。因此,数据仓库必须比其他任何系统都有更好的适应性。

可伸缩性

这个问题包括两个方面:数据容量的可伸缩性和工作负载的可伸缩性。

数据容量几乎成为数据仓库最重要的限制。如果一个数据仓库是成功的,那它每个月肯定都会拥有更多的数据——更多的表格、更多的行、更多的列。越是成功的数据仓库,数据增长就越迅速。

最近的一次调查显示,17%的用户认为在今后3年内其数据仓库的容量将会增长10倍以上。

数据仓库平台的工作负载也在迅速增长。企业中使用数据仓库的人越来越多。5年前,数据仓库只应用于战略层面上的决策,使用者也只是一少部分高层决策人士。今天,数据仓库已经进入新的时代,应用方式和应用者都大大扩张了。其中增长最快的一个方面就是战术决策支持,特别是许多直接与客户打交道的一线人员也在使用数据仓库了。在大型企业中,销售和服务人员可能成千上万,都可能是数据仓库的使用者。而且,有许多公司正在与客户、合作伙伴和供应商共享数据仓库。所以,一个数据仓库系统的使用人员达到数百万也不奇怪。正如NCR公司在最近举行的Teradata合作伙伴年会上提出的——把决策支持推向企业的最前沿。

可管理性

随着数据仓库规模的增大,管理难度和风险也在增大。数据仓库之中包含大量的数据、大量的表格、大量的应用和服务、大量的使用者以及巨大的存储系统,所有这些都需要非常复杂的管理,需要有功能强大的集成化管理机制。而且,这种管理能力上的需求,仅仅依靠管理机构和人员是不够的,在数据库引擎之中融入先进的自我管理机制已经成为明显的趋势。

本文原载于计算机世界

如果您希望与本文章的作者或其所在机构,进一步交流,请联系:畅享网 姜小姐
jill.jiang@amt.com.cn | 021-51096826-112 | 在线联系
罗永辉呼吸BI[原创]商业智能:感性到理性 完..

  2007年是商业智能从感性回归理性的一年,也是从完善到提升承前启后的一年。 回顾篇 认识层面 2007年,国内国外普遍加深了对BI的理解。Gart……

TTNN-BI观点TTNN-BI观点十月刊——湖光山色

2007,国际权威重新定义了BI。从当前实践看来,这种定义符合实际,毕竟BI要落地,要能给企业带来真正的收益。当然,如何落地,自然必须有技术的支撑和管理策略及相……