商业智能的支撑技术
李艳
由于商业智能只是数据仓库、OLAP和数据挖掘等技术的综合运用,所以我们有必要先来了解一下这些BI的支撑技术。
BI的数据存储技术—数据仓库和数据集市
数据仓库(DataWarehouse)是将从多个数据源收集的信息,按照单一的模式进行存储,并通常将这些信息驻留在单个站点。数据仓库通过数据清理、数据变换、数据集成、数据装入和定期数据刷新来构造其内容。数据仓库收集了整个组织的主题信息,因此,它是企业范围的数据存储。宽松地讲,数据仓库是一个数据库,组织可以将它与组织机构的操作数据库分别进行维护。数据仓库系统允许将各种应用系统集成在一起,为统一的历史数据分析提供坚实的平台,对信息处理提供支持。
按照W.H.Inmon这位数据仓库系统构造方面的权威设计师的说法,“数据仓库是一个面向主题的、集成的、时变的、非易失的数据集合,支持管理部门的决策过程”。这个简短而又全面的定义指出了表明数据仓库主要特征的四个关键词:面向主题的、集成的、时变的、非易失的,将数据仓库与其他数据存储系统(如关系数据库系统、事务处理系统和文件系统)区别开来。让我们进一步看看这些关键特征。
面向主题的(subject-oriented):数据仓库围绕一些主题,如顾客、供应商、产品和销售组织。数据仓库关注决策者的数据建模与分析,而不是集中于组织机构的日常操作和事务处理。因此,数据仓库排除对决策无用的数据,提供特定主题的简明视图。
集成的(integrated):通常,构造数据仓库是将多个异种数据源,如关系数据库、一般文件和联机事务处理记录集成在一起。使用数据清理和数据集成技术,确保命名约定、编码结构和属性度量等指标的一致性。
时变的(time-variant):数据存储从历史的角度(例如过去5-10年)提供信息。数据仓库中的关键结构,隐式或显式地包含时间元素。
非易失的(nonvolatile):数据仓库总是物理地分离存放数据;这些数据源于操作环境下的应用数据。由于这种分离,数据仓库不需要事务处理、恢复和并发控制机制。通常,它只需要两种数据访问:数据的初始化装入和数据访问。
概言之,数据仓库是一种语义上一致的数据存储,它充当决策支持数据模型的物理实现,并存放企业战略决策所需信息。数据仓库也常常被看作一种体系结构,通过将异种数据源中的数据集成在一起而构造,支持结构化的和专门的查询、分析报告和决策。
数据集市(datamart)则是数据仓库的一个部门子集。它聚焦在选定的主题上,是部门范围的。
通过提供多维数据视图和汇总数据的预计算,数据仓库非常适合联机分析处理(OLAP)。OLAP操作使用数据的领域背景知识,允许在不同的抽象层提供数据。这些操作适合不同的用户。尽管数据仓库工具对于支持数据分析是有帮助的,但是仍需要更多的数据挖掘工具,以便进行更深入的自动分析。
BI的分析技术—OLAP、数据挖掘
OLAP
根据OLAP委员会的定义,联机分析处理(Online Analytical
Processing,简称OLAP)是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业维度特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。它的技术核心是“维”这个概念,因此OLAP也可以说是多维数据分析工具的集合。有些历史的企业将会积累下大量的来自外部或内部的数据,在进行OLAP分析时,要先将这些数据批量装入数据仓库。此外,业务系统也会不断产生新的数据,并需要增量装入数据仓库。
数据仓库建立之后,即可以利用OLAP复杂的查询能力、数据对比、数据抽取和报表来进行探测式数据分析了。之所以称其为探测式数据分析,是因为用户在选择相关数据后,通过切片、切块、上钻、下钻、旋转等操作,可以在不同的粒度上对数据进行分析尝试,得到不同形式的知识和结果。
在多维数据结构中,按二维选择数据,称为切片(Slice),按三维选择数据称为切块(Dice)。如在“城市、产品、时间”三维立方体中进行切块和切片,可得到各城市、各产品的销售情况。在数据结构树中,用户选择展开同一级数据的详细信息,称为下钻(Drill-down),选择更高一级的数据详细信息以及数据视图,称为上钻(Drill-up)。钻取的深度与维所划分的层次相对应。旋转(Rotate)则可以通过旋转得到不同视图的数据。
数据挖掘
数据挖掘是按照一定的规则对数据库和数据仓库中已有的数据进行信息开采、挖掘和分析,从中识别和抽取隐含的模式和有趣知识,并利用它们为决策者提供决策依据。
数据挖掘的任务是从数据中发现模式。模式有很多种,按功能可分为两大类:预测型(Predictive)模式和描述型(Descriptive)模式。预测型模式是可以根据数据项的值精确确定某种结果的模式。挖掘预测型模式所使用的数据也都是可以明确知道结果的。描述型模式是对数据中存在的规则做一种描述,或者根据数据的相似性把数据分组。描述型模式不能直接用于预测。在实际应用中,根据模式的实际作用,细分为分类模式、回归模式、时间序列模式、聚类模式、关联模式和序列模式6种。其中包含的具体算法有货篮分析(Market
Analysis)、聚类检测(Clustering Detection)、神经网络(Neural Networks)、决策树方法(Decision
Trees)、遗传算法(Genetic Analysis)、连接分析(Link Analysis)、基于范例的推理(Case Based
Reasoning)和粗集(Rough
Set)以及各种统计模型。
数据挖掘与OLAP的区别和联系是:OLAP侧重于与用户的交互、快速的响应速度及提供数据的多维视图,而数据挖掘则注重自动发现隐藏在数据中的模式和有用信息,尽管允许用户指导这一过程。OLAP的分析结果可以给数据挖掘提供分析信息作为挖掘的依据,数据挖掘可以拓展OLAP分析的深度,可以发现OLAP所不能发现的更为复杂、细致的信息。
BI的表示和发布技术—数据可视化和Web技术
为了发现这些不同类型的知识。要采用多种发现知识的工具。为了使发现知识的过程和结果易于理解和在发现知识过程中进行人机交互,要发展发现知识的可视化方法。为了了解数据之间的相互关系及发展趋势,人们可以求助于可视化技术。信息可视化不仅用图像来显示多维的非空间数据,使用户加深对数据含义的理解,而且用形象直观的图像来指引检索过程,加快检索速度。
在互联网的架构下,支撑商业智能的各项技术是一种交融、整合的关系,以提高商业智能方案的协同性和开放性。
如果您希望与本文章的作者或其所在机构,进一步交流,请联系:畅享网 姜小姐
jill.jiang@amt.com.cn | 021-51096826-112 |
在线联系