|
构建高质量的数据仓库/DSS环境(下)(by AMT 胡鹏)本文关键字 理论探讨 广告 摘要:短短几年之内,数据仓库已经从理论变成了一种常规实践,在这爆炸式的增长过程中,围绕着数据仓库已形成了一系列的思想理论。 构建高质量的数据仓库/DSS环境(下) by AMT 胡鹏
另一个数据质量问题也应予以注意:数据仓库中各种数据间关系的质量。这种数据质量问题即是人们早已熟知的“参照完整性”。 作为一个传统运作环境中参照性完整的简单例子,可考虑数据元素A与B之间的一个常见关系:父/子关系,在这种关系中,元素A存在时,元素B以父/子方式与A联系,如果A被删除,那么根据参照完整性,B也应被删除。或者,当一个用户试图插入数据元素B,此时,除非与B相联系的数据元素A已存在,否则不能插入数据元素B。 参照完整性功能的存在是为了保证所定义的关系在数据库管理系统的控制下完整无缺。参照完整性在数据仓库中的应用与运作系统中的应用并无不同,然而,在数据仓库中实施数据完整性时却有着很大差别,这是由下列原因造成的: 数据仓库中的数据量明显要比运作系统中的数据量大得多 数据质量的三个环节之间的比较 在应用程序范围,必须保证正确无误地输入和记录数据。应用程序的数据质量标准包括:保证数据的正确录入、信息没有因为自由形式的字段而被掩盖和飘浮不定。用于探测数据差错的常规清洁程序是很重要的,这可确保错误的拼写不会导致重复的客户或产品条目,确保实体间的关系得以正确维护。 在整合转换层,必须保证数据的整合。在多数环境中,这是所有数据核查工作中最困难的一步。整合数据牵涉到横跨不同的数据文件来确定数据关系,而这些数据文件具有各不相同的多种格式,具有复杂的匹配和合并关系,特别是当非关键字段间存在关系时。 一旦进入数据仓库,必须检查数据随时间变化的整合问题,很多情况下并没有什么不同,但如果出现不同,如何处理这些差异就成了一个问题。 考虑到这些以及其它一些原因,参照完整性在数据仓库环境中的实施与在运作环境中是有很大差别的。 作为DSS数据仓库环境中维护参照完整性的一个简单例子,再考虑上述的父/子关系。在数据仓库环境中,这种关系可以通过一些时间参数对其框定。可以有一个“开始时间”和一个“结束时间”,A与B之间的关系在1月1日至2月15日期间是合法的。数据仓库的参照完整功能将在必要时首先对时间作出及时检查,如果时间已越出该关系所定义的日期,比如说7月20日,那么在A与B间不再隐含该关系;而如果所涉及时间处于“开始时间”和“结束时间”范围中,比如1月18日至2月2日,则必须考虑A与B之间的存在的关系。 分析型数据质量 保证数据仓库中存放数据的最高质量是一回事,而当数据用于分析时是否具有最高质量则是另一回事。在企业信息工厂中有必须进行这种重要的划分,以区别不同的数据质量方式,图五中以虚线将数据质量问题划分为两部分。 图五显示,在企业信息工厂中根据数据质量可划分为两部分,左下部分包括应用程序领域、整合转换领域及数据仓库自身,在此部分主要是尽可能对数据进行清理、净化;而右上部分则包括数据集市和探测仓库等领域,在此部分必须作出诀择以决定何种数据最适宜用于分析。 图 五 获取数据后的数据质量成为另一不同问题 在数据集市和探测仓库领域,保证数据质量的问题变为保证使用了恰当的数据进行分析。对于采用最好数据进行分析的最可靠保证在于分析者自身,分析者必须确知数据的含义、来源、新旧程度等;分析者必须对数据非常熟悉,这样才可以最有效地进行利用;分析者还必须负责对数据的解释。 分析者的最佳助手是准确而健壮的元数据,图六说明,元数据对分析者是非常有用的。 图 六 在数据分析方面,元数据成为中心问题 用于描述企业信息工厂不同组成部分中数据的元数据,具有各种各样的内容,通常,描述企业信息工厂各部分的元数据包括以下描述: 表的描述 元数据挖掘是一种自动化方法,可以使埋藏于旧系统或数据仓库中的重要业务信息浮到面上来,这些信息仅靠元数据运作工具是不能得到的,但却是数据仓库的数据建模者和信息系统的业务用户所急需的。 元数据挖掘是对运作数据在低层次上所进行的研究,它可对所发生记录中的所有数据逐个分析其值,以便为每个值分配一种数据类型,并进行实体识别。 在值/实例层次上处理数据的能力,是解决类型识别、实体识别等问题的基本先决条件,也是企业信息工厂体系结构的心脏部位的质量问题。 任何有助于分析者更简便、更有组织地完成任务的办法都应当积极采纳,一旦分析者有了明确的认识,知道什么是可利用的,知道一组数据与另一级数据的区别何在,他/她就可以作出最简明、最深刻的分析。 全文完 本文由作者向AMT提供 如果您希望与本文章的作者或其所在机构,进一步交流,请联系:畅享网 姜小姐 jill.jiang@amt.com.cn | 021-51096826-112 | 在线联系 |
TTNN-BI观点十月刊——湖光山色2007,国际权威重新定义了BI。从当前实践看来,这种定义符合实际,毕竟BI要落地,要能给企业带来真正的收益。当然,如何落地,自然必须有技术的支撑和管理策略及相…… 专业博客 |
|
|