|
数据挖掘:扩充信息仓库框架(下)(by AMT 胡鹏)广告 摘要:竞争性商务的压力以及改善现有IT投资的渴望驱动着企业不断尝试数据挖掘技术,这种技术的功能在于帮助企业从数据中找出隐藏模式,这些模式有助于企业对其重要客户的购买行为进行理解,识别信用度或保险欺诈,预测金融市场的可能性变化等等。本文将对数据挖掘进行探讨,其对用户的的潜在利益,以及IBM在此领域的发展,另外也将说明如何把数据挖掘活动集成到一个现存的用户环境中,其中包括那些已经对数据仓库进行利用的活动。 数据挖掘:扩充信息仓库框架(下) by AMT 胡鹏
有很多数据挖掘的方法,要加以分类的话,其中一种方式是按功能,另一种则是按其适用的应用程序类别。在此将讨论四种类别的挖掘功能,包括关联、顺序模式、分类器和聚类,这种分类方法是现在已经很常见了。现在已有非常多的技术可用来构建数据挖掘功能(如上面提到的四种功能等),并且这些技术还在不断发展着。过去,分类和聚类技术在各种形式的决策支持系统中得以应用,另外,一些决策支持系统也具备了相当有限的关联功能。如今,IBM开发的技术提供了强大的关联和顺序模式功能(详见解决方案部分),在此将对各种数据挖掘功能进行讨论,并给出一些利用这些功能的应用程序例子,同时指出构建这些功能所采用的基本数学方法。 关联 假定有一组条目及一个相关的记录集,这两个集合中都包含了条目集中的一些条目,关联功能就是为找出存在于各条目间的相关性而对记录集进行的操作。相关性可用诸如此类的规律来表示:“包含条目A、B、C的记录中,有72%也同时包含了条目D和E”,事件出现的具体百分率(在此例中为72)称为该规律的置信因子,另外,在此规律中,A、B、C称为D、E的对立方,关联可在规律的任何一方中包含任意数量的条目。对于关联功能的一种典型应用是“购物篮分析”,在这种分析中,零售商可以对销售交易日志执行关联分析。交易日志中除了其它信息之外,一般都有交易标识项和商品标识项,上面所说的条目集在这里就是指全部商品或SKU(Stock Keeping Unit)的描述符,通常,这一个集合是一个包含了100000个条目以上的序列,按照上述定义,在同一个交易标识项下列出的所有商品标识项合起来组成一个记录。在这种情况下,关联功能的输出就是商品相关性的列表。这样,通过对关联功能的调用,购物篮分析应用就可得出诸如此类的结论:“在售出某一品牌的烘炉时,有20%的顾客同时会购买一套厨用手套及配套炉罩”。另一个利用关联的例子是在病人向医保公司索赔时的应用的表格分析程序。每一张索赔表上都包含着病人治病时的一系列医疗程序,通过将表格上的所有医疗程序定义为条目集合,再将表格上相应的内容定义为记录,表格分析应用程序就可通过关联功能找出经常一起进行的医疗程序之间的关系。 顺序模式 在上面提及的交易日志中,顾客标识并非总是能得到的,如果这个信息存在,就可以对具有同样结构(例如由一个条目集抽出的部分条目组成)的相关记录集进行分析,这些记录可通过有多次购买行为的客户标识进行联系。这种情形的典型应用是直接邮购。这里,邮购商保存了第位顾客在每一次订购活动中的商品信息,顺序模式功能可对这样的相关记录集进行分析,并得出随时间变化的商品购买模式。对于前面的微波炉例子来说,顺序模式可用来发现在购买微波炉之前一般客户会购买哪些商品。应用这种功能的另一例子,比如说发现这样一个规律:X证券在5个交易日内上涨了10%,Y证券在此阶段的涨幅为10%~20%,那么,在此情况下,有68%的机率Z证券将在接下去的一周开始上涨。顺序模式的功能非常强大,可用于探测与某些经常发生的购买模式相关的客户集。在上面的保险索赔例子中,这种功能可用于识别常规的医疗程序顺序,这将有助于识别良好的医疗措施,还有助于鉴别某些保险欺诈。 分类器 给定一组记录,每个记录都由一些属性组成,再给出一组标签(代表记录类别),然后对每个记录分配一个标签,分类功能可对这些带标签的记录进行分析,并得出关于每一类记录的特征性描述。通过分类操作得到的类别描述可以是显性的(比如描述每个类别的一组规律)或隐性的(比如对属于某一类别的记录给出一个数学函数,然后该记录可作为函数的输入),这些类别描述可用于给新记录加上标签以确定其所属类别。类别描述的具体做法有时称为模型,现今已有很多种分类模型,典型的比如线性回归模型、决策树模型、基于模型的规则和神经网络模型等,其中,决策树分类器是显性的,而神经网络分类器则是隐性的。 至于哪一种分类功能是最适用的,让我们来看一个信用卡分析的应用例子。一个信用卡发行公拥有其客户记录,每个记录由一些描述符或属性组成。对于那些有信用记录的客户来说,其信用状况可能会标上“好”、“中”、“差”等,这意味着该客户已被划入相应的信用风险级别,分类器可对这些带标签记录进行检查,并对每种类别得出显性(或隐性,由模型决定)描述。如果应用程序希望对每一类客户给出一个确定的描述时,则可采用显性模型(比如决策树模型),例如,分类器可以对“好”客户如此描述:收入在25000以上,年龄在45~55之间,居住在XYZ附近地区。隐性模型(比如神经网络模型),则可有效地应用于诸如图形识别系统中,在此,神经网络分类模型可输入一组图形特征或属性,再带上标签(例如“合法”、“不合法”),然后这种模型就可以用来对给定的图形确定其类别。 很多分类应用程序中都已采用了分类功能,比如信用风险分析、组合选择、保健风险分析、图像和语音识别等。 聚类 与分类操作中输入一组带标签记录不同,在聚类操作中输入的是无标签的记录集。在进行聚类操作时,不存在任何已知类别,事实上,聚类功能的目标就是要对输入的记录集根据某种标准进行一个合理的划分。标准本身是由聚类工具定义的,因此,不同的聚类功能会对输入的记录生成不同的划分。聚类功能将对划分得到的不同部分生成显性的或隐性的描述。对聚类功能进行应用的例子有市场划分、寻找相关群体、过失分析等,很多在分类功能中所使用的数学方法也可以用来构建聚类功能。 很多时候都可以结合运用多种数据挖掘操作。例如,关联操作可用于找出具有高度共同购买倾向的商品组,而顺序模式功能可用于找出那些购买了其它商品之后接着购买某种商品的客户群,然后这些分组可用来驱动分类功能,以便得到某类商品(或用户)的一般性描述。如果前面例子中谈到的那个市场经理试着销售的新产品是微波炉,那就可以执行顺序模式数据挖掘操作,这样可选出那些根据其购买模式将会对微波炉有购买意愿的重要客户,这些客户在将来很有可能会购买微波炉,因此在决定促销对象可以主要瞄准他们。 数据挖掘和信息仓库框架 数据挖掘工具可以找出埋藏于原数据中的有用信息(即是发现模式),是对查询、多维分析和可视化工具的补充,从而可获得对数据的更好理解。此外,优秀的查询和数据可视化工具也与数据挖掘操作一样重要,都是构建良好的决策支持环境中必不可少的一部分,如下图所示: 图一 信息仓库环境中的数据挖掘 很像常规的采矿流程,先从矿藏中将原料获取出来,再对含有贵重金属的矿石进行几个步骤的提取;数据挖掘也由三个清晰阶段或步骤组成,即数据准备、挖掘操作和提交,信息发现的流程可以说就是对这三个阶段的不断反复。 第一阶段,数据准备,可进一步分成两个小步:数据整合和数据选择及预分析。数据整合是指将操作环境中的数据进行合,这些数据通常存贮于多个文件或数据库中。解决歧义、处理遗漏数据、清理脏数据集,这些都是数据整合中常见的问题。由于这些问题与构建数据仓库时出现的问题差不多,这里不再进行讨论。数据挖掘并不要求必须建立数据仓库,通常可以先将数据从操作文件中下载到普通文件中,这些文件包含了数据挖掘分析所需数据。然而,在很多情况下,如图中所示,数据挖掘可以而且应该从数据仓库中直接执行。数据整合过程中其它专门与数据挖掘相关的问题,涉及到确定挖掘所需数据和消除数据偏向等方面。确定数据与给定的挖掘操作相关,这是一个棘手问题,在市场上还找不到什么好的解决方法,分析者得靠自己决定哪些数据是与执行的数据挖掘相关的。例如,为了在购物篮分析中找出商品相关性,可以把广告和货架布置信息包含进来。数据偏向会导致含有错误信息的发现,因此必须在执行数据挖掘之前对其进行检测和排除。数据整合步骤的结果是,数据被放入数据仓库(或者普通文件)中。接下来可进行数据选择及预分析处理以得到数据子集,这个步骤是为了提高挖掘结果的质量,或者是为了克服当前数据挖掘产品的局限性。很多时候数据选择及预分析工具都随着数据挖掘工具一并提供,另外,在某些特殊的前端产品中也提供了这类工具,比如IBM的DataGuide*和Visualizer等。 数据挖掘流程的第二阶段是真正进行挖掘的阶段。数据挖掘处理器对使用关系型数据库(如IBM AIX/6000服务器上的DB2)的数据仓库进行访问,这种访问是通过一个标准的SQL接口进行。通过中间件产品(如DataJoiner),同一个SQL接口可允许对多个数据源进行挖掘。如果准备挖掘的数据已下载到一个普通文件中,则数据挖掘处理器可直接访问这个文件。 第二阶段完成后,第三阶段的结论提交开始进行。与第一阶段一样,这一提交过程可通过数据挖掘处理器来完成,也可由前端工具来完成,如IBM的Visualizer或DIS等。 IBM的解决方案 数据挖掘是信息仓库框架的重要组件,对信息仓库产品进行补充,提供数据挖掘解决方案,这是IBM的发展战略之一。
图二显示了IBM数据挖掘技术的整个体系结构。挖掘内核包括了本文在技术部分所讨论的执行数据挖掘功能所需的模块,其关联操作和顺序模式操作合并在一起,是IBM最先推出的产品,其它挖掘功能则将在以后再加以补充。关联操作和顺序模式操作有很多相同的功能特点:如前面所讨论的,两者都属于发现模式,因此,当对这些工具进行利用时,用户将得到相应数据的信息对他们来说也许是全新的。 两种操作都提供了完备性,这是IBM数据挖掘技术的一个独到之处。例如,当进行顺序模式操作时,数据中找到的所有模式都能以多个支持水平提供给用户,同样,所有的关联规律也具有多种置信度和支持水平。 使IBM的数据挖掘技术显著区别于其它基于查询技术的另一方面表现在其性能上,由于满足输入参数的所有关系只需调用一次关联功能(或顺序模式)就能得到,因此其处理流程在寻求数据中的有价值信息方面效果显著。例如,据一个用户所述,采用IBM的数据挖掘技术,运行于单个RS/6000引擎上,仅一小时不到就返回了存在于1GB数据中的一整套关联规律。相比之下,同样是这个客户,在利用基于查询的DSS时,其运行于一个并行处理引擎上,要得到上述的关联规律则花了两周的时间。 IBM的数据挖掘技术简单易用,要进行关联操作,用户只需确定待挖掘的数据和两个参数:一个是最初定义的关联操作的置信度参数,另一个称为支持参数S,指明了关联操作或顺序模式操作所发现的规律至少可由S%的被挖掘数据支持。对于待挖掘数据的规范化则在控制用户界面组件中进行,这个组件允许用户对普通文件或关系型数据库通过SQL接口进行各种特定方式的访问。 IBM的数据挖掘技术是以C/S(客户/服务器)系统方式实现的,其挖掘内核在AIX/6000、MVS或SP2*等服务器上进行数据挖掘处理,结果返回到AIX/6000或OS/2的客户端供用户查阅。结果的返回是采用标准的ASCII文件形式,因此可以由多种接受ASCII文件输入的前端工具调用,这就使数据挖掘操作的结果可与各公司现有的各种工具和应用程序进行平滑集成,同时也排除了对员工进行新环境培训的需求。应用编程接口(API)则提供了另一种输入方式,使一些应用程序可直接调用数据挖掘功能。 如前所述,用户经常是在全部数据中选出一个子集进行挖掘操作。例如,在常见购物篮分析中,当关联操作的执行是针对给定的某一季度或某一周的数据,那么比起跨越全年的数据来说,这将更具意义,这是因为,对于一个给定支持水平上存在的规律来说,当被挖掘数据来自较长时间周期时,其真实度更低。同样,在常见的购物篮分析中,当搜寻数据来自某一时间的某个商店时,则所得到的商品关联信息将更有意义。接下来对来自几个数据集的数据挖掘结果进行比较将很有价值。为了支持这种操作方式,必须提供一个知识数据库以存贮在不同挖掘执行方式下所得到的各种规律。 在挖掘过程中可能会用到多种数据源以得到待挖掘的基本数据,IBM数据挖掘技术为AIX/6000的文件输入提供支持,同时通过SQL接口提供从DB2到AIX/6000的数据库输入支持,另外还提供一个开放性的应用编程接口(API)以支持对其它各种数据源的访问。 全文完 作者联系方式:hupe2000@sina.com 如果您希望与本文章的作者或其所在机构,进一步交流,请联系:畅享网 姜小姐 jill.jiang@amt.com.cn | 021-51096826-112 | 在线联系 |
|
|
|