企业的“黄金眼”数据挖掘决策支持

2002-12-2 11:02:26【作者】 畅享网 【进入论坛】
本文关键字 理论探讨
广告

企业的“黄金眼”数据挖掘决策支持

谢立宏

在竞争激烈的信息时代,企业高级决策层都意识到信息的重要性。同时,网络和数据库的应用使得各种各样的海量数据俯拾皆是。但是,如何高效全面地收集与企业发展密切相关的各种信息,如何对这些信息及时做出分析判断,尽可能地做出具有科学依据的决策?目前,这些问题要么尚未得到充分重视,要么尚未得到完全解决。

随着我国加入WTO和市场竞争的国际化,优胜劣汰的自然规律迫使企业必须学会利用周围有价值的信息,进而应用数据挖掘等先进技术对所得到的数据进行分析,以期对其决策起到强有力的辅助作用。作为“信息管理专家”的赛迪数据,在其核心的数据管理技术服务中,就包含了为用户在制定决策过程中提供数据挖掘解决方案。

数据挖掘应运而生

以计算机为基础的信息系统在企业经营管理中的应用,经历了一个从简单到复杂、从低层管理到高层管理的进化过程。最初出现的有企业事务处理系统(Transaction Processing System,TPS),接着是企业管理信息系统(Management Information System,MIS),进而是企业决策支持系统(Decision Support System,DSS)等系统类型,其中不乏CRM和ERP等专项应用系统。

TPS面向事务处理,是企业业务运行的自动化系统。TPS的核心任务是数据处理,TPS位于企业组织管理的最底层。MIS面向企业功能部门,以满足功能部门的信息需求为主要目标。MIS位于企业运行控制层,按功能分割,服务于不同的功能部门。DSS同样面向功能部门,位于企业的战术规划层,使用TPS、MIS提供的数据和信息进行模型分析,以支持企业决策者进行半结构化的决策。


赛迪数据DM解决方案

竞争情报系统(Competitive Intelligence System,简称CIS)位于企业战略管理层,是面向企业整体、满足战略管理信息需求的企业级信息系统,使用TPS所提供的数据、MIS所提供的信息和DSS所提供的分析工具,用以满足企业非结构化决策的情报信息需求。

然而,目前企业实施的大多数信息系统所基于的数据库系统可以高效地实现数据的录入、查询、统计等较低层次的功能,但却无法发现数据中存在的关系和规则,难以根据现有数据预测未来的发展趋势。收集大量数据之后,缺乏挖掘数据背后隐藏的知识的手段,导致了“数据爆炸但知识贫乏”的现象。

面对这一挑战,数据挖掘(Data Mining,DM)技术应运而生。数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又潜在有用的信息和知识的过程。

赛迪数据DM解决方案

赛迪数据凭借自身在信息技术、政府平台、行业资源和数据渠道的多项优势,联合国内知名的专业研究机构,探索出一套切合实际的DM解决方案。该方案由四个逻辑模块组成,即:数据采集模块、内容检索服务器、数据挖掘模块和信息发布模块,如图所示。

信息来源于企业内部数据和大量的外部数据。DM解决方案使用数据仓库技术,将数据信息组织成一个面向主题的统一整体,利用功能强大的联机分析技术和数据挖掘技术,对信息加以分析,最后生成供企业决策所需的情报。

数据采集模块实现对目标数据源的数据进行实时监控和采集。这些信息大多数来自于互联网,同时包括与企业内部信息系统的有机接合。采集到的最新的网页可以及时存储到本地,进行内容分析和过滤等操作。采集模块的工作结果不仅形成了新网页的全息信息集合,每个网页的详细信息被完整记录下来,包括网页名称、大小、日期、标题、文字内容等,而且包括不同类型的数据。这些不同类型的数据和信息初步构成分析模块的数据源。

数据采集模块采集到的数据源可以根据应用的具体需求存储到不同的目标上。比如存储成全文检索格式文件,或存储到关系数据库或内容检索服务器,用于实现对信息本地全文检索。用户可以根据实际需要设定存储目标。

与传统数据库中数据结构性很强的结构化数据不一样,采集模块采集到的数据大多数来自于Web,最大特点就是半结构化数据。该解决方案基于半结构化数据建模的有利工具——XML,能够使不同来源的数据很容易地结合在一起,使搜索多样的不兼容的数据库成为可能,从而为解决非结构化数据挖掘带来了希望。

具体地,数据挖掘模块可对采集的大量结构化和非结构化数据运用统计分析、机器学习、人工神经网络和数据库技术进行挖掘,对其进行总结、分类、聚类、关联分析,以及进行趋势预测等。

信息发布模块实现网页信息的统一发布、导航和检索功能。利用信息发布模块,不但可自动将采集到的信息不断发布到网站,也可以由系统维护人员人工控制发布的信息,系统维护人员可以掌控的范围包括所发布的栏目、专题以及每一个网页。信息发布可由系统维护人员自由切换。

赛迪数据DM解决方案主要功能在于,实现实时监控和采集目标网站和目标数据源的内容,对采集的信息进行过滤和自动分类处理,并按不同需求进行数据挖掘分析,最终将最新内容和分析得到的知识及时发布,实现统一的信息导航功能和全方位信息查询手段。目前,这套已经在赛迪数据在线平台(http://www.cciddata.com)应用。

DM的前景

数据挖掘对我国企业界来说,相对还是一个较新的概念。随着市场经济体制的逐步完善和全球经济一体化、集团化的加速发展,我国企业将面临着越来越激烈的市场竞争,企业信息化的进程也将不断加快,企业现有信息系统必然将向数据挖掘系统演化。可以预见,在不久的将来,结合了数据挖掘的决策系统将为中国的企业走向世界起到不可替代的关键作用。

另一方面,数据挖掘的研究方兴未艾,应用领域非常广泛,特别是应用在金融、电信、零售、税务等具有大量数据和深度分析需求的行业,能够带来巨大的社会效益和经济效益。将数据挖掘用于企业决策系统,虽然面临着很大的挑战和许多亟待解决的问题,如多层次挖掘多种类知识的有效算法、多媒体数据库等高级数据库的知识发现、数据挖掘的安全保护等等,但我们有充分的理由相信,这些问题将随着应用领域的迫切需求很快得到解决,数据挖掘的应用前景十分乐观。

本文原载于中国计算机报

如果您希望与本文章的作者或其所在机构,进一步交流,请联系:畅享网 姜小姐
jill.jiang@amt.com.cn | 021-51096826-112 | 在线联系
罗永辉呼吸BI[原创]商业智能:感性到理性 完..

  2007年是商业智能从感性回归理性的一年,也是从完善到提升承前启后的一年。 回顾篇 认识层面 2007年,国内国外普遍加深了对BI的理解。Gart……

TTNN-BI观点TTNN-BI观点十月刊——湖光山色

2007,国际权威重新定义了BI。从当前实践看来,这种定义符合实际,毕竟BI要落地,要能给企业带来真正的收益。当然,如何落地,自然必须有技术的支撑和管理策略及相……