海量信息组织与集成技术

2002-8-2 14:11:12【作者】 畅享网 【进入论坛】
本文关键字 理论探讨 EAI
广告

海量信息组织与集成技术

刘青宝、邓苏、张维明、陈卫东、黄宏宾

一般认为海量信息是以Terabyte(1000Gb)的信息为最低限度,实际上对海量信息的存储和管理应可以达到Petabyte(1000TB)的规模。关于海量信息的组织管理,目前还存在许多需要解决的技术困难。

信息组织是对信息资源进行序化和优化的过程。从网络信息特征可知,对其进行组织优化极为重要,常用的组织方式主要有四种:即文件方式、数据仓库方式、主题树方式和超媒体方式。

文件方式简单方便,在地理/空间信息系统中巨量的地理图片、气象云图都采用文件形式加以保存和组织。但文件方式只能是海量信息资源管理的辅助形式,或者作为信息单位成为其他信息组织方式的管理对象。

数据仓库方式是当前普遍使用的信息组织方式。数据仓库是支持管理决策过程、面向主题的集成化数据集合,特别适合于对异构业务数据库信息的集成。

主题树方式提供了一个基于树浏览的、简单易用的信息检索与利用界面,适用于建立专业性或示范性的网络信息资源体系。但由于确定一个完整系统的范畴体系有一定的难度,加之要保证目录结构的清晰,每一目录下的条目不宜过多,所以不适合建立大型综合性信息资源系统。Gopher、Yahoo、InfoSeek等著名的搜索引擎工具都采用这种方式组织信息资源。

超媒体方式是Internet上占主流地位的信息组织方式,它与传统的线性信息结构不同,超文本技术以更适合于信息自然结构的方式来组织信息,能够充分表达各种信息之间的内在联系,让使用者能够方便、灵活地浏览、获取所需要的信息。超媒体方式另一大优点是其信息表达形式的多样性。超媒体信息可以是文字、图形、图像、声音、动画等。目前最流行的WWW服务就是以超媒体的形式来将遍布全球、数量惊人的信息组织起来的。

海量信息的组织中应该注意到,由于信息的种类繁多、数量庞大,以手工方式进行处理已不能满足海量信息组织的需要,必需采用自动化的信息组织手段。

图1 海量信息集成系统结构


集成系统结构

在位置分布、种类繁多的海量信息资源中查找一条合适的信息,这是极其艰苦而费时的事情,所以设计海量信息集成系统很有必要。通过一致的对外接口,使用户能方便快捷地浏览和访问各种异构信息,如:文档信息、电子邮件、共享代码、多媒体信息和数据库信息。

海量信息集成系统结构如图1所示,主要由信息服务器、信息检索部件、查询处理单元、数据仓库、知识库、集成平台与工具、异构信息源7部分组成。

● 信息服务器:为用户提供信息查询和访问服务。针对用户的连接,系统产生HTML页面风格的用户接口,并把用户的查询请求传递给查询处理单元。

● 查询处理单元:对用户请求进行理解,分解成针对各异构信息的子查询,并对各子查询返回的结果进行综合,形成用户可读的结果页面。

● 信息检索部件:各异构信息的专用检索引擎组。

● 数据仓库系统:包括数据仓库、元数据和数据仓库管理系统。数据仓库是支持管理决策过程、面向主题的数据集合。

● 知识库:一个基于通用实体/关系规则、完整、自定义、可扩展的知识库。通过使用符合工业标准的模型,知识库能使用户方便地创建满足特定需求的元数据模型,同时确保信息的准确性和一致性,使企业可以利用可重用、可靠的信息获取竞争优势。

● 信息集成平台与工具:其主要工作是从异构数据源获取数据、信息和知识,装载到数据仓库和知识库中。

图2 海量信息集成系统模型


集成系统模型

海量信息集成系统模型是一个三层结构:信息服务层、信息集成层和信息源层。信息集成层是系统的核心层,主要功能有模式集成、元数据集成、面向主题的信息集成和面向领域的语义集成等。

(1)模式的提取与集成 “模式”可以看成是知识的雏形,经过验证、完善后形成知识。半结构化数据虽然没有事先固定的数据模式,但可以从数据中归纳出反映当前状态的结构模式,这个过程称为模式提取。

将从各异构信息源获取的模式信息进行集成,屏蔽模式之间的差异,可以为用户提供统一视图,帮助用户形成一体化查询。

(2)元数据集成与共享 根据使用对象和应用范畴,元数据可分为技术元数据(technical metadata)和商业元数据(business metadata)两大类。技术元数据支持开发、维护和管理IT环境中所有的分析、设计、开发和管理人员,它是连接开发工具、应用程序和系统的技术纽带。商业元数据则使企业环境的服务更易于为终端用户所理解,它为商业目标和进程的解释提供便捷的浏览、导航和数据查询。

为了集成企业范围内的不同开发工具和知识库,共享元数据环境必须提供一致的共享方法,使得元数据能够被一致地存储、管理、集成和全局访问。

(3)面向主题的信息集成 数据仓库中的数据是面向主题进行组织的,是在较高层次上对分析对象的完整、一致的描述,能刻划各个分析对象所涉及的各项数据以及数据之间的联系。

(4)面向领域的语义集成 根据语义确定信息的领域分类,生成领域内各信息的语义网络并建立有效的集成框架。其目的是解决各个异构信息源之间的语义不一致性,以提供基于语义的操作与服务。

总之,海量信息的组织与集成是一项复杂而艰巨的工作,需要积极地探讨和利用有效的信息组织方式、方法以及新的信息组织工具。

本文原载于计算机世界

如果您希望与本文章的作者或其所在机构,进一步交流,请联系:畅享网 姜小姐
jill.jiang@amteam.org | 021-51096826-112 | 在线联系
SOA之技术流SOA技术摘要

面向服务的体系结构(service-oriented architecture,SOA)是一个组件模型,它将应用程序的不同功能单元(称为服务)通过这些服务之间定……

廖斌谈SOA[原创]本体Ontology 与语义web..

先看看什么是语义web,网上很多,我摘录一些:Berners-Lee 于2000-12-18 在XML2000 的会议上正式提出了语义Web。语义Web 的目标……