基于数据挖掘的个性化服务系统设计与评价(耿崇)

2004-3-18 15:23:04【作者】 畅享网 【进入论坛】
文章从个性化服务系统和数据挖掘技术的特点出发,提出了一种基于数据挖掘的个性化服务系统的设计模型,并提出了个性化服务系统的简单评价方法。
本文关键字 理论探讨
广告

摘要:文章从个性化服务系统和数据挖掘技术的特点出发,提出了一种基于数据挖掘的个性化服务系统的设计模型,并提出了个性化服务系统的简单评价方法。

关键词:个性化服务 数据挖掘 系统评价

一、个性化服务系统及其特点:

个性化服务系统是以用户为中心的服务系统,其核心是服务内容和服务方式的个性化,即想用户所想,最大限度满足用户的需求,一个好的个性化服务系统应该可以预见用户的潜在需求,从而更好地为用户服务。现代市场竞争的不断加剧、信息时代信息过载与无序、用户需求的不断变化,直接导致了个性化服务系统的产生。而个性化服务系统本身则充分体现了服务接受者和服务提供者的双赢。要实现一个好的个性化服务系统,需要对用户的行为与心理进行分析,准确的把握用户需求,从而提供有针对性的服务。数据挖掘技术为个性化服务系统的构件提供了强大的技术支持。

二、据挖掘技术

数据挖掘(Data mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又潜在有用的信息和知识的过程。随着数据库技术的迅速发展以及数据库管理系统的广泛应用,人们积累的数据越来越多,而这些激增的数据背后隐藏着许多重要的信息,人们希望能够对其进行更高层次的分析,以便更好地利用这些数据。数据挖掘可以理解为一类深层次的数据分析方法,由数据挖掘所得到的信息具有先未知性、有效性和可实用性。

从不同角度看,对于数据挖掘有不同的分类方法。例如,按照发现知识的种类可以分为总结规则挖掘、特征规则挖掘、关联规则挖掘、分类规则挖掘、聚类规则挖掘、趋势分析等,按照挖掘的数据库可以分为关系型、变量型、面向对象型、主动、异质数据库等;按照采用的技术分有人工神经网络、决策树、遗传算法、可视化法等。

数据挖掘技术从一开始就是面向应用的,目前,在很多领域,如银行、电信、保险、交通、零售(如超级市场)等商业领域,数据挖掘技术都得到了较好的应用。例如通过数据挖掘进行客户群体划分、背景分析、交叉销售等市场分析行为,以及客户流失性分析、客户信用记分、欺诈发现等商业智能分析。

三、构建基于数据挖掘的个性化服务系统

构建基于数据挖掘的个性化服务系统。主要是通过对相关知识库、企业历史数据、业务数据和用户日志的挖掘,并在用户的反馈信息挖掘中不断修正来实现的,一个基于数据挖掘的个性化服务系统可以简要描述为如下模式:


1.个性化服务方案:
个性化服务方案是为用户提供的个性化服务的集成,个性化服务方案是根据用户定制、用户反馈和相关数据挖掘来生成的。每一项服务中可以根据不同的考虑指定不同的选择参数。用户个性化服务方案是一个及时调整的动态方案,是个性化的体现点。

2.企业门户:
企业门户是囊括了所有用户个性化方案的整体,同时提供公共的通用性服务,用以对外广播和发布信息。

3.用户资料库
用户资料库包含用户一些基本信息,这些信息是通过一定加工整理而生成的,是准确的、规则的信息,通常是最基本的用户资料,其来源主要是用户的注册提交。

4.用户日志:
用户日志是纪录用户的动态交互信息形成的信息资料,包括用户访问企业门户和利用个性化服务方案的日志信息,如对某一个性化服务的停留时间,对相关服务的访问次数,当然也包括用户通过电话、传真和信函等一切方式对服务发生的响应。用户日志是一个不规则的信息资料库,要实现数据挖掘必须先经过信息的抽取,形成可以用于数据挖掘的规则信息库。

5.已有的知识库:
已有的知识库是已经存在的知识库,包括行业经验、经典规则等信息。主要是用来指定个性化服务规则的参考和验证。

6.业务数据中心:
业务数据中心是实际业务发生的数据,也包括企业内部经过信息抽取或者规则化后的管理内容和数据。

7.用户反馈:
用户反馈是用户针对个性化服务方案的反馈,例如对个性化服务方案的评判,用户选择个性化服务参数的特点,用户自己提交的个性化定制等。

8.数据挖掘:
数据挖掘是针对用户反馈、业务数据中心、已有的知识库:用户资料库及用户日志等信息充分利用相关的数据挖掘方法来生成用户的个性化服务方案规则,这些规则包括用户的兴趣所在,用户可能的潜在需求,用户关注不同服务的权重、用户从未关注的信息等。同时设定用户个性化服务方案修订的临界点和临界规则。

9.用户规则生成:
用户规则生成是制定用户个性户服务的依据。

10.临界规则:
临界规则是调整个性化服务方案的依据。

11.定期评价:
定期评价是对个性户服务系统的周期间断评价,可以自行制定评价时间或者进行智能评价,用户评价是一种特殊的系统反馈方式。

在个性化服务系统中,数据挖掘技术应用于挖掘基于时间序列的数据、基于关联规则的数据等,数据挖掘方法有自动聚集、决策树、神经网络等。挖掘基于时间序列的数据是从时间角度来分析数据的变化发展规律,发现数据之间潜在的规则和联系。挖掘基于关联规则的数据是通过相关数据的分析来得到新的知识规则。自动聚集是对大量数据按照一定的属性或方法归纳,发现相关性。决策树通过树的方式分类数据,为决策提供所需的支持。

例如,对于一个滑雪场的个性化服务系统,可以通过决策树的方式来分类客户,从而针对不同的用户定制或调整不同的个性化服务。假设滑雪场用户资料的数据如表1所示:

对于表1中数据可以通过ID3算法生成一棵判定树,具体过程为:按照用户接受不同的服务方案A和B对客户进行分类,用户的属性为年龄、性别和学历,计算信息量最大的属性,依次来划分,如果每个叶子节点包含的用户都属于同一个方案的接受者,则停止划分,否则继续寻找信息量最大的属性进行划分。直到所有的叶子节点包含的用户都是同一个方案的接受者停止。对于滑雪场的用户按照性别属性来说:

因为有4个女客户接受了方案A,2个女客户接受了方案B,所以利用基于熵(平均信息量)的函数计算可得:

E是基于熵的函数,所以E值最小的属性年龄是信息量最大的属性。年龄作为被划分的属性,得到判定树如下:

进一步计算性别和学历属性的信息量可得E(性别)=4,E(学历)=6.490,选择性别作进一步划分,重复以上步骤,最终可以得到一棵最优判定树。

通过以上方法进行客户的划分之后,个性化方案的设计者可以考虑利用这一分类和其它信息相结合,从而制定有针对性的个性化服务方案,例如当系统提供一项新方案,该方案是A方案的扩展服务,在其他因素变化不是很大的情况下,可以首先将该方案提供给年龄在20-30岁的人进行选择。

ID3算法在一般情况下都能找出最优判定树。但不具备增量学习能力,ID5R算法是ID3算法的一个增量式变体。关于ID5R算法的详细介绍可以参阅参考文献3。数据挖掘集成了很多经典的技术方法,作为个性化服务系统,应该根据各种技术方法的优势和特点为个性化服务提供不同的有针对的支持。
 
四、个性化服务系统评价

个性化服务系统的另一个突出特点是交互性,即客户反馈和评价对于个性化方案的制定尤为重要,在这里只介绍通过用户反馈方式对个性化服务系统的评价方法。

1.个性化服务方案的认同评价
用户对个性化方案的认可程度是评价方案好坏的直接标准,对个性化服务方案A可以
述为一个向量A(a1,a2,…an),ai表示该个性化方案提供的服务可选参数,那么用户对个性化服务方案A的认同程度可以描述为:

其中, 表示对于方案A用户实际接受的服务参数个数,n表示方案A提供服务的所有
参数数量。

2.整体个性化服务系统的满意度评价
用户对整体个性化服务系统的满意度评价可以表示为:

其中,Sti表示第i个用户对第t次服务的评分,n表示参加系统评价的用户数量,t表示提供的服务次数,Emax表示系统给定的最大评分值。利用此方法既可以对某一类或几类服务方案进行评价,也可以对整体个性化服务系统进行评价。
   
这些评价的标准都来源于用户,第一个评价标准可以由系统记录自动生成,第二个标准则需要用户的主动参与。

五.优缺点分析

建立在数据挖掘基础之上的个性化服务系统充分利用了强大的数据挖掘技术优势,集成了用户的整体信息分析,并且通过设立临界点和临界规则检测可以及时的根据用户反馈调整个性化服务,例如,存储用户信息为向量表示,根据用户反馈调整向量,当某一个值或者某几个值达到临界点则改变个性化方案。临界点和临界规则检测可以为单个用户设立,也可以为某一类用户设立。对于用户反馈的数据挖掘还可以实现临界点和临界规则的自动调整,充分显示了智能个性化的特征。

个性化服务系统在利用数据挖掘技术上的实现仍然存在许多需要加以改善的地方,例如数据挖掘方法的选择和实用性问题,挖掘方法所受影响因素的分析问题,如何更好的考虑客户的心理与客户的行为差,用户兴趣变化的动态跟踪、以及知识库的质量和适用程度,都将影响到个性化服务方案制定得最终效果。同时个性化服务系统存在用户信息的保护问题,尤其是网络服务对用户日志挖掘的信息保护,是个性化服务系统设计、开发与评价需要注意的问题。

参考文献:
1. Chen-Tung Chen , Wei-Shen Tai     An information push-delivery system design for personal information service on the Internet     Information Processing and Management 39 (2003) 873–888
2. S.C. Hui,G. Jha   Data mining for customer service support    
Information & Management 38 (2000)
3.陈世福,陈兆乾   人工智能与知识工程    南京大学出版社 1997.12
4.曾春,邢春晓 ,周立柱  个性化服务技术综述     软件学报 2002.10
5.丁琳,吴长永  数据挖掘在远程教育个性化服务中的应用.  电化教育研究 2002.9
6.彭朝晖  数据挖掘技术在商业银行客户关系管理中的应用  株洲工学院学报 2003.7
7.江效尧,江伟  决策树在数据挖掘中的应用研究  安庆师范学院学报(自然科学版)  2003. 2
8.http://www.dmgroup.org.cn


本文由作者向AMT提供
作者联系方式:
g123ch@sohu.com

如果您希望与本文章的作者或其所在机构,进一步交流,请联系:畅享网 姜小姐
jill.jiang@amt.com.cn | 021-51096826-112 | 在线联系
罗永辉呼吸BI[原创]商业智能:感性到理性 完..

  2007年是商业智能从感性回归理性的一年,也是从完善到提升承前启后的一年。 回顾篇 认识层面 2007年,国内国外普遍加深了对BI的理解。Gart……

TTNN-BI观点TTNN-BI观点十月刊——湖光山色

2007,国际权威重新定义了BI。从当前实践看来,这种定义符合实际,毕竟BI要落地,要能给企业带来真正的收益。当然,如何落地,自然必须有技术的支撑和管理策略及相……