基于GRI模型和C5.0规则集的 图书推荐模式研究
发布人:编辑 发布时间:2012/11/22 9:14:20  浏览次数:4200次
分享到:

□ 苏静 赵捷 / 中国科学技术信息研究所 北京 100038

    摘要:通过应用Clementine 12.0中关联规则的GRI模型和C5.0推理规则集,对问卷涉及的205位青少年用户基本信息和图书购买信息进行数据建模和分析。研究结果表明,单个用户购买的多类图书之间,具有相同购买特征(如性别、年龄、教育背景等)的用户群和某类图书之间均存在一定的关联规律。在此基础上,提出了基于GRI模型和C5.0规则集的图书推荐模式,即跨类型和相同用户兴趣的图书推荐,试图为图书馆和图书零售市场开展图书推荐服务提供参考。
    关键词:图书推荐,关联规则,GRI模型,C5.0规则集
    DOI:10.3772/j.issn.1673—2286.2012.10.006

    1 引言
    文化产业的繁荣推动了图书出版事业和电子图书市场的蓬勃发展。2011年上半年,中国图书零售市场动销品种数同比增长率为5.74%,达到了92.6万种[1]。面对日益增长的图书种类和数量,如何根据用户的个性化行为习惯,主动推荐信息资源,以满足用户需求和提升信息服务水平,是图书馆和图书零售市场所要关注并亟待解决的问题。
    近年来,数据挖掘作为一种从大量数据中提取隐含和潜在信息的新兴技术,备受各领域学者的关注,不少论文也就数据挖掘在图书推荐方面的应用进行了深入的探讨。按照与用户的个性化需求相结合的程度不同,图书推荐研究大致分为三大类:基于图书资源整合的图书推荐、基于用户定制的图书推荐和基于用户行为与人口特征的图书推荐。其中,第一类是通过RSS[2]、电子邮件[3]等方式将新到图书和热点图书推荐给用户的服务模式,推荐信息具有容量大、内容新等特点;第二类是按照用户的定制要求,将其预先选定的知识门类、学科专业、信息内容等方面的需求汇总分析后,有选择地定期推荐给特约用户的服务[4];第三类则是结合用户的行为习惯和人口统计学特征,运用关联规则的Apriori算法及其改进算法[5-7]、ID3决策树算法[8]、本体论[9]和语义网格[10]等,抽取用户的相似兴趣点,从而分析出可以推荐的内容。相比而言,第三类与用户潜在需求的契合度更高、针对性更强。
    Cl eme n t i n e 数据挖掘软件(PASW Modeler)[11]将数据挖掘的理论成果与实践研发相结合,拥有着强大的数据挖掘算法,提供了决策树、人工神经网络、回归分析、关联分析、聚类分析等丰富的数据挖掘模型[12],支持与数据库之间的数据和模型交换,能够从海量数据中提取辅助管理和决策的有价信息,具有操作简明、界面可视化等特点,已经普遍应用于电子商务、社会经济、教育、金融等领域。
    目前,鉴于涉及关联规则的GRI算法运用较少、Clementine在图书情报领域的实践分析不多、输出结果的解释较为简略、图书推荐的可视化分析手段单一等现状,本文拟采用数据挖掘中的关联规则和C5.0模型,运用Clementine 12.0对图书推荐模式策略进行深入的实证研究与翔实分析,以挖掘不同种类图书之间、图书与用户之间的潜在关联,进而分析获得适合不同类型用户的图书推荐规则,希望可以对各类网上书店和图书零售实体市场的资源推荐服务有一定的借鉴意义,尤其是为如何提升图书馆的用户个性化服务提供参考。

全文下载:http://www.dlf.net.cn/manager/manage/photo/admin201210006.pdf

声明:本网站为非盈利网站,大多信息来源于网友推荐。如果作者或其他版权所有人认为违反了您的权益,请告知我们,我们会在24小时内删除。