论文(设计)一种基于Web 挖掘的图书馆服务推荐模型及其算法研究18109.doc

上传人:laozhun 文档编号:2396368 上传时间:2023-02-17 格式:DOC 页数:8 大小:198.50KB
返回 下载 相关 举报
论文(设计)一种基于Web 挖掘的图书馆服务推荐模型及其算法研究18109.doc_第1页
第1页 / 共8页
论文(设计)一种基于Web 挖掘的图书馆服务推荐模型及其算法研究18109.doc_第2页
第2页 / 共8页
论文(设计)一种基于Web 挖掘的图书馆服务推荐模型及其算法研究18109.doc_第3页
第3页 / 共8页
论文(设计)一种基于Web 挖掘的图书馆服务推荐模型及其算法研究18109.doc_第4页
第4页 / 共8页
论文(设计)一种基于Web 挖掘的图书馆服务推荐模型及其算法研究18109.doc_第5页
第5页 / 共8页
点击查看更多>>
资源描述

《论文(设计)一种基于Web 挖掘的图书馆服务推荐模型及其算法研究18109.doc》由会员分享,可在线阅读,更多相关《论文(设计)一种基于Web 挖掘的图书馆服务推荐模型及其算法研究18109.doc(8页珍藏版)》请在三一办公上搜索。

1、一种基于Web挖掘的图书馆服务推荐模型及其算法研究郭秋萍(郑州航空工业管理学院,河南 郑州 450015)王全兰(黄河水利委员会,河南 郑州 450002)摘要:本文基于Web挖掘的理论与技术,设计了一个图书馆服务推荐系统模型。该模型采用离线部分挖掘与在线部分挖掘相分离的思路,解决了服务推荐的实时性与准确性的平衡问题。并重点针对在线部分的推荐算法,给出了具体构建方法及其实现过程,为同类研究提供了一种有益参考。关键词:Web挖掘,服务推荐,算法构建,数字图书馆中图分类号:TP393,G250One Recommendation-System Model Of digital libraryAnd

2、 Realization Based On Web MiningGuo-qiuping(Zheng Zhou Institute Of Aeronautical Industry Management , Zheng Zhou 450015, China)Wang-quanlan(Yellow River Conservancy Commission , Zheng Zhou 450003, China)Abstract:The paper designs ong model of recommendation-system to digital library.The model adopt

3、s separating data mining of off-line part and data mining of on-line part.The idea balances efficiency and exactness of mining. Aiming at arithmetic of on-line part, the paper provides one method of arithmetic designing.This research supplied a good reference for developing the recommendation-system

4、 of digital library.Key words:Web Mining,recommendatory service,arithmetic designing,digital library随着互联网信息资源的日益增多,信息有序化程度却越来越低。用户利用现有搜索引擎虽然可以检索到海量信息,但必须对庞大结果集进行人工筛选才能获取相对有用的信息,这显然降低了图书馆服务的质量与效率。因此,能够针对每个用户的特有个性化信息,主动检索相关内容,并利用电子邮件或在线智能推荐服务,将初步机选结果回送给相应用户,将有效解决上述问题1。目前,关于图书馆的主动推荐服务研究已成为热点,本文立足于WEB挖掘

5、的理论与技术,建立了一个主动推荐系统模型,并提出一种新的图书馆推荐服务算法,较明显提高了挖掘准确性,改善了推荐服务质量,为同类研究提供了一种有益参考。1 WEB挖掘的数据源总体上说,数字图书馆中WEB挖掘的数据源主要有四种,分别是服务器端数据、客户登录数据、图书馆数据以及WEB页面数据。服务器端数据是指那些因客户访问服务器从而产生的各种相关信息,其表现形式主要有日志文件和查询数据两种,存贮位置在服务器端。常见的日志文件如:Server Logs、Error Logs和Cookie Logs等;常见的查询数据如:在线客户检索图书馆数据库时提交的查询信息等。这类数据可用于客户历史行为分析以及系统服

6、务优化调整等方面。客户登录数据是指客户通过Web界面页向服务器提交的身份认证信息。这类数据可用于客户身份识别、专业领域分类以及兴趣爱好预测等方面。图书馆数据是指在传统关系数据库中存贮的数字图书馆站点信息、客户借阅信息、馆藏文献信息等。这类数据属于图书馆的公共性数据。WEB页面数据是指在HTML或XML网页中嵌入的各种信息,包括文本、图片、语音、动画等。这类数据可用于文本挖掘、多媒体挖掘以及页面间超链接关系挖掘等方面。对于图书馆服务主动推荐算法来说,其面向对象主要是知识背景互不相同的客户群。因此,服务推荐的准确性与适合性关键取决于对那些与客户密切相关数据源的挖掘与分析。本文在下面进行的算法研究中

7、,所采用的数据源主体为服务器端数据和客户登录数据。2 图书馆服务推荐系统模型图书馆服务推荐系统的设计需要考虑推荐实时性与推荐准确性的平衡问题2。目前,大部分关于服务推荐技术的研究是以优先保证其实时性为前提来设计的,而以牺牲其推荐质量为代价。针对此不足,本文在综合考衡两者的基础上,建立如下系统模型,如图1所示。服务器端数据客户登录数据WEB页面数据图书馆数据在线部分离线部分数据预处理Web挖掘实时推荐引擎图1图书馆服务主动推荐系统模型该模型整体框架分为离线和在线两部分。离线部分又由数据预处理和Web挖掘两个子模块组成;在线部分则由实时推荐引擎子模块组成。离线部分承担数据预处理和知识挖掘等功能,该

8、部分面向的数据源通常为系统内存储的各种海量历史数据,挖掘处理所需时间较长,因此被设计为离线部分,以避免对实时性要求的影响。在线部分则承担向当前客户提供实时服务推荐等功能,该部分建立在离线部分的基础上,直接参照其所建立的知识库,针对不同客户快速生成各种推荐服务。两者之间的关系是:离线部分通过挖掘算法所产生的知识库,为在线部分提供基础性支撑;在线部分则在前者基础上,结合当前客户会话对象以及Web页面数据,及时生成符合客户个体兴趣特征的推荐服务。通过两者的相互作用,可以保证最后呈现给客户的推荐服务是准确的、最新的以及合理的。该模型由于实现了离线部分和在线部分的分离,因此即能够适应对大规模历史数据的分

9、析挖掘,又能够较明显缩短挖掘的响应时间,从而实现推荐实时性与准确性的平衡。3 图书馆服务推荐系统实现根据上面设计的图书馆服务推荐系统模型,离线部分由于是围绕历史数据进行挖掘,且在实时性方面无特殊要求,因此可采用目前已相对成熟的几种Web挖掘技术来实现,如基于聚类算法的Web使用数据挖掘、Web内容数据挖掘以及Web结构数据挖掘等3。而在线部分由于是直接面向在线客户,且要向其提供准确实时的个性化推荐服务,因此采用适合的挖掘算法将对响应时间和推荐质量至关重要。很显然,在线部分是系统成功实现的关键环节,而合适算法构建又是核心中的核心,下面本文就重点对在线部分的推荐算法构建进行研究。3.1 推荐算法构

10、建客户登录成功后,就与图书馆系统服务器建立起一个会话连接,并向服务器递交各种服务请求。此时,服务推荐系统就要根据当前客户的会话对象以及页面访问情况,动态生成一个初步结果集。该结果集在与离线部分的知识库进行参照融合后,产生可信结果集。将该可信集嵌入到服务器的客户请求响应页面中,该页面就集成有客户可能感兴趣的各种数据信息和服务链接,整体作为个性化推荐结果显示给客户。具体实现时,由实时推荐引擎模块负责初步结果集的生成,步骤是:推荐引擎首先分析客户的会话对象,获取客户当前访问页面的各种参数;然后基于这些参数计算客户的相似度;最后对客户进行聚类分析,产生个性化服务推荐的初步结果集。3.1.1 客户相似度

11、计算在计算客户相似度之前,首先需要构建一个User_Url矩阵,用来存贮某客户当前的页面访问情况。对客户当前页面访问情况的衡量有两个关键参数,一个是访问某页面的频率,即访问次数;另一个是持续访问某页面的时间,即访问时长。通常访问时长参数更能准确反应客户的兴趣度。设某图书馆网站共有n个页面组成,即其页面集Url=url1,url2,urln;当前共有m个客户成功登录访问,即其客户集User=Userl,User2,Userm。因此,该图书馆的页面访问情况就被映射成一个User_Url矩阵,其中行表示可供访问的页面集,列表示可执行访问的客户集,每个元素项tij表示Useri对urlj的访问时长(单

12、位可自定,一般为分钟),反映客户对该页面的访问兴趣度。特别的,当tij=0时,表示Useri没有访问urlj。对该图书馆在某一时间段的访问情况经过数据预处理,得到以下User_Url矩阵。为方便论证,这里仅截取其中一个片断,计6个页面,7个客户。User_Urlurl1url2url3url4url5url6User1136409User2840730User3259308User4724311User5553232User6952541User76341待添加的隐藏文字内容203典型的客户相似度计算方法有余弦相似度法和欧式距离法4。从直观上看,属于同类的事务对象在距离空间中应该互相靠近,而不

13、同类的事务对象在距离空间中应该彼此疏远。因此,本文采用欧式距离法来进行计算。设M=Ml,M2,Mn为n维空间中的一组对象,Mi、MjM,dii是Mi和Mj之间的距离,则dii的欧式距离计算公式为:dii=因此,对该图书馆当前各访问客户的距离矩阵D77的计算结果如下:D77User1User2User3User4User5User6User7User1013.6410.349.5412.858.60User213.6014.396.486.933.468.66User3414.39010.449.5412.928.60User410.346.4810.4404.455.483.32User59.

14、546.939.544.4505.234.12User612.853.4612.925.485.2307.28User78.608.668.603.324.127.2803.1.2 客户聚类分析有了距离矩阵,接下来对客户进行聚类分析。聚类算法是基于一定的距离尺度将所有对象按某种属性进行归类5。聚类后的对象具有最大的类内相似性和最小的类间相似性特征。在许多应用中,通过聚类可以发现不同背景客户群对不同内容页面的访问频率分布,以及预测各客户群的兴趣区域等6。聚类的结果是下一步产生初步结果集的重要依据。聚类分析既可以采用数据分析软件,如Matlab、SPSS等;也可以根据实际特点自行开发。本文采用自行

15、开发方式,以Delphi为平台,编写客户聚类模块。具体算法是:确定一个距离阀值,如果dii小于该值,则将第i个客户和第j个客户聚为一类。该算法核心代码实现如下:输入:在线客户集User=Userl,User2,Userm,距离矩阵DmmBeginFor I=1 to m doBeginCi=Null; /*初始化/Ci=Useri;For j=l to m doBeginIf Dij then /*若两客户距离小于阀值,则归为一类/Ci=Ci+UserjEnd;End;For I=1 to m do /*形成聚类结果/BeginIf Dij Null thenBeginFor j=I+l to

16、 m do /*继续搜索,遍历所有客户,寻找相同项/BeginIf Ci=Cj thenCj=Null;End;UserCluster=UserCluster+Ci;EndE1seContinue;EndEnd输出:客户聚类集合UserCluster。根据该算法,假设=5,则前面所举例图书馆的客户聚类集合为:UserCluster=(User1、User3),(User2、User6),(User4、User5、User7)。其中,(User1、User3)被聚类为客户组C1,(User2、User6)被聚类为客户组C2,(User4、User5、User7)被聚类为客户组C3。当然,如果阀值

17、选择不当,可能会出现元素项相交情况,就需要重新选择阀值。在实际中,阀值选择需要经过多次样本数据的模拟计算,以确定合适值。3.1.3 产生初步结果集个性化服务推荐初步结果集,就是对于每一个客户聚类组,找出对其具有较高推荐(价)值的页面集合。某客户组兴趣页面集的计算需要借助User_Url矩阵。根据数理统计中值理论,在该矩阵中某页面urlj在某客户组Ci的权值由如下公式计算:Weight(Ci,urlj)= 其中表示某客户组Ci中客户的个数;w(urlj,user)表示user在urlj页面上的停留时间。由此,可以计算出每个页面对于每个客户组的权值。显然,对每一客户组而言,那些与之具有较高权值的页

18、面就构成了针对于它的初步推荐结果集。对于前面所述某图书馆网站的User_Url矩阵及其UserCluster聚类阵,利用权值计算公式,计算其权值矩阵UserCluster-Url,结果如下:UserCluster-Urlurl1url2url3url4url5url6C11.504.007.503.5008.50C28.504.501.006.003.500.50C36.003.333.672.001.332.00设兴趣阀值=5.00,则客户组C1的推荐初步结果集为(url3,url6),C2的初步结果集为(url1,url4),C3的初步结果集为(url1)。3.2 与离线部分知识库的融合由

19、在线部分推荐算法所产生的初步结果集,其依据是对当前客户页面访问参数的聚类分析,它反映了某一时间段内客户的兴趣区域。为得到更准确地推荐结果,很显然,客户以往的历史记录将更真实反映其兴趣爱好。因此,将在线部分产生的初步结果与离线部分的知识库进行融合,能提高推荐的准确度与可信度。在融合时,首先需要根据客户登录信息找出其所属的兴趣组。然后参照该兴趣组的推荐页面集,与客户的初步结果集进行比较。其结果有三种可能,一是初步结果集是知识库推荐集的子集,此时将知识库推荐集作为最终可信集;二是初步结果集不是知识库推荐集的子集,但二者仅有极少数项不同,此时仍将知识库推荐集作为最终可信集,同时对初步结果集中的不相同项

20、做计数标记;三是初步结果集不是知识库推荐集的子集,且二者存在较多项不同,此时将二者的合集作为最终可信集,同时对初步结果集中的不相同项做计数标记。对不相同项做计数标记的作用是:当某一项的标记值超过设定的最大值时,则表示该兴趣组的客户在这段时期内其兴趣对象发生了变化,需要将该项增添至该组的推荐集。这样,通过融合就最终得到了某兴趣组客户的推荐可信集。4 结束语本文基于Web挖掘的理论与技术,设计了一个数字图书馆主动推荐系统模型,该模型平衡考虑了服务推荐的实时性与准确性问题,采用离线部分挖掘与在线部分挖掘相分离的思路,有效保证了服务推荐的效率与质量。并重点针对在线部分的推荐算法,给出了具体构建方法及其

21、实现过程。实践证明,该模型较明显提高了挖掘准确性,改善了推荐质量,为同类研究提供了一种有益参考。参考文献:1王曰芬,熊铭辉等. 面向个性化服务的知识组织机制研究J. 情报理论与实践,2008(1):7-112 姬朝阳,赵艳杰. 基于Web挖掘的高校图书馆个性化服务模型系统设计J. 科技管理研究, 2009(6):278-2793 高巨山. 数字图书馆构建中的数据挖掘应用研究J. 图书馆工作与研究,2009(4):20-214 韩家炜,坎伯等译. 数据挖掘概念与技术M. 北京:机械工业出版社,2002:210-2215 Ferragina P,Gulli A. The anatomy of a

22、hierarchical clustering engine for web-page. news and book snippetsC. Proceedings of ICDM, 2004:395-3986 王杰,姜国强. 新的基于最近邻聚类的属性离散化算法J. 计算机工程与应用,2009(24):40-42作者简介:姓名:郭秋萍工作单位:郑州航空工业管理学院职称:教授通讯地址:郑州航空工业管理学院信息科学学院 (450015)Editors note: Judson Jones is a meteorologist, journalist and photographer. He has

23、freelanced with CNN for four years, covering severe weather from tornadoes to typhoons. Follow him on Twitter: jnjonesjr (CNN) - I will always wonder what it was like to huddle around a shortwave radio and through the crackling static from space hear the faint beeps of the worlds first satellite - S

24、putnik. I also missed watching Neil Armstrong step foot on the moon and the first space shuttle take off for the stars. Those events were way before my time.As a kid, I was fascinated with what goes on in the sky, and when NASA pulled the plug on the shuttle program I was heartbroken. Yet the privat

25、ized space race has renewed my childhood dreams to reach for the stars.As a meteorologist, Ive still seen many important weather and space events, but right now, if you were sitting next to me, youd hear my foot tapping rapidly under my desk. Im anxious for the next one: a space capsule hanging from

26、 a crane in the New Mexico desert.Its like the set for a George Lucas movie floating to the edge of space.You and I will have the chance to watch a man take a leap into an unimaginable free fall from the edge of space - live.The (lack of) air up there Watch man jump from 96,000 feet Tuesday, I sat a

27、t work glued to the live stream of the Red Bull Stratos Mission. I watched the balloons positioned at different altitudes in the sky to test the winds, knowing that if they would just line up in a vertical straight line we would be go for launch.I feel this mission was created for me because I am al

28、so a journalist and a photographer, but above all I live for taking a leap of faith - the feeling of pushing the envelope into uncharted territory.The guy who is going to do this, Felix Baumgartner, must have that same feeling, at a level I will never reach. However, it did not stop me from feeling

29、his pain when a gust of swirling wind kicked up and twisted the partially filled balloon that would take him to the upper end of our atmosphere. As soon as the 40-acre balloon, with skin no thicker than a dry cleaning bag, scraped the ground I knew it was over.How claustrophobia almost grounded supe

30、rsonic skydiverWith each twist, you could see the wrinkles of disappointment on the face of the current record holder and capcom (capsule communications), Col. Joe Kittinger. He hung his head low in mission control as he told Baumgartner the disappointing news: Mission aborted.The supersonic descent

31、 could happen as early as Sunday.The weather plays an important role in this mission. Starting at the ground, conditions have to be very calm - winds less than 2 mph, with no precipitation or humidity and limited cloud cover. The balloon, with capsule attached, will move through the lower level of t

32、he atmosphere (the troposphere) where our day-to-day weather lives. It will climb higher than the tip of Mount Everest (5.5 miles/8.85 kilometers), drifting even higher than the cruising altitude of commercial airliners (5.6 miles/9.17 kilometers) and into the stratosphere. As he crosses the boundar

33、y layer (called the tropopause), he can expect a lot of turbulence.The balloon will slowly drift to the edge of space at 120,000 feet (22.7 miles/36.53 kilometers). Here, Fearless Felix will unclip. He will roll back the door.Then, I would assume, he will slowly step out onto something resembling an

34、 Olympic diving platform.Below, the Earth becomes the concrete bottom of a swimming pool that he wants to land on, but not too hard. Still, hell be traveling fast, so despite the distance, it will not be like diving into the deep end of a pool. It will be like he is diving into the shallow end.Skydi

35、ver preps for the big jumpWhen he jumps, he is expected to reach the speed of sound - 690 mph (1,110 kph) - in less than 40 seconds. Like hitting the top of the water, he will begin to slow as he approaches the more dense air closer to Earth. But this will not be enough to stop him completely.If he

36、goes too fast or spins out of control, he has a stabilization parachute that can be deployed to slow him down. His team hopes its not needed. Instead, he plans to deploy his 270-square-foot (25-square-meter) main chute at an altitude of around 5,000 feet (1,524 meters).In order to deploy this chute

37、successfully, he will have to slow to 172 mph (277 kph). He will have a reserve parachute that will open automatically if he loses consciousness at mach speeds.Even if everything goes as planned, it wont. Baumgartner still will free fall at a speed that would cause you and me to pass out, and no par

38、achute is guaranteed to work higher than 25,000 feet (7,620 meters).It might not be the moon, but Kittinger free fell from 102,800 feet in 1960 - at the dawn of an infamous space race that captured the hearts of many. Baumgartner will attempt to break that record, a feat that boggles the mind. This is one of those monumental moments I will always remember, because there is no way Id miss this.

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 建筑/施工/环境 > 项目建议


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号