R语言数据挖掘.docx

上传人:李司机 文档编号:7188050 上传时间:2024-06-29 格式:DOCX 页数:28 大小:153.16KB
返回 下载 相关 举报
R语言数据挖掘.docx_第1页
第1页 / 共28页
R语言数据挖掘.docx_第2页
第2页 / 共28页
R语言数据挖掘.docx_第3页
第3页 / 共28页
R语言数据挖掘.docx_第4页
第4页 / 共28页
R语言数据挖掘.docx_第5页
第5页 / 共28页
点击查看更多>>
资源描述

《R语言数据挖掘.docx》由会员分享,可在线阅读,更多相关《R语言数据挖掘.docx(28页珍藏版)》请在三一办公上搜索。

1、R语言数据挖掘论文题目:第图挖掘实M网站智能举荐康务指导老师:蒙小蛆成员:周大义王宁数据挖掘实品之网站智能举荐服务一、背景与挖,目标伴随着计算机技术、通信技术的日益成熟和广泛应用,互联网H90年头初起先得到迅猛发展,至今虽然只有短短几十年的时间,但它已经发展成为现今信息时代人类生活中不行或缺的重要组成部分,并成为全球范围内传播信息的生要渠道。随之而来的是互联网上信息资源越来越丰富,人们要在浩如烟海的“混乱的”互联网信息世界中找到自己真正感爱好信息却存在很大的困难,详细表现在:用户不知道如何贴切表达真正想要的网上资源的需求,也不知道如何去更精确有效地找d,即所谓的“信息迷失”问题;和对收到的或已

2、经下栽的大量无关的信息难以消化,即所谓的信息过载”问题。虽然我们可以借助于搜J引擎来检索Web上的信息,但仍不能满足不同背景、不同目的和不同时期的杳询要求,因为大多数搜寻引擎缺少主动性,没有考虑用户的爱好偏好和用户的不同,无法有效地解决信息过我和信息迷失的问题.为了适应用户不断增长的信息需求,有效地解决信息过载和信息迷失给人们带来的种种问题,探讨人员纷纷从人工智能中找寻突破口。在很多探究性探讨中,特性化举荐服务作为一种崭新的智能信息服务方式,应用前景广泛,非常引人注目。与搜寻引擎不同,举荐系统并不须要用户供应明确的需求,而是通过分析用户的历史行为,依据用户的行为主动举荐能够满足他们爱好和需求的

3、信息。因此,对于用户而言举荐系统和搜寻引擎是两个互补的工具。搜寻引擎满足有明确目的的用户需求,而举荐系统能够帮助用户发觉感爱好的内容。因此,在电子商务领域中举荐技术可以起到以a作用:第一,帮助用户发觉其感爱好的物品,节约用户时间、提升用户体验;其次,提高用户对电子商务网站的忠诚度,假如举荐系统能够精确地发觉用户的强好点,并将合适的资源举荐给用户,用户就会对该电子商务网站产生依能,从而建立稳定的企业忠实顾客群,提高用户满足度。本案例探讨的对象是泰迪智能科技有限公司的泰迪杯竞赛网站,泰迪科技是一家专业从事大数据挖掘应用研发、询问和培训服务的高科技企业。泰迪杯竞赛网致力于为用户供应丰富的泰迪杯竞赛信

4、息、数据挖掘培训向问服务,并为参赛者供应了往届优秀作品作为参考,为高校供应了丰富的教学资源,如:案例教程、教学视频、教学书籍、建模工具等。随着网站盘增大,其数据信息最也在大幅度增长。用户在面对大地信息时无法与时从中获得自己须要的信息,对信息的运用效率越来越低。这种阅读大量无关信息的过程,造成r用户须要花费大最的时间才能找到自己须要的信息。为了能更好地满足用户需求,依据其网站海量的数据,探讨用户的爱好偏好,分析用户的需求和行为,发觉用户的爱好点。引导用户发觉自己的信息褥求,将网页精准地举荐给所需用户,帮助用户发觉他们感受好但很难发觉的网页信息。为了能够更好的满足用户缶求,依据其网站海豉的数据,探

5、讨用户的强好偏好,分析用户的需求和行为,发觉用户的爱好点,从而引导用户发觉H己的信息需求。行为记录IXA2XAtytjt,iftifccrt.,i11jit4tjtl*ytj,lntJ,crt,mj.idn.jt!XAXADWfTW3l8.Z同寿牙号累电EW5CA32l8fc盘2汽电寄露爆电OirtepQnW代a24iMiJS1.(1.24MiMan一、I.一,I.3XAttu,irttite1.ort,xtWiuSt1.JbtiIXATnm4918&I6S.:MBQMH11r*f35IiMciii8,4614MtSce,iMcrin&llre6ltJhtiIXAHiNSaacm:上冷巾电俱C

6、hroer40,24VirdMtXPS626StpJ6ti0rce.JhtalXAOKWHfiU1.NK.:北里巾HaInternet7ViMcws厚TlAzytjifxi,crg111JiukJhtilCMm4712愎垃?可南省9KSChrcat8Mzyt.Jim:Ipd1.ergx11JirejhtlMCfttf1.S4TCl8.出2河南3尊联Croe位(1.“HIMs97jxxptxpcrgJl卬/杨;.JhtalXACtAFU4Tiw10W7jxspW,xp1.crgjxsp67.jht三lXACtFUKCllM3i*WF011三eCayHmM:MaHMtpdxcrg.XAMOKCl2

7、l8.19.3r三r嘉琳Olnee50人创12TWMticetipdxCrgntceTMJhelXA由伍73121&19.3广东有广AMCh11三eSaaMmin“13758tJtce.tpdxcrkHXAjstz.it*Uportjszx),itdtx.jhtlXAKM11C6218.1供3广素香1.*珠KChnw51Mn、I:15XAtipcrt/DaMi除2223,MEWt电信Qircw45.245Mw、I:16758roticf,ticrt*Mice758;htilXADCD湖附22?233MItWft电仃Qmw6n笺5加,7?KXAiMe.jltipoct,iBrxtiHor,x11

8、j,ifMkjhtalXA(WEir21区求之河电*塞通QlreBP;2方町Mm、I.19WjtA,SfUfcrtj-itkjt三lXACMnMK21K:J1.N河“(hrt?%C1.XMiMou一、I20573jeCgort,tJ57Z加1XACMF取:忆I&泣2汽电占引星电Qrw4ia24liMs一.i21XAlpli*tifda,erg.stjlukJhtalXA:SEzBHIIn.205.:北京巾F4!nterne7VSMm(季,22XAJAzVSnitlFaMCrgJsztZiuk1.jhtlXAD34FrOaNl81.123广东方育珠1roarU1.(1.WjMMS7,::,idt

9、eot.pff,ptlfu11wrlw*ri4boer.Vc9ratrjplatfora,pltfore.HMItnffM原始数据:利用readcsv函数把原始数据导入R语言RStUdi。中,整理数据进行下步的处理。当用户访问网站页面时,系统会记录用户访问网站的日志,其访问的数据记录了访问序号、内容id、访问内容、用户id、ip等多项属性的记求,并针对其中的各个属性进行说明,如表2-2所示。表2-2访问记录属性表属性名称属性说明属性名称属性说明id访问序号browser_type阅读器类型ContentJd内容idbrowser_version阅读器版本page_path网址platform_

10、type平台类型username用户名称platform_series平台系列userid用户idplatform_version平台版本sessionid一次阅读标识data_time访问时间ipip地址mobile-type手机类型country国家agent代理商area区域UniqueVisitorID唯一阅读ID依据所供应的原始数据,确定挖掘目标如卜:挖,目标:1、借助大盘用户的访问汜录,发觉用户的访问行为习惯,对不同筋求的用户进行相关服务页面的举荐;2、依据用户访问内容、访问次数等属性特征,深化了解用户对访问网站的行为和目的与关切的内容二、举荐系统架构总体流程Nlqk、8dfasK

11、8m、tdqyal、XtXn、314511.38%企业合作wjxq、ZXns、ZZaZlnews、notice786928.50%新闻合作notices、sj3.数据集成:教学资嫄竞赛四、林计分析选取学问内容中的教学资源类型进行分析网址内容点击次数tipdm.org/ts/66l.jhtmlPython数据分析与挖掘实战一图书配套资料下栽2075tipdm.org/ts/654.jhtmlR语言分析与挖掘实战一图书配套934资料下载tipdm.org/ts/785.jhtml熨网网一数据挖掘竞赛平台838tipdm.org/ts/578.jhtmlMatlab分析与挖掘实战一图书配套资料下栽8

12、31tipdm.org/ts655.jhtmlHadoop分析与挖掘实战一图书配套资料下载505对其中的点击次数与网页进行分析。11011.5%100.48%244.6%80.39%333.45%90.43%4-2075一7080.46%204898.70%分析:通过教学资源网页类型网页点击排名和网页个数点击次数可以看出,人们对数据挖掘类比较感爱好,从网页点击个数我们可以看出,点击4次以上的网页个数占了80%左右,阅读量却占了98%,因此我们可以考虑,按点击行为进行分类,分析构建模型算法。四、模型构建与检睑由于用户访问网站的数据记录很大,假如对数据不进行分类处理,对全部记录干脆采纳举荐系统进行

13、举荐,这样会存在以下问题:数据以太大意味着物品数与用户数很多,在模型构建用户与物品的稀疏矩阵时,出现设备内存空间不够的状况,并且模型计算须要消耗大量的时间。用户区分很大,不同的用户关注信息不一样,因此即使能够得到举荐结果,其举荐效果也会不好。并于双目的协同过渡性能:USerCF适用于用户较少的场合,否则计克用户相像度矩阵的代价很大;而ItemCF正好相反,适用于项目数明显小于用户数的状况实时性:USerCF用户有新行为,不肯定造成举荐结果的马上改变;ItemCF正好相反,肯定会导致举荐结果的实时改变长尾物品丰富,用户特性化需求剧烈的领域举荐理由:与USerCF相比,ItemCF利用用户的历史行

14、为给用户做举荐说明,更简单让用户信服算法流程:关联规则是从事务数据库,关系数据库和其他信息存储中大盘数据的项集之间发觉好玩的、频繁出现的模式、关联和相关性。更准确的说,关联规则通过电化的数字描述物品甲的出现对物品乙的出现才多大的影响。Z测试集锢员相力矩舞训幡集H兴度举荐结果1:教学资源网页类型(部分如下)(SHflS标(推行结杲$*1.12.244.88tipdm.org/index,jhtmltipdm.org/ts661.jhtm1.tipdm.org/ts785.jhtml2.1tipdm.org/ts/654.jhtml3.tipdm.org/ts/655.jhtml4.tipdm.o

15、rg/ts/755.jhtml5.tipdm.org/ts/578.jhtmltipdm.org/ts/661.jhtm1.tipdm.org/jmgj/568.j$*1.12.253.61html0*tipdm.org/ts/785.jhtm2.tipdm.org/ts/646.jht1mltipdm.org/sm/736.jht3.tipdm.orgjmgj569.jmlhtmltipdm.org/notice760.j4.tipdm.orgjmgj574.jhtmlhtmltipdm.org/notice757.j5,tipdm.orgjmgj575.jhtmlhtml.$1,193,1

16、21.tipdm.org/ts/785.jhtm1.tipdm.org/ts/66l.jhtml55*12.tipdm.org/ts/786.jhtml3.tipdm.org/ts/755.jhtml4.tipdm.org/ts/654.jhtml5.tipdm.org/ts/747.jhtml结果反情1模型评价:精确率与召回率(Precision&Recall)PreCiSion就是检索出来的条目中(网页)有多少是精确的。Recall就是全部精确的条目有多少被检索出来了举荐结果2:竞赛网页类型(部分如卜Itipdm.org/td/374.jhtipdm.org/td/723.jhttmlml

17、tipdm.org/m736.jtipdm.org/ZxnS/716.jhtmlhtmltipdm.org/td/465.jhnllttipdm.org/td/378.jhtmlwtipdm.org/qk/729.jhtmltipdm.org/ts/66l.jhttipdm.org/fourthtipd$*1.12.253.60mlm774.jhtmltipdm.org/fourthtipdtipdm.org/ts/66l.jhtm778.jhtmlmltipdm.org/fourthtipdtipdm.org/sm/736.ihtm777.jhtmlmltipdm.org/qk/729.jh

18、tmltipdm.org/notice/760.tipdm.org/td/723.jhjhtmltmltipdm.org/td723.jhtipdm.org/sm/736.jhttmlmltipdm.org/td/465.jhtmltipdm.org/td/374.jhtmlwtipdm.org/td/378.jhtmlwtipdm.org/qk/729.jhtmlw结果反情模型检段2举荐储果3:企业合作网页类型(部分如下)ZxnS/773tdpdm.org/td/723.ihtml$1.119.2.14.jhtml6*tipdm.org/zxns/716.jtmltipdm.owjxq724

19、.jhtmltipdm.or/wjxq/660.jhtml.tipdm.org/wjxq/516.jhtmltipdm.org/zxn8/782.jhtxnltipdm.org/xtxm/IndHjhttipdm.org/wjxq/728$*1,172,149.ml.jhtml16tipdm.oz3ms773tipdm.org/xtxm/indeU2.j.jhtmlhtmltipdm.org/wjxq/725.jhtmltipdm.org/zxns/782.jhtmltipdm.org/zxns/716.jhtmltipdm.org/fourthtipdni/77tipdm.org/wjxq/

20、725$1,204,206.9.jhtml.jhtml226tipdm.org/fourthtipdni/77tipdm.org/wjxq/7248.jhtml.jhtmltipdm.org/seMndtipdm/4tipdm.org/wjxq/66093.jhtml.jhtml.tipdm.org/zzszl/718.jhtmltipdm.org/zxn8/780tipdm.org/kpan/552.jhtml.jhtmltipdm.org/wjxq/516.jhtml结果反愦模型检臆3举荐结果4:新闻公告网页类型(部分如下)用户点击网举荐网$1.12.253.60*tipdm.org/ts

21、/661.jhtmltipdm.org/ts785.jhtmltipdm.org/sm736.jhtmltipdm.org/notice760.jhtmltipdm.org/notice757.jhtmltipdm.org/foenpopUHfitemsembsedCF五、结果分析从举荐结果和模型检验上得出,不同的用户对网址点击的次数才肯定的关联规则,更准确的说,就是通过量化的数字描述物品甲的出现对物品乙的出现才多大的影响,进而真正的了解用户,从而对用户进行举荐。从模型的检验上看,我们用了三种检验方法,即随机举荐检验、热点举荐检胶、IBCF举荐检验,从检验图形上可以得出热点举荐对用户的召回率和

22、精确度更明显,即随着举荐个数的增加,用户被召回的可能性就越低,而针对这个问题我们更应当深化的去了解用户,给用户举荐他们真正想要的结果。六、模型应用当前,随着互联网对人们生活影响的不断增大,每天有数以亿计的用户行为数据被网站记录。这些数据以除性信息的方式反映人们的行为习惯、爱好爱好、性格特征,甚至是政治主见。网民每天都在告知我们,他们究竟须要什么。而这也正反映了用户的需求,可以说谁能读出用户的需求,谁就能更好地迎合用户,获得更多的流依,其网站的用户体验也就越好C通过用户运用网站时留下的数据来读出用户需求、习惯、爱好。了解到用户真正须要什么,所以在对于日后的网页举荐过程中,建议依据不同类型的网页运

23、用不同的算法进行举荐,即分类举荐,以达到最好的举荐效果。这不但会更好的为用户供应网页举荐服务,而且会加大用户对该公司网页的点击量,并在很大程度上便利用户查找想要的内容。附录:data-readcsvCC:UeersAdministratorDeaktoptidm.initdata.C8v,8triHgsAsFactors-F)导入原始神#采纳ISa的方法找出那些带有Jhtml或.htm形式的网址nf2-data(grep(.jhtml.htmdata(,fullur)J#去除带、网站主页、乱码类J制R据网址ind1-nf2-grep(1.d+1tipdm.orgindex.jhtml.*%.*

24、tipdm.orgsj6.jhtmlfi,fullur)JinffuUurl两列HbraXyePiyrI)Iibraxyfrecommenderlab1)HbraXyCregistiy)#管逸敦学资源类网页ff(,zytjyxspjmgjinformationtsasdfdsjkfjiaojmgItteIsjfxsIsjsdf,info1.fullurla)J#第逸竞ffl-infogrep(jszz18tpjyxzpcgalfirsttipdmSeeOZIdtiPdmthirdtipdmIfourthtipdmjingsakjxmqksdfasfsmtdinfo,fullurDJ#第逸企业合

25、作类网页ff2-infogrep(qyalXtXmWjXqzxnszz8zl,rinfo1.fullur)J#第逸新闻公告类网页ff3st8plit(info1,21.rfixed-TRUE)#对每个1.IsT型的数据,将其蛆合成数据框的格式Wbine-ldply(webyrbind)#获得学问列表中婿姻类期的好以与在原始聊中的位tipdm.org三wbinewhich(wbine,1tipdm.org),itemb-tipdm.orcHnfo1row.names(tipdm.org)Jrequire(remmenderlab).#“#将数据转换为0-1二元型数据,即模型的入数据集infoh-

26、a8(itefn-tipdm.orglninaryRatingMatrix,)#采纳并于,品的协同过渡算法进行模型数据进行建模,形成模型inf-je-Recommender(infohmethod-IBCF)#利用模型对原始聊集进行调料并获得举荐长度为10的结果info_p-predict(info_re4nfoh,n-10)t-a8(info_p,list)t2-ldply(t,rbind)nameV-t2tlt2-t2,-lfunlx)0)retum(x-grep(index,x)elseretum(x)t3-apply(t2,14unl)names(t3)-name#将结果保存至工作书目

27、下的文件中,融将结果转换为list型。#对list型结果采纳sink与print吩喈将其保存sink(jiadexl.txt)print(t3)SinkQ#*将三耕算法形成一个算法的listalgorithms-Ust(randomitems-list(name-RANDOM,param-NU1.1.)tpopularitems-list(name-POPU1.AR,param-NU1.1.),item-basedCF-list(name-IBCF,param-NU1.1.)#0将麴以交叉检IHI分成K10份,9份训练,一份潴试#glven访用梆行胭评潮的项目ft*,(实际Iae中只限1)info-e-CVaIuatioXISCheme(infoh,method三cro88-validation,k10,given-1)#采纳算法列表对据进行模型覆料与评价,共举荐值N取3,5,10,15,20,30info-results-CVaIUate(Inf(1.es,algorithms,nc(3,5,10,15,20,30)*#盲出评价结果的图形plot(infoJesuits,XIim-c(0,0.9)yylim-c(0,0.1)tprec/rec,legend三topleft,cex-0.67)

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号