第十章-信息过滤与推荐技术.ppt

上传人:laozhun 文档编号:2314349 上传时间:2023-02-11 格式:PPT 页数:50 大小:1.35MB
返回 下载 相关 举报
第十章-信息过滤与推荐技术.ppt_第1页
第1页 / 共50页
第十章-信息过滤与推荐技术.ppt_第2页
第2页 / 共50页
第十章-信息过滤与推荐技术.ppt_第3页
第3页 / 共50页
第十章-信息过滤与推荐技术.ppt_第4页
第4页 / 共50页
第十章-信息过滤与推荐技术.ppt_第5页
第5页 / 共50页
点击查看更多>>
资源描述

《第十章-信息过滤与推荐技术.ppt》由会员分享,可在线阅读,更多相关《第十章-信息过滤与推荐技术.ppt(50页珍藏版)》请在三一办公上搜索。

1、北京大学软件与微电子学院2009年度课程,1,第十章 信息过滤与推荐技术,2010年12月,最后更新日期:2009-10-10,北京大学软件与微电子学院2009年度课程,2,课前思考题,信息过滤的概念是什么?它和一般的信息检索、信息分类、信息抽取有什么区别?信息过滤的类型有哪些?基于内容的过滤和基于协作的过滤有什么不同?信息过滤的构成和各部分功能如何?信息过滤系统如何评估?,北京大学软件与微电子学院2009年度课程,3,提纲,信息过滤的基本概念信息过滤系统的分类信息过滤系统的组成信息过滤系统的评估信息过滤的现状及发展趋势,北京大学软件与微电子学院2009年度课程,4,提纲,信息过滤的基本概念信

2、息过滤系统的分类信息过滤系统的组成信息过滤系统的评估信息过滤的现状及发展趋势,北京大学软件与微电子学院2009年度课程,5,信息过滤的定义,从动态的信息流中将满足用户兴趣的信息挑选出来,用户的兴趣一般在较长一段时间内比较稳定不会改变(静态)。其他名称:Selective Dissemination of Information(SDI),来自图书馆领域。Routing,来自Message Understanding。本质上,Routing和IF还有所区别,它注重结果的排序Current Awareness,来自Data Mining。,北京大学软件与微电子学院2009年度课程,6,信息过滤系统

3、示意图,过滤器,User Profiles,用户,过滤数据,数据源,北京大学软件与微电子学院2009年度课程,7,信息过滤系统的特点,新信息的产生速度很快,人的兴趣变化速度赶不上信息的变化速度。可以说,人的兴趣变化比较缓慢,可以看成相对静态的和稳定的。信息过滤主要借用信息检索和用户建模(User modeling)两个领域的技术。用户的需求或者兴趣通常采用User Profile建模来表示。新信息到来的时候,根据用户的User Profile,有选择地挑出信息给用户。,北京大学软件与微电子学院2009年度课程,8,信息过滤系统数据流图,CollectionSelectionDisplay,Co

4、llection,Selection,Display,看上去很象IR!,北京大学软件与微电子学院2009年度课程,9,IF vs.IR(1),IF是可以看成广义IR的一部分,即和Adhoc Retrieval相对的一种任务模式。IR通常采用Pull模式,而IF通常采用Push模式。IF一般都借用狭义IR中的表示和计算方法。和Adhoc Retrieval相比:IR可以认为面向一次性的查询而使用,而IF是面向用户的长期需求的重复使用IF信息源动态,用户需求(采用User Profile来表示)相对静态;检索信息源相对静态,用户需求(采用Query来表示)动态变化IF用户要对系统有所了解,IR不需

5、要。IF一般要关注用户建模,涉及用户隐私问题。而IR一般不需要。,北京大学软件与微电子学院2009年度课程,10,IF vs.IR(2),Information Source change rate,Information need change rate,Filtering,Retrieval,北京大学软件与微电子学院2009年度课程,11,IF vs.IC(Info.Classification),IF可以采用IC中的分类算法。某些场合下人们所称的“信息过滤”实际就是一个IC问题。如不经过用户Profile调整的垃圾邮件过滤。IC中的Category通常不会变化,相对而言,IF的User

6、Profile会动态调整。,北京大学软件与微电子学院2009年度课程,12,IF vs.IE,Information Extraction是从无格式数据源中抽取相关字段的过程。比如抽取恐怖事件的时间、地点、人物等字段。IE中不太关注相关性,而只关注相关的字段。IF中要关注相关性。,北京大学软件与微电子学院2009年度课程,13,IF 的一些应用,搜索引擎检索结果的过滤:Google个人的邮件过滤新闻订阅和过滤浏览器过滤面向儿童的过滤系统面向客户的过滤系统和推荐系统,北京大学软件与微电子学院2009年度课程,14,提纲,信息过滤的基本概念信息过滤系统的分类信息过滤系统的组成信息过滤系统的评估信息

7、过滤的现状及发展趋势,北京大学软件与微电子学院2009年度课程,15,IF分类示意图,北京大学软件与微电子学院2009年度课程,16,按Initiative of operation分,主动(Active)的 IF系统主动搜集信息,并将相关信息发送给用户通常采用Push操作会造成信息过载问题,所以该系统要尽力建立精确的User Profile。代表系统BackWeb被动(Passive)的 IF系统不负责为用户搜集信息通常用于邮件和新闻组信息过滤代表系统GHOSTS,北京大学软件与微电子学院2009年度课程,17,按Location of operation分,在信息源端过滤将用户的Profi

8、le发送给信息提供者,后者将和用户Profile匹配的信息回送给用户这种服务通常也称为Clipping service用户通常需要付费,代表系统:Dialog的Alert服务在过滤服务器端过滤信息提供者将信息发送给过滤服务器过滤服务器根据用户的Profile将匹配信息发给用户代表系统SIFT在用户端过滤是一个局部过滤系统如Foxmail或outlook的过滤功能。,北京大学软件与微电子学院2009年度课程,18,从过滤方法分,基于感知的过滤(Cognitive filtering)也称为基于内容的过滤(Content-based filtering)将文档内容和用户的Profile进行相似度计

9、算代表系统CiteSeer基于社会的过滤(Sociological filtering)也称为协同过滤(Collaborative filtering对某个用户的Profile进行匹配时,通过用户之间的相似度来计算Profile和文档的匹配程度基于社会过滤的系统常常称为推荐系统(Recommendation systems)社会过滤常常使用用户建模(User modeling)及用户聚类(User clustering)等技术。社会过滤一般不单独使用,常常和基于内容的过滤配合使用。代表系统:RINGO、GroupLens,北京大学软件与微电子学院2009年度课程,19,社会过滤的一个实际例子,

10、北京大学软件与微电子学院2009年度课程,20,Collaborative Filtering,ActiveUser,北京大学软件与微电子学院2009年度课程,21,从获得用户兴趣的方法分,显式方法用户填写表格或用户提交关键词代表系统:SIFT、BackWeb隐式方法记录用户的行为,包括:时间、次数、上下文、行为(保存、废弃、打印、浏览、点击)等。代表系统:GroupLens介于显式和隐式之间的方法文档空间方法:将用户标注过的文档作为正例,新来的文档和它们比较,选择相似度大的文档。代表系统:SIFTER显式和隐式相结合的方法Stereotypic inference:开始定义一些默认的Prof

11、ile,根据用户的过滤过程进行修改。代表系统:UM,北京大学软件与微电子学院2009年度课程,22,提纲,信息过滤的基本概念信息过滤系统的分类信息过滤系统的组成信息过滤系统的评估信息过滤的现状及发展趋势,北京大学软件与微电子学院2009年度课程,23,一般组成,北京大学软件与微电子学院2009年度课程,24,Data-analyzer component,靠近信息提供方从信息提供方获得或搜集数据分析文档并将文档转化成相应表示(如 布尔模型表示、向量空间模型表示等等)将上述表示传给过滤模块,北京大学软件与微电子学院2009年度课程,25,User-model component,显式或隐式地获得

12、用户的一些相关信息构建用户Profile模型(规则表示模型、向量模型、文档中心模型等等)将用户模型传给过滤模块用户模型必须要和文档表示模型具有可比性,北京大学软件与微电子学院2009年度课程,26,用户建模不仅仅用于过滤(Beyond Filtering),Search for people based on their behaviorDiscovery of potential collaboratorsCollaborative data mining in large collectionsDiscoveries migrate to people with similar inter

13、ests,北京大学软件与微电子学院2009年度课程,27,Filtering component,IF系统的核心模块将User Profile和文档的表示进行相似度计算做出二值判定或者根据概率大小将文档进行排序用户可以对过滤结果进行判定判定信息传给学习模块以便对用户的Profile进行调整。,北京大学软件与微电子学院2009年度课程,28,Learning component,根据用户的反馈信息对用户的Profile进行调整,以便提高以后的过滤效果检测用户的兴趣漂移,北京大学软件与微电子学院2009年度课程,29,IF系统中的两个概念,基于统计的系统(System based on the s

14、tatistical concept)基于知识的系统(System based on the knowledge-based concept),北京大学软件与微电子学院2009年度课程,30,基于统计的IF系统,用户建模模块:Profile采用Term的权重向量来表示(如VSM,LSI)过滤模块:相关系数计算,Cosine距离概率检索模型(PRM)采用Bayes分类器进行计算学习模块进行相关反馈和查询重构(如采用Rocchio公式),北京大学软件与微电子学院2009年度课程,31,基于知识的IF系统,采用规则(Rule-based)或者语义网(Semantic-nets)的过滤系统规则:如果那

15、么User profile采用语义网(如利用wordnet)基于神经网络的过滤系统基于遗传算法的过滤系统,北京大学软件与微电子学院2009年度课程,32,IF系统中的用户建模,建模数据的获取办法:显式方法:填写表格,直接交互隐式方法:对用户行为的观察模型中的数据:浅层语义:如关键词增强的用户模型中包含更多关于用户的高级知识(如背景经历)Semantic networks/Stereotypic inference/Statistical inference on the relationship between words in docs采用构架(Underlying Architecture

16、)Agent/neural networks for auto inferred modelVSM/LSI for explicit inferenceConcept model for intelligent systemsKeyword system for statistically-based systems,北京大学软件与微电子学院2009年度课程,33,IF系统中的学习,学习方法基于观察进行学习基于反馈进行学习基于用户的训练进行学习(user-train learning)学习频率(Frequency of learning)出现紧急情况下的学习(Critical learning

17、)定期学习,北京大学软件与微电子学院2009年度课程,34,提纲,信息过滤的基本概念信息过滤系统的分类信息过滤系统的组成信息过滤系统的评估信息过滤的现状及发展趋势,北京大学软件与微电子学院2009年度课程,35,IF系统的评估方法,Evaluation by ExperimentsEvaluation by Simulation:such as TRECAnalytical Evaluation,北京大学软件与微电子学院2009年度课程,36,评估指标(1),正确率和召回率(Precision&Recall)基于统计的评价指标相关系数(Correlation):用户评估的结果排序和系统评估的结

18、果排序的序相关系数其他基于集合的评价指标Utility=(A*R+)+(B*N+)+(C*R-)+(D*N-),R+N+R-N-分别表示选出来的结果中真正相关文档的个数、不相关文档的个数、未选出来结果中相关文档的个数及不相关文档的个数,A、B、C、D是加权系数。ASP(average set precision)=P*R,当 P or R=0,ASP 不可用,北京大学软件与微电子学院2009年度课程,37,评估指标(2),面向用户(User-oriented)的指标Coverage Ratio=|Rk|/|U|=|AU|/|U|,A是用户找出的文档集合,U是用户已知的相关文档集合,Rk 是系统

19、找出的用户已知的相关文档集合Novelty=|Ru|/(|Ru|+|Rk|),Ru是系统找出的用户未知的相关文档集合,北京大学软件与微电子学院2009年度课程,38,提纲,信息过滤的基本概念信息过滤系统的分类信息过滤系统的组成信息过滤系统的评估信息过滤的现状及发展趋势,北京大学软件与微电子学院2009年度课程,39,现状,IF 系统不可缺少但是目前的IF系统不十分可靠(unreliable)商用的IF系统的相关度在 50%左右TREC实验的结果也不尽如人意用户宁愿读一些不相关信息,也不愿意丢掉重要相关信息还有很长的路要走。,北京大学软件与微电子学院2009年度课程,40,关于用户建模,集成各种

20、方法来表示用户的兴趣(不仅仅是关键词、还应该包括用户的一些特性或者参数)Profile更新及更新时间必须包含一个学习模块必须跟踪用户兴趣随时间的变化,北京大学软件与微电子学院2009年度课程,41,关于过滤技术,目标:宁愿返回一些不相关文档,也要返回更多的相关文档应该走多种方法相结合的道路。研究方向:智能过滤Agent:非集中式,基于信用,Agent之间互相竞争和合作,也不断进化可视化技术多媒体过滤:如视频点播VOD,not text-based多语言过滤(multilingual filtering),北京大学软件与微电子学院2009年度课程,42,关于评估,Analytical evalu

21、ation:formalismTREC filtering trackDiagnostic simulated evaluation,北京大学软件与微电子学院2009年度课程,43,关于构架和相关技术,Simple and Object-orientedDistributed and client-server basedRobust and SecureArchitecture-neutralPortable and ScalableHigh-performanceMultithread and MultitaskingDynamic,北京大学软件与微电子学院2009年度课程,44,IF中其

22、他需要考虑的问题,Protecting privacyWhat absolute assurances can we provide?How can we make remaining risks understood?Non-cooperative usersHow can the effect of spamming be limited?,北京大学软件与微电子学院2009年度课程,45,一些商用 IF系统(1),北京大学软件与微电子学院2009年度课程,46,一些商用 IF系统(2),北京大学软件与微电子学院2009年度课程,47,一些商用 IF系统(3),中搜 网络猪,北京大学软件与微

23、电子学院2009年度课程,48,References,URI HANANI,etc.Information Filtering:Overview of Issues,Research and Systems.User Modeling and User-Adapted Interaction 11:203259,2001D.W.Oard,A Conceptual Framework for Text Filtering.,北京大学软件与微电子学院2009年度课程,49,小结,信息过滤的基本概念信息过滤系统的分类信息过滤系统的组成信息过滤系统的评估信息过滤的现状及发展趋势,北京大学软件与微电子学院2009年度课程,50,The end.,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 建筑/施工/环境 > 项目建议


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号