推荐系统技术ppt课件.pptx

上传人:牧羊曲112 文档编号:1347144 上传时间:2022-11-12 格式:PPTX 页数:49 大小:2.52MB
返回 下载 相关 举报
推荐系统技术ppt课件.pptx_第1页
第1页 / 共49页
推荐系统技术ppt课件.pptx_第2页
第2页 / 共49页
推荐系统技术ppt课件.pptx_第3页
第3页 / 共49页
推荐系统技术ppt课件.pptx_第4页
第4页 / 共49页
推荐系统技术ppt课件.pptx_第5页
第5页 / 共49页
点击查看更多>>
资源描述

《推荐系统技术ppt课件.pptx》由会员分享,可在线阅读,更多相关《推荐系统技术ppt课件.pptx(49页珍藏版)》请在三一办公上搜索。

1、,推荐系统关键技术与发展趋势,推荐系统,背景介绍,1,应用场景与原理,算法介绍,总结和展望,2,3,4,2,讨论,5,背景介绍,1,应用场景与原理,算法介绍,总结和展望,2,3,4,3,讨论,5,4,什么是推荐系统互联网的出现和普及给用户带来了大量的信息,满足了用户在信息时代对信息的需求,但随着网上信息量的大幅增长,用户在面对大量信息时无法获得对自己真正有用的部分,对信息的使用效率反而降低了,这就是所谓的信息超载问题。推荐系统是解决信息超载问题一个非常有潜力的办法。推荐系统现已广泛应用于很多领域,其中最典型并具有良好的发展和应用前景的领域就是电子商务领域。同时学术界对推荐系统的研究热度一直很高

2、,逐步形成了一门独立的学科。,5,什么是推荐系统(cont.)推荐系统就是根据用户的历史行为、社交关系、兴趣点、所处上下文环境等信息去判断用户当前需要或感兴趣的物品/服务的一类应用;这里的推荐是去预测用户对某个他未曾“使用”过的物品(item)的喜好程度。这里的物品可以是电影、书籍、音乐、新闻;推荐系统的核心任务是联系用户和信息。对用户而言,推荐系统能帮助用户找到喜欢的物品/服务,帮忙进行决策,发现用户可能喜欢的新事物;对商家而言,推荐系统可以给用户提供个性化的服务,提高用户信任度和粘性,增加营收。,推荐问题的发展历史 推荐问题本身追溯久远1994, Minnesota, GroupLens研

3、究组论文 提出“协同过滤”的概念 推荐问题的形式化影响深远(An Open Architecture),netnews Recommendation SystemItem-basedMatrix FactorizationOther non-CF algorithmsHybrid Methods,GroupLens : user-based collaborative filtering ,http:/www.grouplens.org/,6,推荐问题的发展历史(cont.) 目前已广泛集成到很多商业应用系统中 尤其是网络购物平台中,Amazon: Amazon网络书城的推荐算法每年贡献30个

4、百分点的创收Forrester: 电子商务网站留意到推荐信息的顾客,约1/3会依据推荐购买商品Netflix:2/3 被观看的电影来自推荐Google新闻:38%的点击量来自推荐,7,推荐系统的输入User + Item + ReviewUser & User Profile 描述一个user的“个性”两种构建User Profile的方式 与Item Profile类似,如性别、年龄、国别、年收入、活跃时间 难以与Item建立具体的联系 隐私问题 很少直接使用利用Item Profile构建User ProlePersonalized IR relatedItem & Item Profil

5、e 电影:类别、导演、主演、国家、 新闻:标题、本文、关键词、时间、,8,9,推荐系统的输入(cont.)Review(user 对 item 的评价)最简单的Review: 打分(Rating) 一般是15的星级其它Review 显式 评论 评分 标签,10,推荐系统的输出推荐列表(Recommendation List) 按照特定的排序给出对该用户的推荐 推荐理由 与 IR 系统的不同 举例 e.g. 购买了某物品的用户有90%也购买了该物品 该物品在某类别中人气最高 重要性 解决推荐的合理性问题 受到越来越多的重视,背景介绍,1,应用场景与原理,算法介绍,总结和展望,2,3,4,11,讨

6、论,5,Facebook 用户数据泄漏,12,1. 电子商务亚马逊个性化推荐,13,图2-1:亚马逊的个性化推荐列表,1. 电子商务亚马逊相关推荐,14,图2-2:亚马逊的相关推荐列表,购买过这个商品的 用户经常购买的其他商品,图2-3:亚马逊的打包销售界面,2. 电影和视频网站优酷,15,图2-4:优酷的电影推荐列表,3. 个性化音乐网络电台网易云音乐,16,图2-5:网易云音乐个性化歌曲推荐的用户界面,4. 社交网络Facebook,17,图2-5:基于Facebook好友的个性化推荐列表,5. 其他个性化阅读Google Reader的社会化阅读基于位置的服务Foursquare的探索功

7、能 (LBS,Location-based Service)个性化邮件Gmail的优先级邮箱功能个性化广告Facebook广告定向投放,将广告投放给它的潜在客户群,18,利用用户行为数据用户行为在个性化推荐系统中一般分两种显性反馈行为用户明确表示对物品喜好的行为隐性反馈行为指的是那些不能明确反应用户喜好的行为(eg. 页面浏览)协同过滤算法协同过滤是指用户可以齐心协力,通过不断地和网站互动,使自己的推荐列表能够不断过滤掉自己不感兴趣的物品,从而越来越满足自己的需求。基于用户的协同过滤算法(UserCF):给用户推荐和他兴趣相似的其他用户喜欢的物品。基于物品的协同过滤算法(ItemCF):给用户

8、推荐和他之前喜欢的物品相似的物品,19,利用用户行为数据UserCF推荐步骤1)先找到和他有相似兴趣的其他用户,20,余弦相似度公式,物品-用户倒排表,利用用户行为数据UserCF推荐步骤2)UserCF算法会给用户推荐和她兴趣最相近的K个用户喜欢的物品,21,S(u, K): 包含和用户u兴趣最接近的K个用户N(i): 对物品i有过行为的用户集合Wuv: 用户u和v的兴趣相似度Rvi: 代表用户v对物品i的兴趣,利用用户行为数据 基于图的推荐算法二分图又称作二部图,是图论中的一种特殊模型。设G=(V,E)是一个无向图,如果顶点V可分割为两个互不相交的子集(A,B),并且图中的每条边(i,j)

9、所关联的两个顶点i和j分别属于这两个不同的顶点集(i in A,j in B),则称图G为一个二分图。用户行为很容易用二分图表示,因此很多图的算法都可以用到推荐系统中。路径数、路径长度、经过的顶点,22,用户物品二分图模型,利用用户标签数据通过一些特征(feature)联系用户和物品,给用户推荐那些具有用户喜欢的特征的物品。利用上下文信息用户所处的上下文(context),包括用户访问推荐系统的时间、地点、心情等,对于提高推荐系统的推荐效果是非常重要的。利用社交网络基于社交网络的推荐可以很好地模拟现实社会美国著名的第三方调查机构尼尔森调查了影响用户相信某个推荐的因素。调查结果显示,90%的用户

10、相信朋友对他们的推荐,70%的用户相信网上其他用户对广告商品的评论。,23,背景介绍,1,应用场景与原理,算法介绍,总结与展望,2,3,4,24,讨论,5,1,4,25,基于内容的推荐算法协同过滤推荐基于启发式方法的协同过滤算法基于模型的协同过滤算法基于图的协同过滤算法,1,4,26,基于内容的协同过滤算法,1,基于内容的推荐算法(Content-based Recommendations)算法模型介绍根据用户过去喜欢的产品(item),为用户推荐和他过去喜欢的产品相似的产品。例如,一个推荐饭店的系统可以依据某个用户之前喜欢很多的烤肉店而为他推荐烤肉店主要包括如下三个步骤,27,Item Re

11、presentation:为每个item抽取出一些特征,用来表示此item;Profile Learning:利用一个用户过去喜欢(及不喜欢)的item的特征数据,来学习出此用户的喜好特征(profile);Recommendation Generation:通过比较上一步得到的用户profile与候选item的特征,为此用户推荐一组相关性最大的item。,基于内容的推荐算法(Content-based Recommendations),28,CONTENT ANALYZER - Item RepresentationPROFILE LEARNER - Profile LearningFILT

12、ERING COMPONENT - Recommendation Generation,基于内容的推荐算法(Content-based Recommendations),29,Item Representation:从Item中获取特征的步骤Item的属性可以分为结构化属性和非结构化属性两种,结构化的属性例如颜色、价格等可以直接当作特征;对于非结构化的属性例如Item的描述文本,需要先转化为结构化数据。对于文本类的非结构化数据,为了将其转化为结构化的数据,常用的办法有TF-IDF、词向量等方法。TF-IDF(即词频-逆向文件频率)是一种自动提取关键词的算法,通过该算法可以将文本转化为特征向量。

13、词频(term frequency,tf)指的是某一个给定的词语在该文件中出现的频率逆向文件频率(inverse document frequency,idf)是一个词语普遍重要性的度量,基于内容的推荐算法(Content-based Recommendations),30,Profile Learning:学习用户的偏好K近邻算法:对于一个新的item,K近邻方法首先找用户u已经评判过并与此新item最相似的k个item,然后依据用户u对这k个item的喜好程度来判断其对此新item的喜好程度。决策树算法:当item的属性较少而且是结构化属性时,可以使用决策树算法来学习用户的喜好特征。这种情

14、况下决策树可以产生简单直观、容易让人理解的结果。因为可以把决策树的决策过程展示给用户u,告诉他为什么这些item会被推荐。Rocchio算法:基于用户的行为(例如点击行为)生成一个偏好向量,通过对比偏好向量和item向量的相似度来度量用户对于该item的喜爱程度。,Recommendation Generation:生成推荐结果根据Item的特征和用户特征生成推荐结果的过程,基于内容的推荐算法(Content-based Recommendations)优点:用户之间的独立性(User Independence):每个用户的profile都是依据他本身对item的喜好获得的,与他人的行为无关。

15、这种用户独立性带来的一个显著好处是别人不管对item如何作弊(比如利用多个账号把某个产品的排名刷上去)都不会影响到自己。可解释性强(Transparency):方便向用户解释为什么推荐了这些产品给他。新的item可以立刻得到推荐(New Item Problem):只要一个新item加进item库,它就马上可以被推荐,被推荐的机会和老的item是一致的。,31,基于内容的推荐算法(Content-based Recommendations)缺点:item的特征抽取一般很难(Limited Content Analysis):如果系统中的item是文档,可以比较容易地使用信息检索里的方法来抽取出

16、item的特征。但很多情况下我们很难从item中抽取出准确刻画item的特征。无法挖掘出用户的潜在兴趣(Over-specialization):推荐只依赖于用户过去对某些item的喜好,它产生的推荐也都会和用户过去喜欢的item相似。如果一个人以前只看与推荐有关的文章,那只会给他推荐更多与推荐相关的文章,它不会知道用户可能还喜欢数码。无法为新用户产生推荐(New User Problem):新用户没有喜好历史,自然无法获得他的profile,所以也就无法为他产生推荐了。,32,1,4,33,基于启发式的协同过滤算法,2,基于启发式协同过滤的推荐算法(collaborative filteri

17、ng)基于用户的协同过滤推荐:核心思想:基于用户对物品的偏好找到相邻的邻居用户,然后将相邻用户喜欢的物品推荐给当前用户。,34,基于启发式协同过滤的推荐算法(collaborative filtering)基于项目的协同过滤推荐:核心思想:基于用户对物品的偏好找到相似的物品,然后根据用户的历史偏好,为他推荐相似的物品。,35,基于启发式协同过滤的推荐算法(collaborative filtering)相似度计算方法:常用皮尔逊相似度或余弦相似度来度量相似度皮尔逊相似度:余弦相似度:,36,基于模型的协同过滤算法,3,37,基于模型协同过滤的推荐算法核心思想:基于用户的偏好信息,提取出用户基本

18、属性和偏好特征,训练推荐模型。然后利用模型,根据用户的喜好信息进行预测,计算该用户对于物品的喜爱程度,从而进行推荐。,38,基于模型协同过滤的推荐算法,39,优点:不需要对物品或者用户进行严格的建模,不要求物品的描述是机器可理解的,并且与领域无关,可以用于跨域推荐。这种方法计算出来的推荐是开放的,可以共用他人的经验,很好的支持发现用户潜在的兴趣偏好,缺点:对于新用户和新物品存在“冷启动”问题。推荐的效果依赖于用户历史偏好数据的多少和准确性。,基于图的协同过滤算法,4,40,基于图的推荐算法PersonalRank算法:将用户行为数据用二分图表示,例如用户数据是由一系列的二元组组成,其中每个元组

19、(u,i)表示用户u对物品i产生过行为。例如用户A点击了物品abd,用户B点击了ac,C点击了be,D点击了cde。那么可以转化为一个二分图。,基于图的推荐算法PersonalRank算法:给用户u推荐物品任务可以转化为度量Uv和与Uv没有边直接相连的物品节点在图上的相关度,相关度越高的在推荐列表中越靠前。两个顶点的相关度主要取决于如下因素:两个顶点之间路径数两个顶点之间路径长度两个顶点之间路径经过的顶点,基于图的推荐算法PersonalRank算法:相关度高的顶点具有如下特性:两个顶点之间的路径较多连接两个顶点之间的路径长度较短连接两个顶点之间的路径不会经过出度较大的顶点,PR(i)表示物品

20、i的访问概率(也即是物品i的权重),out(i)表示物品节点i的出度。alpha决定继续访问的概率。,基于图的推荐算法Personal Rank算法改进:Personal Rank在每次对每个用户推荐时,需要在整个二分图上迭代,知道图中每个节点都收敛。显然,这个过程的复杂度非常高,无法实现实时推荐。Personal Rank计算公式的矩阵表示形式为上式可变形为:因此通过解线性方程组的方法就能求出r。,46,主流的推荐算法可以分为两大类,一类是基于内容的推荐,另一类是协同过滤推荐。协同过滤推荐是目前最流行的推荐算法,在工业界和学术界得到了大量的应用。基于内容的推荐算法优势在于其解释性强,且各个用

21、户是独立的,互相不影响,有利于反作弊。基于内容的推荐算法对于item的特征抽取比较困难,且无法发现用户的潜在兴趣,无法做到跨域推荐。基于协同过滤的推荐算法模型通用性强,能够借助其他用户的信息为用户做推荐,可以挖掘用户的潜在兴趣,可以跨域推荐。两类推荐算法共同面临的问题是冷启动问题,即对于新用户和新产品,推荐的准确率较低。,背景介绍,1,应用场景与原理,算法介绍,总结和展望,2,3,4,47,讨论,5,48,产生背景解决信息过载问题推荐系统的应用电子商务、电影视频平台、个性化音乐平台、社交网络等推荐算法的研究基于协同过滤推荐基于内容推荐混合展望把推荐技术应用到更多其它行业进一步改进推荐算法,提高推荐算法的准确性和实时性推荐系统评价研究,49,Thanks!,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号