《电子商务推荐技术发展的新动向1.doc》由会员分享,可在线阅读,更多相关《电子商务推荐技术发展的新动向1.doc(7页珍藏版)》请在三一办公上搜索。
1、电子商务推荐技术发展的新动向1张光前 1,郭艳红 1,高歌 21 大连理工大学系统工程研究所,辽宁大连(116024)2 吉林大学管理学院 吉林长春(130012)E-mail:zhgq摘 要:该文介绍两个电子商务推荐的实例,从中提炼出两种新的电子商务推荐技术:基于 广义基因的推荐和基于社会化标签的推荐,并分析了它们的特点及在发展过程中亟待解决的 问题。由于它们与现有电子商务推荐技术的原理根本不同,因此不存在现有电子商务推荐所 普遍具有的冷启动、计算复杂性、数据稀疏等问题。尽管这两种推荐技术有很大的发展前景, 但还处于萌芽状态的,需要进行深入的研究,才有可能发展为成熟的电子商务推荐技术。 关键
2、词:个性化推荐广义基因标签Web2.0中图分类号:查阅中国图书馆分类法1.引 言网站的推荐机制是电子商务或内容网站的核心功能之一。目前几乎所有大型的电子商务 系统,如 Amazon、CDNOW、Netflix 等,都不同程度上使用了各种形式的推荐系统。出色 的推荐机制会留住老用户,吸引新用户。电子商务推荐是一种个性化推荐。其核心问题是发现用户的偏好1,而在实际应用中发 现用户偏好是一个非常具有挑战性的问题,于是有些推荐技术就退而求其次,找到与目标用 户兴趣相近的一组用户即可。也就是说,以前的行为选择与你相似的用户,在以后的行为中 很可能也会和你相似。这可以看作是现有电子商务推荐技术的基本原理。
3、现有的电子商务推荐技术可分解为数据和算法两个层次。个性化推荐是数据优先的,目 前所用的数据主要有:用户浏览历史记录、对商品的评价(评分)、购买记录、用户个人信 息等等能够显式或者隐式体现出用户喜好的数据。通常,数据的积累越多对推荐的精度就越 有好处;算法层就是具体的个性化推荐算法,如协同过滤、关联规则、效用函数、统计分析 等;两者的有机结合就形成了协同过滤推荐、基于内容推荐、基于人口统计推荐、基于效用 推荐、基于知识推荐等各种推荐技术。于是,现有的电子商务推荐技术可以表示为: 电子商务推荐技术F(数据(含使用方向),算法) 值得说明的是,有的电子商务推荐技术专指算法一项,而这里的推荐技术则包括
4、数据及其使用的一个完整的过程。例如,迄今为止,协同过滤(Collaborative Filtering)技术是应用最成功的个性化推荐 技术2,也是解释上面公式的最佳例子。首先,用户相关的最初数据转化为用户商品之间 关系的矩阵(这里是用表格表示的,如图 1 所示)。矩阵中的值可表示购买与否或对用户对 商品的评价等。这是进行推荐的基础数据。在此基础上,横向看就是第一代基于用户(User-based)的协同过滤技术,是通过比较 目标用户的一系列行为选择来识别出一组相互具有同好的用户;纵向看就是第二代基于内容 项的协同过滤技术,计算内容项之间的相似性比较的是内容项与内容项之间的相似度。这种1 教育部博
5、士点基金新教师项目(20070141037)- 2 -矩阵的纵向与横向就是数据的使用方向。具体的比较过程就是计算矩阵中横向或纵向矢量间的相似度,比较经典的有泊松相关系 数和余弦相似性等。这些构成了算法层。从数据到算法就构成了完整的电子商务推荐技术。由于现有的电子商务推荐是建立在用户相关数据的基础上的,因此,就造成现有的 推荐系统都存在当数据积累少时难以做出准 确推荐,即冷启动问题;当数据量巨大时, 大量数据库 IO 操作开销等而带来计算复杂性 的问题,即推荐算法的实时性和扩展性较差 3。而且对于大型电子商务网站来说,商品和 对其评价总是很少的,因此也就普遍存在数 据稀疏问题。当然,这是从技术层
6、面探讨电 子商务推荐,没有涉及电子商务推荐中诸如 隐私等社会性问题。基 于用户 基 于 商 品图 1 用户商品矩阵 goods1goods2.goodsnuser1user2.userm尽管已经有很多针对这些问题而做出的努力,例如,协同过滤算法采用内容项比较代替 用户间选择的比较4;为内容项的评分设为一个固定的缺省值等来解决用户数据的稀疏问题 5;为解决推荐算法扩展性能问题,在用户评分数据上先做一次聚类分析6,再应用具体的 推荐技术等等。但由于现有的电子商务推荐是以发现用户偏好为核心,以积累用户相关数据 为途径,因此,在现有的电子商务推荐系统的原理下,任何努力都只能是缓解而不可能从根 本上解决
7、冷启动、数据稀疏、扩展性等问题。下面介绍的两种新的推荐技术在原理上与现有的电子商务推荐完全不同,尽管它们作为 电子商务推荐技术还处于萌芽状态,但有着很大的发展潜力和应用前景。2.电子商务发展的两个实例2.1 基于遗传学的音乐推荐系统潘朵拉(Pandora)Tim Westergren 和一些音乐爱好者知道人们因为音乐的某些特性而喜欢音乐,因此,希 望根据音乐的某些相似之处设计一套推荐系统。但具有深刻创新意义的是,他们把遗传学中 的概念引入到音乐中,即把遗传学中承载影响人类特性和行为的密码基因,这一概念引 入音乐推荐中,音乐的相似性是通过其“基因”组成来衡量的。这就是音乐染色体项目7,8。200
8、0 年 1 月 Tim Westergren 和他的朋友们开始了该项目的研究。项目的关键在于把音 乐分解成为最基本的“基因”组成。他们把音乐按照其产生方式进行分解并辅以少量的美学 观点,比如把音乐分解成人声、电子乐器、合声、音调、节奏、等基本因素7,8。在奋斗了 几年,分析了海量的音乐后,这个项目积累了足够的数据,并在 2006 年推出了名为 Pandora 的在网上收听音乐的服务。Pandora 通过分析每首歌的“基因组”,使经过它挑选出来的音乐都能符合用户第一次输 入时歌曲或者歌手的风格。为了让用户更清楚那些歌会被选入原因,Pandora 可以给出歌曲 入选的理由,并允许用户对每一首歌进一
9、步筛选,对 Pandora 使用的越多,它播放的就越是 你喜欢的音乐。Pandora 由于准确的推荐而获得了巨大的成功。和传统的推荐系统不同的是,因为 Pandora 了解音乐相似性背后的因素,它不需要积累关于客户大量的资料,也不需要分析用户的喜好,就可以把用户粘住。用户只需选一名歌手,或一首歌,就可以建立一个用户自己的平台,播放类似的音乐。这种“即刻满足感”是很难 抗拒的。的确,Pandora 也需要把握用户的口味或记忆但这正是蕴藏在音乐本身的 DNA 中了。在电子商务推荐领域公认领先的是亚马逊的电子商务推荐系统。亚马逊花了近 20 年的 努力来建立和完善这个系统,是程序自动化和用户相关购物
10、信息天才集合的经典之作。但仍 然被困扰于冷启动、数据稀疏、计算复杂性等问题。但利用音乐基因的 Pandora 不但没有这 些问题的困扰,而且有“即刻满意”的新优点,且在时间、资金、人员上的投入远小于亚马 逊推荐系统。2.2 基于社会化标签的分类像 del.icio.us(美味书签)9和Flickr10这样的网站,已经成为一种被称作“分众分类”(folksonomy)的概念上的先行者,其公司也因此在近期获得了广泛的关注。 “分众分类”是一种使用用户自由选择的关键词对网站进行协作分类的方式,而这些关键词一般称为标签(tags)。这些标签与我们常见的关键词有些相同。首先它们没有等级,其 次它们运用了
11、像大脑本身所使用的那种多重的、重叠的关联,可以是关于网页内容的任何方 面。网友自己对其内容添加标签,然后通过标签对网页内容进行自动分类,这种通过标签分 类的方法也称为“自由分类法”11。这种标签具有即时本质和社会反馈(immediate self and social feedback)等性质。每一个 tag 都体现了用户个人喜好和选择。但也存在缺乏规范,缺 乏统一,随意性大等缺点。通过这些标签,用户会自觉找到自己所属的社会群体,即有共同爱好的人群。从而实现 了“物以类聚,人以群分”的目的。目前的个性化推荐也是寻找具有“同好”的用户或群体。 因此,尽管标签还不能称为个性化推荐,但的确具有个性化
12、推荐的功能。不同的是,基于社 会化标签的推荐是一种典型的自组织方式,通过零散的反馈创造了一个循环的积极的累加效 果,使得用户更加频繁地使用标签。例如,del.icio.us 是一个一流的社会化书签网站,也是使用标签的典范。它最初的作用 是在网上保存用户的书签,使用户可以从任何联网的计算机上看到书签,或者在任何地点增 加书签。它让用户自己用标签来鉴定、标识文章或网站的主题、位置、名字、分类、人、地点、 想法等任何方面,并通过相同或相近的标签,使用户能找到具有相同兴趣和爱好的人和主题。 这种自组织方式相当成功,很快在最初的使用者中流行起来。今天,del.icio.us 已经不仅仅是一个书签网站它还
13、是一个新闻网站和搜索引擎。同 时,del.icio.us 也是一个非常简明的推荐系统。3.电子商务推荐技术发展的两个新动向尽管上面的两个实例中还没有成型的电子商务推荐技术,但我们从中可以看出电子商务 推荐技术发展的两个新动向。3.1 基于广义基因的推荐从表面上看,Pandora 音乐推荐可归类于基于产品的推荐或基于内容的推荐,但与现有- 3 -个性化推荐有本质的差别。正如引言中总结的现有的电子商务推荐系统一样,目前基于产品或内容的个性化推荐也是以发现用户偏好为核心,以积累用户相关的数据为途径的。而潘多 拉则基本上是利用商品(音乐)的自身信息,而且这个信息还是其“基因”。于是,问题的关键在于:P
14、andora 这个成功的例子具有普遍意义吗?即“基因”是普遍 存在的吗?从音乐染色体组项目可以看出,潘朵拉的成功是基于一个基本观点:事物自身的性质是 决定人们对其好恶的主要原因。这和我们自身的经验是一致的,我们喜欢或不喜欢某种商品 的主要原因在于商品本身。换句话说,用户喜欢或不喜欢某种商品是因为他个人的偏好刚好 和商品的某种特性相符。可以看出,这种观点是具有普遍意义的。因此,类似潘朵拉的推荐 技术在思想上是可行的。基因一词是丹麦学者约翰逊受孟德尔提出的“遗传因子是决定生物体性状的基本原因之 一”的思想启发而提出的12,因此,基因尽管是一个音译词,但也有基本原因的含义13。 除了我们熟知的生物基
15、因(遗传学和基因工程中所特有)外,非生物基因的思想并不鲜 见,例如:早在 1971 年英国著名遗传学家道金斯(Dowkis R)曾提出思想基因。认为思想基因是有稳定性、再现性和逐渐变异性的科学思想基本单元14;印度情报学家斯科森(S.K.Sen)提出了“情报基因”016,认为情报通过基因遗传、试错法检验、社会形态制约 以及变异思想逐渐稳定并实现增长;当代著名哲学家波普尔曾指出“知识的发展同生物的 进化有惊人的相似”15 ;刘植惠建议用“知识基因”代替“思想基因”和“情报基因”。 认为知识基因是知识进化的最小功能单元,具有稳定性、遗传性与变异性,以及控制某一知 识领域(学科、专业、研究方向)发育
16、走向的能力16;刘长林提出了文化基因的概念, 认为文化基因是指一个民族长久、稳定、普遍地起作用的思维方式和心理底层结构17; 还有图书分类学家们曾提出与传统的图书分类方法正好相反,从基本语词或概念开始合成科 学大厦等类似非生物基因的思想18。尽管这些提法还停留在思想层面,但都认识到某些非生物存在着决定其表象及变化的基 本原因,与生物基因非常相似。综合生物基因的研究与非生物基因(包括 Pandora)的思想看,其基本点都是把基因看 作是承载或决定着事物本质属性的基本单位。或者说,基因是决定事物表现及其变化的基本 原因。这种界定是包含生物基因在内的更广意义上的基因。从这个角度来说,这种基于基因的推
17、荐方式是能够应用于其他产品如书籍、电影、 酒、餐馆、旅游点的。关键是要找到每一类产品的基因是由什么因素组成。因此,这种个性 化推荐的核心问题是找到被推荐对象的广义基因。从音乐染色体组项目看,广义基因就是由事物自身的各种基本属性并结合生产等过程的 特性的组合,由于广义基因通常是由几百个属性构成的,因此,即便是用户仅做一次选择, 也会有足够的关于用户所喜欢的商品的信息,可以在此基础上进行准确地推荐,这就是潘朵 拉中即刻满足感产生的原因。因此,从原理和思路上,基于商品自身信息进行个性化推荐是可行的。是能够发展成为 一种新型的个性化推荐方法。但也正如音乐染色体组项目一样,只有对被推荐的商品有深刻 认识
18、才能确定其广义基因并形成基于广义基因的推荐。3.2 基于社会化标签推荐社会化标签是互联网上的新趋势。目前,社会化标签的主要作用是分众分类。但现有的- 7 -个性化推荐通常就是找到某一用户归属的类别,从这个角度说,社会化标签客观上具有推荐的功能。因此,准确地说基于社会化标签的推荐还是一种趋势,尚未形成完善的推荐机制和 方法。web2.0 时代是一个以用户为主的时代,通过把具有相同兴趣和爱好的人汇集在一起, 从而产生源于用户贡献的网络效应。其本质是利用集体智慧19。社会化标签则很好地体现 了这种本质,因此,利用集体智慧可以看作是基于社会化标签推荐的基本原理。社会化标签有可能发展成为一个有趣的、自助
19、分类的推荐系统,用群体的力量加标签的 方式可以建立起一个对图书、音乐等商品同样有效的推荐系统。但由于基础数据(标签)是用户提供的,而这些用户是分散的、并且不愿受到约束及打 扰,因此,基于社会化标签的推荐的关键是机制设计,即如何协调和管理众多用户的不同标 注,使之能在尽可能短的时间内演化为一个准确简明的推荐系统。此外,这种推荐方式还有一些具体的问题需要解决,如如何优化被标注对象的易找到性(findability);整个分类(所有被标注对象)方案是否合理;类目分配是否平衡;以及如 何选择匹配的类目等。4.结论从开发电子商务推荐系统的角度,把这两种尚未成熟推荐技术与现有的电子商务推荐技 术就如下几个
20、方面进行比较:表 1 两 种新的推荐技术 与现有推荐技 术相比较 现有的 个性化推荐 基于广义基 因的推荐 基于社会 化标签推荐 用户数据 多少无商品数据 少多无设计重点及 难点 算 法设计 广义基因 确定 机制 设计 用户是否参 与不参与 不参 与参与 扩展性 差好好可以看出,基于广义基因推荐和基于社会化标签推荐是两种很有发展前景的电子商务推 荐技术。但正如在前文中所说,它们还有一些尚未解决的问题,如广义基因的发现、标签的 机制等,因此,尽管它们作为推荐技术在原理及思路上是可行的,但要成为成熟的电子商务 推荐技术还有很长的一段路要走。由于社会化标签通过自组织方式最终会收敛于某些值(标签)。而
21、这些能长期在网上存 在的标签必然会体现所标注事物的某些本质特性,即是被标注对象的广义基因或其直接的反 映。因此,在这个意义上说,基于广义基因的推荐和基于社会化标签的推荐是殊途同归。因此,可对电子商务推荐技术做如下划分:现有以发现用户偏好为核心,以积累用户 相关数据为途径的推荐技术可被称为第一代电子商务推荐技术。它包括基于知识、基于商品、 协同过滤等现有的电子商务推荐技术;而以发现商品的广义基因为核心的推荐技术可被称为 第二代电子商务推荐技术,主要包括本文所介绍的基于广义基因的推荐和基于社会化标签的 推荐。广义基因是关于事物自身的一种精准信息。知道广义基因将为人们认识、搜索、计算等 方面提供极大
22、的准确性而节约大量的资源,为解决日益突出的信息泛滥而知识缺乏问题提供了基本的途径;同时,为搜索引擎、推荐系统、数据挖掘及新兴电子商务的发展提供了新的视角和理论基础。 此外,由于电子商务推荐注重的是实际应用效果,因此,根据实际情况把相关推荐技术的有机结合起来将会比采用单一的推荐技术的推荐结果更准确。参考文献1Sung-Hwan Min,Ingoo Han.Detection of the Customer Time-Variant Pattern for Improving RecommenderSystemsJ.Expert Systems with Applications,2005,28(
23、2):23-292Robles V.Improvement of Nave Bayes Collaborative Filtering Using Interval EstimationC.In: Proceedings ofIEEE/WIC International Conference on Web Intelligence, 20033Badrul Mumir Sarwar. Sparsity, Scalability, and Distribution in Recommender Systems M. Twin Cities: University of Minnesota, 20
24、014Al Mamunur Rashid,Istvan Albert,Dan Cosley,et al.Getting to know you: Learning new user preference in recommender systemsC.San Francisco,Califonia,USA:Proceedings of the 7th international Conference on Intelligent User Interfaces,2002,127-1345吴颜,沈洁,顾天竺等.协同过滤推荐系统中数据稀疏问题的解决J.计算机应用研究,2007,24(6):94-9
25、76王惠敏,聂规划.基于模糊聚类和资源平滑的协同过滤推荐J.情报杂志,2007,(7):1-4 7 基于音乐基因组项目的收音机潘朵拉,8 Alex Iskold.The Art, Science and Business of Recommendation Engines, 2007, http:/www. readwriteweb. com/ archives /recommendation _engines. php9美味书签网站,http:/www.del.icio.us10照片分享网站, 11戴行德,钱建兴.自由分类法刍议J.中国信息导报,2007,(10):55-59 12赵寿元,赵
26、守怡编著.现代遗传学M.北京:高等教育出版社,2002,35-41 13李慎涛 等译.生物技术与基因工程图解小百科M.北京:科学出版社,2005,36-4214 Dawkins R. Mems-The new replicatorsM. Oxford University Press, 1976, 89-93 15波普尔.客观知识M.北京:中国美术学院出版社,2003,103-111 16刘植惠.知识基因理论的由来与基本内容及发展J.情报理论与实践,1998,21(2):71-76 17刘长林.中国系统思维文化基因透视M.北京:中国社会科学出版社,1990,23-29 18陈悦,刘则渊.悄然兴
27、起的科学知识图谱J.科学学研究,2005,23(2):149-154 19汤代禄,韩建俊,边振兴.互联网的革命Web2.0 理念与设计M,北京:电子工业出版社,2007,378-411The Two New Trendies of Recommendation Techniques in e-CommerceZhang Guangqian1, Guo Yanhong1, Gao Ge21.Institute of system engineering, Dalian University of Technology, Dalian, LiaoningProvince,116024;2.Scho
28、ol of Management, Jilin University, Changchun, Jilin Province,130012AbstractTwo examples of recommendation were introduced, where we refined two new kinds of recommendation techniques, generalized gene-based recommendation and socialized tag-based recommendation. Their characteristics and the deside
29、rating solved problems were also debated. The new recommendation techniques havent the universal problems in e-commerce recommendation at present, such as cold start; computational complexity; data sparsity etc.,because of theories based on are entirely different. There is long way for the two emerging recommendation techniques to be mature.Keywords: Personalized Recommendation, Generalized Gene, Tag, Web2.0