《个性化检索中的相似用户群的获取与更新.doc》由会员分享,可在线阅读,更多相关《个性化检索中的相似用户群的获取与更新.doc(52页珍藏版)》请在三一办公上搜索。
1、个性化信息检索摘要下一代搜索引擎的一个突出特点是个性化,个性化信息检索是以用户为中心的信息检索技术,它获取以多种形式表达的用户需求(包括显式的、隐式的以及相关用户的需求),并综合利用这些用户信息,提高信息检索系统的性能。作为个性化检索中的重要研究子课题,相似用户群的建立与更新的任务是,通过对用户检索和浏览历史的分析,建立兴趣相似的用户群,并随着用户信息和检索领域的变化对相似用户群进行更新。相似用户群的建立与更新任务面临的主要问题是,缺乏合理的任务划分和标准评测集,无法对相似用户群系统进行公正的评价。因此,本文通过对个性化检索进行合理的任务划分,将相似用户群划分为一个独立的子任务,并利用开发的语
2、料标注辅助系统,为其建立了标准评测集,使得可以对相似用户群的系统进行公正的评价和比较。在相似用户群的研究中,由于用户间共同评价过的网页较少,数据稀疏成为限制相似用户群建立效果的重要问题,因此,本文对相似用户群建立的研究主要集中在解决数据稀疏问题上。本文提出了基于相关性模型的相似用户群建立方法,采用相关性模型,利用相似领域中的相似用户,对当前领域中的用户查看数据进行扩充,以解决数据稀疏问题。同时,根据实际情况,随着领域的不同对相似用户群不断进行更新,以使相似用户群的建立更加准确。实验语料为标注者针对天网100G语料进行的检索行为和标注的答案,评测指标采用错检率、漏检率和系统性能损耗代价。此方法的
3、性能在测试语料集上比baseline方法提高了7.12%,说明基于相关性模型的相似用户群方法可以很好地解决数据稀疏,同时由于利用用户群兴趣挖掘单个用户兴趣,防止了用户兴趣判断的偏差,提高相似用户群建立的效果。关键词个性化检索;协作过滤;相似用户群;相关性模型AbstractAn important characteristic of next generation search engine is personalization. Personalized Information Retrieval (PIR) focuses on users. It captures users inter
4、est in different kinds (explicit, implicit interest and interest of similar users). These information of users are integrated and used to improve the result of information retrieval system.The establishment and update of similar users cluster is an important subtask of personalized information retri
5、eval. Its task is to establish clusters of similar users by analyzing users retrieval and browsing history. The clusters will also be updated with the change of users information and retrieval areas. The problem in this task is the lack of tasks division and standard evaluation dataset. Therefore, t
6、his paper defines four subtasks of PIR, which include the establishment and update of similar users cluster. The establishment standard evaluation dataset makes it possible to evaluate and compare the systems of user clustering. The data sparseness limits the performance of user clustering because w
7、eb pages rated by different users are rare. Therefore, the research of this paper focuses on solving the problem of data sparseness. This paper proposes a user clustering method based on relevance model. It uses users data in similar domains to expand the data of users in current domain by relevance
8、 model. The users clusters will also be updated with the change of retrieval domains. The retrieval information and labeled answers of users are used to establish the experimental dataset. The evaluation matrix includes false alarm rate, miss alarm rate and cost of detection. In the experiment, user
9、 clustering based on relevance model improves the result of baseline system by 7.12%. This result proves that the proposed algorithm can alleviate the problem of data sparseness. Whats more, mining users interest by its cluster can decrease the false information in users models and improve the resul
10、t of precision of user clustering. KeywordsPersonalized Information Retrieval;Collaborative Filtering; User Clustering; Relevance Model目录摘要IAbstractII第1章 绪论11.1 课题背景11.2 课题的研究目的和意义21.2.1 课题的研究目的21.2.2 课题的研究意义21.2.3 相似用户群研究的应用31.3 国内外相关研究41.3.1 相似用户的判断41.3.2 解决数据稀疏问题的研究71.4 本章小结8第2章 个性化检索任务划分及评测92.1
11、个性化检索的任务划分92.1.1 用户新兴趣发现92.1.2 用户兴趣跟踪112.1.3 相似用户群建立122.1.4 个性化检索142.2 语料标注的辅助系统142.2.1 系统介绍142.2.2 正确答案记录172.2.3 语料规模182.3 相似用户群的评测182.3.1 评测机制182.3.2 评测方法192.4 本章小结19第3章 用户兴趣发现与跟踪213.1 用户新兴趣发现213.1.1 基于向量空间模型的新兴趣发现方法213.1.2 基于TextTiling的新兴趣发现方法223.1.3 实验结果及分析243.2 用户兴趣跟踪253.2.1 实验方法253.2.2 实验结果及分析
12、253.3 本章小结26第4章 基于相关性模型的数据扩充方法研究274.1 话题跟踪研究简介274.2 相关性模型284.3 基于向量空间模型的相关性模型284.4 基于话题核心与新颖部分的话题跟踪294.4.1 话题核心的构建304.4.2 利用改进相关性模型调整话题的新颖部分304.4.3 话题模型的构建314.5 实验及结果分析314.5.1 实验语料及评测机制324.5.2 实验结果324.6 本章小结34第5章 基于相关性模型的相似用户群研究355.1 相关研究355.2 基于相关性模型的相似用户群建立385.2.1 用户数据扩充385.2.2 用户相似度计算395.3 实验及结果分
13、析395.3.1 实验语料405.3.2 实验结果分析405.4 本章小结42结论43参考文献44攻读学位期间发表的学术论文48哈尔滨工业大学硕士学位论文原创性声明49哈尔滨工业大学硕士学位论文使用授权书49哈尔滨工业大学硕士学位涉密论文管理49致谢50千万不要删除行尾的分节符,此行不会被打印。在目录上点右键“更新域”,然后“更新整个目录”。打印前,不要忘记把上面“Abstract”这一行后加一空行第1章 绪论1.1 课题背景由于Web信息的日益增长,人们不得不花费大量的时间去搜索、浏览自己需要的信息。搜索引擎是最普遍的辅助人们检索Web信息的工具,比如传统的搜索引擎AltaVista、Yah
14、oo和新一代的搜索引擎Google等。尽管商业搜索引擎已经取得了相当的成功。但要大部分搜索引擎是基于关键词匹配的方式进行检索的,导致检索结果中无关的网页过多并且没有考虑不同用户的个性差异和需要。由此可见,目前所广泛采用的信息检索技术无法满足不同背景、不同目的和不同时期的查询请求。举例来说,研究计算机和果树栽培的两个用户,在搜索 “苹果”时分别想查找“苹果电脑”和关于苹果栽培的知识。如果我们能够根据这两个用户的职业以及平时查询和浏览的内容为这两个用户建立不同的档案,就可以为他们返回不同的结果。个性化检索系统就是利用用户的注册信息以及浏览和查询历史等信息挖掘和预测用户兴趣,从而结合用户当前的查询关
15、键词,返回符合用户个人兴趣的检索结果。同时,物以类聚,人以群分,每个人都有自己的兴趣,而和他兴趣最接近的一些用户会组成一个用户群。比如有一些用户都对“飞碟”非常感兴趣,我们可以利用用户群在查询和浏览中的行为作为判断当前用户检索兴趣的依据,从而更加准确地把握用户的检索意图。因此,相似用户群的建立对提高个性化检索的性能有重要意义。同时相似用户群还可以用来预测用户的潜在兴趣,将用户可能感兴趣的信息推荐给用户。例如,某些用户都对“飞碟”有共同的兴趣,如果某一天出现了新闻“英国天空惊现UFO”,对“飞碟”感兴趣的很多用户都对这个新闻感兴趣,那么,系统就可以将这则新闻推荐给这些用户。这就是利用相似用户的兴
16、趣判断和预测单个用户的兴趣。利用这个原理进行个性化检索和信息推荐将能够更好地满足用户的个性需求。1.2 课题的研究目的和意义相似用户群建立的研究不仅对个性化检索和个性化推荐系统1有重要意义,而且具有重要的实际应用价值。1.2.1 课题的研究目的基于相似用户群的个性化信息检索的解决思路是协作过滤和信息社会化检索。主要方法是系统通过对用户按兴趣模式聚类来增强用户间的协同与协作。我们将从以下几个方面展开相关研究:(1) 相似用户群建立的评价以往研究中,由于缺乏有效评测系统,因此对相似用户群建立任务的性能缺乏公正的评价。本文将个性化检索划分成四个相对独立又相互关联的子任务,相似用户群的建立作为独立的子
17、任务,通过用户对每个检索对象提交的答案构建标准评测集,以便对相似用户建立的效果进行公正的评价。(2) 用户评价数据的扩充协作过滤中由于不同用户间评价过的网页较少,从而导致用户相似度计算的准确率不高。因此,如何解决数据稀疏问题,是一个重要研究课题。本文将利用用户对网页的点击代替用户的显式评价分数,同时基于改进的相关性模型,利用相似领域内相似用户的查看历史,对当前用户进行数据扩充,解决数据稀疏问题,提高相似用户群建立的效果。(3) 相似用户群建立策略以往的用户群建立工作大部分是对所有用户建立一个静态的相似用户群,但是实际中,用户在不同领域的兴趣是不同的,因此在不同领域其相似用户群也是不一样的。本文
18、探讨在每个领域中分别建立一个相似用户群,并对用户群进行动态的更新,以便使群内的用户兴趣尽可能一致。1.2.2 课题的研究意义相似兴趣用户群的建立主要可以起到以下几点作用:(1)提高个性化检索系统的性能。由于单个用户的查询和检索数据比较有限,而判断单个用户兴趣时常常会有偏差,导致对用户兴趣判断的错误累积现象。而通过用户群的整体兴趣判断单个用户的兴趣,可以防止用户兴趣判断的偏差。(2) 提高个性化信息推荐的效果。相似用户群建立后,可以将群中大部分用户感兴趣的信息推荐给其它用户,提供个性化推荐功能。评价问题是相似用户群建立中的重要问题。当前的很多研究都将相似用户群建立的任务依附于其它任务中,缺少专门
19、针对此任务的评测。本论文为相似用户群建立的任务构建合理的自动评测集语料以及对应的评测答案为后续针对此任务的研究奠定基础,对其它研究的评测方法也有重要的参考价值。1.2.3 相似用户群研究的应用相似用户群建立的研究,不仅具有重要的理论价值,而且有重要的实际应用价值。1.2.3.1 相似用户群在电子商务中的应用基于相似用户群的个性化服务方式通过对不同用户群体兴趣取向的挖掘和分析,制定适合此用户群体的产品的设计、开发以及市场营销策略。基于相似用户群的个性化电子商务具备如下优点:(1)面向群体用户,可以分析用户群体的兴趣,制定针对性的生产和销售策略。(2)个性化电子商务具备自适应的学习机制,从而能够辅
20、助电子商务系统识别商务趋势敏感变化并智能化地调整商品分配。1.2.3.2 相似用户群在电子政务中的应用电子政务主要应用于企业内部行政事务和业务企划的发布、数据和资源共享以及保密信息交互。基于相似用户群的个性化信息检索应用于电子政务的优点主要包括:(1)有益于企业高效快捷的内部管理。相似用户群建立起对应不同职能部门的相似用户群,自动挖掘与每个用户群管理和业务职能相关的信息。(2)海量数据的合理保存与维护,建立基于相似用户群对于海量资源的分类保存和快速精准的查询提供了良性平台。1.2.3.3 相似用户群在电子家务中的应用电子家务就是:“家庭事务的电子化,旨在提高家庭管理的水平和效率,是信息化建设的
21、重要目标。”。基于相似用户群的协作过滤可以记录家庭事务的核心需求,实时监控信息流,从而辅助电子家务系统智能化的信息推送,将用户从繁多的事务中解放出来。此外,相似用户群的建立还可以应用在数字图书馆23中,为用户提高个性化的检索和个性化推荐功能。1.3 国内外相关研究以往的相似用户群的研究主要集中在协作过滤领域。协作过滤4是指分析用户兴趣,在用户群中找到与指定用户的兴趣相同或相似的用户,综合这些相似用户对某一信息的评价,形成系统对该指定用户对此信息的喜好程度预测。协作过滤分为基于模型和基于记忆的协作过滤。基于模型的协作过滤方法,通过挖掘数据之间的关系建立需求模型,过滤后续的信息资源。其中常用的方法
22、包括贝叶斯网络方法5、聚类的方法67和aspect model方法8。基于记忆的协作过滤主要通过用户对项目打分的差别找到相似的用户或项目,然后对用户的兴趣进行预测。基于记忆的协作过滤分为基于项目的协作过滤910和基于用户的协作过滤1112两种。基于项目的协作过滤系统的核心问题是检测两个项目之间的协作相似性,然后利用用户对相似项目的兴趣预测用户对未评价过的项目的兴趣。基于用户的协作过滤主要研究如何建立和应用相似用户群。比如,两名具备相似知识背景的用户ua和ub,在获取知识时采用不同特征集合构成Profile,相似的知识背景使得系统相信ua和ub具备相同的需求趋向,从而将ua和ub感兴趣的反馈结果
23、互相推送,以达到协作式的检索或过滤功能,如图1-1所示。用户(a)反馈集:反馈(a)(i)用户(a)背景信息(a)用户(b)反馈集:反馈(b)(j)反馈(b)(k)用户(b)背景信息(b)协作过滤模型反馈(a)(i)反馈(b)(j)反馈(b)(k)图1-1 协作过滤样例Figure 1-1 Sample of collaborative filtering1.3.1 相似用户的判断基于用户协作过滤的核心思想是根据用户评分的相似性获得活动用户的若干最近邻,也就是相似用户群的建立,然后通过这些最近邻对项目评分的加权和来预测活动用户对项目的评分。其步骤如图1-2。所有用户与活动用户相似度计算选择近邻
24、计算近邻用户对项目评分加权和图1-2 基于用户的协作过滤中用户对项目评分流程Figure 1-2 Process for users to rate items in user-based collaborative filtering通常基于用户的协作过滤采用最近邻方法。即对活动用户ua,获取按照相关度大小排列的相似“近邻”集13U=u1,u2,un,可以通过设置阈值控制U=u1,u2,un的规模。基于活动用户ua的近邻集U=u1,u2,un,用户ua对项目ti的评价定义为近邻集U中所有用户对项目ti评价指标的加权和,公式14如下: (1-1)其中,w(ua,uk)为活动用户ua与uk的相似
25、度;R(uk,ti)为uk对项目ti的评分;为uk对项目的平均评分;为当前活动用户ua先验的平均评分。用户间相似度计算成为决定协作过滤系统性能的一个主要方面,常用的用户间相似度如下: 余弦(Cosine)相似性余弦相似性115首先将用户对项目的评分映射为n维评价矢量ua=rel(ua,ti)|tiT,其中每一维代表用户对某一项目的评分,通常可以简化地将评分的取值范围设置为0,1,评分越高说明用户对项目的兴趣程度越高。用户之间的相似性通过评价矢量间的余弦夹角进行度量,其公式如下: (1-2)其中,分母部分是由两个评价向量的模乘积而成,其作用在于对余弦相似性进行归一化。 相关(Correlatio
26、n)相似性假设用户ua和ub共同评价过的项目集为I=t1,tn,相关相似性Csim(ua,ub)可以采用Person相关系数16进行度量。其公式如下: (1-3)其中,Csim(ua,ub)是用户ua和ub的相似度;R(ua,ti)与R(ub,ti)分别代表用户ua和ub对项目ti的评分;与分别代表用户ua和ub对其共有的项目集I=t1,tn的评价平均值;n为ua和ub共同评价过的项目总数。Person相关系数要求数据的分布条件满足连续的线性关系。在实际中往往预先设置评价的等级,用户按照等级对项目进行评价。这造成数据的分布趋向于离散,因此采用Spearman等级相关系数17衡量用户之间的相关相
27、似性,公式如下: (1-4)其中,Rank(ua,ti)和Rank(ub,ti)代表用户ua和ub对ti的关注级别,比如“关注”、“一般”和“不关注”分别对应1、0.5和0;和代表ua和ub对公共项目集I=t1,tn评价的平均级别。余弦相似度计算法和相关相似性计算法提高了推荐项目的准确性,但是过分相似的用户共有的项目集规模相对很大,削弱了用户间可以互相推荐的未知项目空间。通常协作过滤系统可以采用项目的反流行度18为候选用户赋予权值,公式如下: (1-5)其中,n(ti)表示对项目ti评价过的用户总数,即项目ti的流行程度;m是先验的归一化参数。根据公式(1-5),一个项目的流行程度越大,则其反
28、流行度InvPop(i)越小,从而包含该项目的候选用户获得的权值越低。活动用户可以简化地选择经过反流行度加权后权值相对较高的用户作为邻居。但在实际应用中,又有用户与评分的稀疏性,导致协作过滤系统无法有效识别相似用户。1.3.2 解决数据稀疏问题的研究用户对项目的评价值可以构成一个用户-项目矩阵,由于用户对网页的的评价较少,导致此矩阵数据较稀疏1920。如图1-3所示。图1-3 用户-项目评价矩阵Figure 1-3 Matrix of user-item ratings数据稀疏问题导致用户相似度计算时很不准确。为了解决数据稀疏问题,许多相应算法被提出。减少维度的方法致力于直接将用户-项目评价矩
29、阵的维度降低。原理成分分析(PCA)技术21以及信息检索中的潜在语义索引技术2223也都被用来解决这个问题。清华大学24提出了将用户-项目矩阵进行转换从而计算用户间相似度的方法。降低维度的方法通过去除不重要的用户或项目达到减少数据稀疏的问题。关联检索技术25考虑用户和项目之间的关系,迭代地增强用户和相关项目之间的相似度。内容驱动的协作过滤方法2627增加额外的信息,将项目表示成为向量而计算他们之间的相似度。宾夕法尼亚大学28提出了对内容信息进行一体化的统一概率模型解决数据稀疏问题。协作过滤以及相似用户群建立也有了一些实际应用系统。其中,最为有名的是Amazon网站的个性化推荐系统29,其利用协
30、作过滤技术,将用户可能感兴趣的商品信息推荐给用户,节省用户搜索的时间并可以发掘用户潜在兴趣。与此类似的还有Google的个性化新闻推荐系统30。雅虎公司将相似用户群的研究应用到了个性化电影搜索网站中31。其根据当前用户所在的用户群信息预测用户对每个电影的兴趣,然后计算每个电影针对每个用户的个性化权威性,从而实现检索结果的个性化。1.4 本章小结本章先对个性化检索以及相似用户群研究的背景进行了介绍,介绍了现有检索系统的缺点,说明了此研究的必要性。然后,对相似用户群的研究目的进行了阐述,介绍了研究重点,分别是对用户数据的扩充、相似用户群建立的策略以及评价方法,并对研究意义做了说明。之后,通过相似用
31、户群在电子商务、电子政务和电子家务方面的应用,说明相似用户群研究的重要价值。最后对相似用户群建立的相关研究和应用进行了介绍。后续章节的安排如下:第二章详细说明个性化检索的任务划分以及相似用户群的评测方法,主要对个性化检索各个子任务进行了详细介绍,并介绍了对语料收集的辅助系统和其收集到的语料规模,最后对相似用户群的评测机制和方法进行了说明;第三章介绍用户新兴趣发现和兴趣跟踪的初步研究,这两个子任务是相似用户群建立的前序任务,因此本文对这两个子任务进行了初步研究;第四章探讨相关性模型在数据扩充中的作用并对其进行改进,相关性模型可以解决相似用户群中的数据稀疏问题,因此本章对相关性模型进行了深入研究并
32、提出了改进的相关性模型以便应用到相似用户群建立任务中;第五章提出基于相关性模型的相似用户建立与更新方法,本章利用相关性模型解决相似用户群的数据稀疏问题,并根据用户新兴趣发现和兴趣跟踪任务的结果,探讨利用相关领域中的相似用户扩充当前领域中用户的数据。第2章 个性化检索任务划分及评测作为个性化检索中的一个重要模块,相似用户群的建立的研究第一步是有合理的任务划分、明确的任务定义以及详细的入口和出口数据格式。以往对个性化检索以及相似用户群的研究因为没有明确的任务划分和评测方案,导致研究无法针对其中重要问题进行深入研究,并且各种研究的结果缺乏客观的评价。因此,对个性化检索任务进行合理的划分并给出合理的评
33、测方案,使得相似用户群的建立任务可以成为独立的研究,并且可以有机地融合到个性化检索任务中,是研究相似用户群的重要一步。2.1 个性化检索的任务划分个性化检索任务主要是挖掘单个和群体用户的兴趣,并利用用户兴趣对检索结果进行优化,使得检索结果更加符合用户的个性化需求。因此,个性化检索面临的主要问题是如何从用户的检索行为中发现并跟踪用户的兴趣,建立兴趣相似的用户群,以及利用挖掘的用户兴趣对检索结果进行优化。个性化检索的任务划分应该保证各任务之间具有相互独立性,并且各个任务解决的是个性化检索中最重要的问题,最终各个任务的有机组合可以构成一个初步的个性化检索实用系统。基于以上的原则,本文将个性化检索划分
34、为用户新兴趣发现、用户兴趣跟踪、相似用户群建立以及个性化检索四个子任务。下面就对四个子任务进行详细介绍。2.1.1 用户新兴趣发现用户使用搜索引擎时,会有比较明确的检索目的,而搜索过程实际是一个不断学习不断优化query,使其能够更好地描述自己的个性化需要,从而找到符合自己兴趣的结果的过程,这也是个性化检索所要解决的问题,也就是自动挖掘用户兴趣,从而自动返回符合用户兴趣的结果。例如,用户想观看一些关于计算机智能方面的电影,当他利用搜索引擎进行检索时,他的检索目的是计算机智能电影,如图2-1所示的检索过程。而由于刚开始不知道具体的电影名,他先输入了“计算机智能电影”的检索关键词,然后,根据从结果
35、中获得的信息,用户找到自己可能感兴趣的电影(例如“黑客帝国”),再输入精确的电影名以获得更加详细的关于电影的介绍等信息。在这个过程中,用户需要不断优化自己的query,从而最终搜索到自己想要的结果。但在用户不断优化query的过程中,他的检索对象一直没变,都是想检索关于计算机智能方面的电影。因此,前三个query的检索对象相同。之后,用户可能又想找到一家比较合适的电影院观看电影,也就是产生了一个新的检索兴趣,因此他又输入了“北京电影院”和“首都电影院票价”检索相关信息,这两个query属于相同的检索对象。图2-1 用户检索过程Figure 2-1 Process of users retrie
36、ving如果系统可以判断用户的检索对象,自动识别出用户新的检索兴趣的出现。则对每个query,可以找到与它检索对象相同的query,利用这些query中用户的行为判断用户对哪些信息感兴趣,哪些网页是用户真正需要的,这样就可以使得对用户隐式信息的利用更加准确。因此个性化检索任务中将用户新兴趣的发现作为一个独立任务,此任务的目的是对用户的query分析,发现用户新的检索需求,将检索对象相同的query划分为同一段落。此任务的入口数据是每个用户的query内容,系统返回的检索结果以及Snippet,用户查看的过的结果网页,对网页的浏览时间,用户对结果的翻页信息。此任务的标准答案格式如图2-2。标准答
37、案采用XML标签的形式,标签包围的是当前用户名,每个和标签中包含的是一个检索对象的信息,中内容是此检索对象的编号,中包含的是在此检索对象中用户输入的所有query内容。此标准答案由标注辅助系统生成,具体的产生方法见3.2节。用户新兴趣发现任务通过对给定入口数据进行处理,需要生成系统认为的query段落,然后通过系统判定的结果与标准答案进行对比可以对系统的性能进行评价,评价指标将采用话题检测与跟踪中的错检率和漏检率方法,具体的评测方法将和评测指标将在3.3节进行详细的介绍。 图2-2 用户新兴趣发现任务的标准答案图2-3用户兴趣跟踪任务的标准答案Figure 2-2 Answer of new
38、interest detectionFigure 2-3 Answer of users interest tracking2.1.2 用户兴趣跟踪由于用户经常会重复检索同一领域内的信息,而用户在同一领域内的兴趣相对较为固定,因此判定用户的哪些检索是在同一兴趣领域内对个性化检索也很重要。例如,如果用户较喜欢的运动是滑雪,那么在他平常的检索中就会经常检索关于滑雪方面的信息。如果系统可以将用户针对运动方面的检索关联起来,则可以建立用户在运动方面的兴趣模型。这样,当用户在后续再检索运动相关的信息时,系统就会根据用户在运动方面的兴趣模型对检索结果进行优化,可以将结果中关于滑雪方面的网页位置提前,突出用
39、户的个性化需要。由于用户新兴趣跟踪任务已经将相邻的query按照检索对象划分为query段落,因此用户兴趣跟踪任务主要目标是,找到所在领域相同的query段落。此任务在个性化检索中的作用是,可以为每个用户在不同兴趣领域内分别建立兴趣模型,从而更准确地挖掘和利用用户兴趣。同时,由于在不同领域内用户的相似用户也是不同的,因此在相似用户群的建立中,可以利用此任务划定兴趣领域,在每个兴趣领域分别建立兴趣相似的用户群。此任务的入口数据为每个用户的query,系统检索结果,用户查看的过的网页,浏览时间,翻页信息。同时第一个任务的标准答案,图2-2中按照检索对象划分的用户query也是本任务的入口数据。本任
40、务的标准答案如图2-3,记录的分别是每个query段落的相同领域的query段落编号。答案的标注以及评测方法将分别在3.2与3.3节介绍。2.1.3 相似用户群建立由于每个人都生活在一定的群体中,因此每个用户的兴趣也会与其它用户具有一定的相似性,兴趣相似的用户就会构成相似用户群。建立相似用户群对个性化检索和个性化推荐都有重要意义。例如,某个用户在音乐中比较感兴趣的是抒情歌曲,与他相同,也会有其他用户对抒情歌曲很感兴趣,这样在音乐的领域内这个群体的兴趣都是抒情歌曲。因此,因此这个群体的成员搜索歌曲相关的信息时,就可以将那首新出的抒情歌歌曲以及风格相似的歌曲在检索结果中的位置提前,这样就可以根据群
41、体的兴趣判定单个用户的兴趣。同时,如果新出一首较受欢迎的抒情歌曲,这个兴趣群体的一部分成员对这首歌曲的都比较感兴趣,那么就可以将这首歌曲推荐给这个群体中的其它成员。但是,由于在一个领域内的相似用户在其它领域内未必兴趣相似,因此相似用户群的建立应该是以领域为界限,在每个领域内分别建立相似用户群。例如,如果用户a在音乐方面的兴趣是抒情歌曲,而在体育方面兴趣是足球;用户b在音乐方面兴趣是抒情歌曲,但在体育方面兴趣是网球。这样a与b虽然在音乐方面兴趣相同,但在体育方面兴趣差别较大,因此需要在每个领域内分别建立相似用户群。相似用户群的建立任务,可以利用用户新兴趣发现和用户兴趣跟踪的结果,将每个用户的qu
42、ery划分为query段落,之后通过第二个任务,找到用户间的兴趣领域相同的query段落,最后,在每个兴趣领域内分别计算用户之间的相似度,找到每个用户的相似用户,如图2-4所示。此任务的入口数据是图2-2与2-3中所示的用户新兴趣发现与兴趣跟踪的标准答案。系统需要在每个对应的query段落下对标注者找到相似用户。同时,用户之间的兴趣不具有传递性。例如a感兴趣的电影是“我是传奇”与“黑客帝国”,b的兴趣是“黑客帝国”与“阿甘正传”,c兴趣是“阿甘正传”与“肖申克的救赎”,用户a与b兴趣相似,b与c兴趣相似,但a与c兴趣不同。所以本任务中,系统需要在每个query段落中找到每个标注者的相似用户,而
43、不是对用户进行聚类。本任务的标准答案格式如图2-5,分别标出的是在每个query段落ID下每个用户的相似用户。图2-4 相似用户群任务Figure 2-4 Task of users clustering 图2-5 相似用户群标准答案图2-6 个性化检索标准答案Figure 2-5 Answer of users clustering Figure 2-6 Answer of PIR2.1.4 个性化检索最后一个任务是综合以上三个任务的结果,对用户的query给出个性化的检索结果。由于用户的每个query段落的目标都是相同的检索对象,因此本任务的语料也以query段落作为一个完整的单位。对用户
44、每个query的检索结果,系统分别记录其前20个结果以及用户查看过的结果,这样在一个query段落内的所有query记录的检索结果就构成了本段落的语料。系统需要在每个query中,对此段落内的语料网页进行重排序,返回符合用户个性化的检索结果,然后用系统的排序结果与用户标注的结果进行比较,从而评测系统性能。本任务的入口数据是图2-2、2-3与2-5中前三个任务的正确答案,标准答案格式如图2-6,包含的是query段落编号,包含的是用户在此段落内输入的query,包含的是记录的返回结果以及用户的正确性标注,1是相关,0是不相关。2.2 语料标注的辅助系统为了收集用户检索时的各种行为信息,为相似用户
45、群建立提供语料,我们开发了个性化检索语料标注辅助系统。本系统是在基于天网100G语料的普通检索系统上增加了记录用户隐式行为信息的模块,是标注者模拟用户的普通检索行为,同时记录下用户在检索过程过的各种隐式信息,供研究使用。最后,让标注者对曾浏览过的网页进行正确性标注,为各个子任务提供标准答案。2.2.1 系统介绍图2-7是用户登陆界面,新用户需要注册一个新用户,如图2-8。在注册时,用户需要显式提交自己的个人信息,包括性别、年龄、收入、职业和关注的领域等。注册完后,用户就可以登陆系统进行信息检索。 图2-7 用户登陆界面图2-8 用户注册界面Figure 2-7 Interface of use
46、r login Figure 2-8 Interface of user registration 图2-9 检索界面Figure 2-9 Interface of retrieve登陆后,标注者将进入检索界面,如图2-9。检索中,以检索问题为检索和标注的基本单位,标注者需要针对系统已经设定的问题检索其答案。图2-9的上方显示的是标注者当前需要检索的问题,标注者针对一个问题可以进行多次检索,直到检索到问题答案信息为止。当用户输入query后,系统将返回普通的检索结果。用户可以对结果进行查看、浏览等操作。用户对结果网页浏览时可以点击右侧的蓝色条框,可以将结果网页翻开或关闭,如图2-11。此时,系
47、统则会记录用户点击的结果网页、浏览时间以及用户的翻页信息。如果用户在结果中找到与检索问题相关的答案,则可以将答案信息填入下方的文本框中,并点击“保存答案”保存检索的答案信息。当用户针对此问题找到所有答案后,可以点击图2-10中的“提交object”提交此问题。此时系统自动进入此检索问题的标注图2-10 检索结果页面Figure 2-10 interface of retrieve results图2-11 浏览网页界面Figure 2-11 Interface of browsing pages界面,如图2-12。系统记录用户在此检索问题中输入的query,以及每个query的前20个检索结果和用户查看过的结果,将这些网页返回,标注者根据每个网页是否与检索问题的答案相关进行正确性标注。当标注者对每个网页的正确性标注后,就可以点击提交进入下一个检索问题,如图2-13。图2-12 答案标注界面Figure 2-12 Interface of answer labeling图2-13 一