《信息检索的评价.ppt》由会员分享,可在线阅读,更多相关《信息检索的评价.ppt(47页珍藏版)》请在三一办公上搜索。
1、现代信息检索MODERN INFORMATION RETRIEVAL,第二章 信息检索的评价(IR evaluation),课前思考题,为什么要评价?评价什么?如何评价?怎么基于实验结果,给出各项评价指标?,2,提纲,信息检索的评价基本指标:召回率、正确率其他指标:F值、AP、MAPTREC会议概况,3,提纲,信息检索的评价基本指标:召回率、正确率其他指标:F值、AP、MAPTREC会议概况,4,从竞技体育谈起,世界记录 vs.世界最好成绩110米栏世界记录:刘翔,中国,1288男子马拉松世界最好成绩:保罗 特尔加特,肯尼亚,2小时4分55秒评价要公平!环境要基本一致:天气、风速、跑道等等比赛
2、过程要一样:竞走中的犯规指标要一样:速度、耐力,5,为什么要评估IR?,通过评估可以评价不同技术的优劣,不同因素对系统的影响,从而促进本领域研究水平的不断提高类比:110米栏各项技术-起跑、途中跑、跨栏、步频、冲刺等等信息检索系统的目标是较少消耗情况下尽快、全面返回准确的结果。,6,IR中评价什么?,效率(Efficiency)可以采用通常的评价方法时间开销空间开销响应速度效果(Effectiveness)返回的文档中有多少相关文档所有相关文档中返回了多少返回得靠不靠前其他指标覆盖率(Coverage)访问量数据更新速度,7,如何评价效果?,相同的文档集合,相同的查询主题集合,相同的评价指标,
3、不同的检索系统进行比较。The Cranfield Experiments,Cyril W.Cleverdon,1957 1968(上百篇文档集合)SMART System,Gerald Salton,1964-1988(数千篇文档集合)TREC(Text REtrieval Conference),DonnaHarman,美国标准技术研究所,1992-(上百万篇文档),信息检索的“奥运会”,8,评价指标分类,对单个查询进行评估的指标对单个查询得到一个结果对多个查询进行评估的指标(通常用于对系统的评价)求平均,9,评价指标(1),10,评价指标(2),召回率(Recall):RR/(RR+NR
4、),返回的相关结果数占实际相关结果总数的比率,也称为查全率,R 0,1正确率(Precision):RR/(RR+RN),返回的结果中真正相关结果的比率,也称为查准率,P 0,1两个指标分别度量检索效果的某个方面,忽略任何一个方面都有失偏颇。两个极端情况:返回1篇,P=100%,但R极低;全部返回,R1,但P极低,11,召回率和正确率一个计算例子,一个例子:查询Q,本应该有100篇相关文档,某个系统返回200篇文档,其中80篇是真正相关的文档Recall=80/100=0.8Precision=80/200=0.4结论:召回率较高,但是正确率较低,12,关于正确率和召回率的讨论(1),“宁可错
5、杀一千,不可放过一人”偏重召回率,忽视正确率。冤杀太多。判断是否有罪:如果没有证据证明你无罪,那么判定你有罪。召回率高,有些人受冤枉如果没有证据证明你有罪,那么判定你无罪。召回率低,有些人逍遥法外,13,关于正确率和召回率的讨论(2),虽然Precision和Recall都很重要,但是不同的应用、不用的用户可能会对两者的要求不一样。因此,实际应用中应该考虑这点。垃圾邮件过滤:宁愿漏掉一些垃圾邮件,但是尽量少将正常邮件判定成垃圾邮件。有些用户希望返回的结果全一点,他有时间挑选;有些用户希望返回结果准一点,他不需要结果很全就能完成任务。,14,关于召回率的计算,对于大规模语料集合,列举每个查询的所
6、有相关文档是不可能的事情,因此,不可能准确地计算召回率缓冲池(Pooling)方法:对多个检索系统的Top N个结果组成的集合进行标注,标注出的相关文档集合作为整个相关文档集合。这种做法被验证是可行的,在TREC会议中被广泛采用。,15,正确率和召回率的问题,两个指标分别衡量了系统的某个方面,但是为比较带来了难度,究竟哪个系统好?大学最终排名也只有一个指标。解决方法:单一指标,将两个指标融成一个指标两个指标都是基于集合进行计算,并没有考虑序的作用举例:两个系统,对某个查询,返回的相关文档数目一样都是10,但是第一个系统是前10条结果,后一个系统是最后10条结果。显然,第一个系统优。但是根据上面
7、基于集合的计算,显然两者指标一样。解决方法:引入序的作用召回率难以计算解决方法:Pooling方法,或者不考虑召回率,评价指标(3)P和R融合,17,评价指标(4)引入序的作用,18,评价指标(5)引入序的作用,19,P-R曲线的例子,20,P-R曲线,21,P-R 曲线的插值问题,22,P-R的优缺点,优点:简单直观既考虑了检索结果的覆盖度,又考虑了检索结果的排序情况缺点:单个查询的P-R曲线虽然直观,但是难以明确表示两个查询的检索结果的优劣,23,评价指标(6)P-R曲线的单一指标,24,P-R曲线中的BREAK POINT,25,评价指标(7)引入序的作用,26,评价指标(8)不考虑召回
8、率,27,评价指标分类,对单个查询进行评估的指标对单个查询得到一个结果对多个查询进行评估的指标(通常用于对系统的评价)求平均,28,评价指标(9),29,评价指标(10),30,整个IR系统的P-R曲线,在每个召回率点上,对所有的查询在此点上的正确率进行算术平均,得到系统在该点上的平均正确率(averageprecision)。两个检索系统可以通过P-R曲线进行比较。位置在上面的曲线代表的系统性能占优。,31,几个IR系统的P-R曲线比较,32,面向用户的评价指标,前面的指标都没有考虑用户因素。而相关不相关由用户判定。假定用户已知的相关文档集合为U,检索结果和U的交集为Ru,则可以定义覆盖率(
9、Coverage)C=|Ru|/|U|,表示系统找到的用户已知的相关文档比例。假定检索结果中返回一些用户以前未知的相关文档Rk,则可以定义出新率(Novelty Ratio)N=|Rk|/(|Ru|+|Rk|),表示系统返回的新相关文档的比例。,33,其他评价指标,不同的信息检索应用或者任务还会采用不同的评价指标问答系统或主页发现系统:只有一个标准答案,只关心第一个标准答案返回的位置Rank,越前越好,评价指标 1/Rank,34,提纲,信息检索的评价基本指标:召回率、正确率其他指标:F值、AP、MAPTREC会议概况,35,TREC 概况,36,TREC的目标(1),总目标:支持在信息检索领
10、域的基础研究,提供对大规模文本检索方法的评估办法1.鼓励对基于大测试集合的信息检索方法的研究2.提供一个可以用来交流研究思想的论坛,增进工业界、学术界和政府部门之间的互相了解,37,TREC的目标(2),3.示范信息检索理论在解决实际问题方面 的重大进步,提高信息检索技术从理论 走向商业应用的速度;4.为工业界和学术界提高评估技术的可用 性,并开发新的更为适用的评估技术。,38,TREC的运行方式(1),TREC由一个程序委员会管理。这个委员会包括来自政府、工业界和学术界的代表TREC以年度为周期运行。过程为:确定任务参加者报名 参加者运行任务 返回运行结果 结果评估 大会交流一开始仅仅面向文
11、本,后来逐渐加入语音、图像、视频方面的评测,39,TREC的运行方式(2),确定任务:NIST提供测试数据和测试问题报名:参加者根据自己的兴趣选择任务运行任务:参加者用自己的检索系统运行测试问题,给出结果返回结果:参加者向NIST返回他们的运行结果,以便评估结果评估:NIST使用一套固定的方法和软件对参加者的运行结果给出评测结果大会交流:每年的11月召开会议,由当年的参加者们交流彼此的经验,40,TREC的运行方式(3),41,测试数据和测试软件,由LDC(Linguistic Data Consortium)等多家单位免费提供,但有些数据需要缴纳费用,一般都必须签订协议每年使用的数据可以是新的,也可以是上一年度已经使用过的TREC使用的评估软件是开放的,任何组织和个人都可以用它对自己的系统进行评测,42,TREC任务情况,43,历届TREC参加单位数示意图,44,参加过TREC的部分单位,45,本章小结,为什么要评价?如何评价?各种评价指标(正确率、召回率、平均正确率)的定义及计算方法基本指标:正确率、召回率TREC会议,46,课后练习题,47,