《现代信息检索技术.ppt》由会员分享,可在线阅读,更多相关《现代信息检索技术.ppt(58页珍藏版)》请在三一办公上搜索。
1、第0讲 课程简介About the course,2011/9/14,提纲,2,什么是信息检索?为什么要学习信息检索?课程情况,提纲,3,什么是信息检索?为什么要学习信息检索?课程情况,从几个互联网应用说起,4,搜索引擎,中科院研究生院2011年度秋季课程,5,中科院研究生院2011年度秋季课程,6,中科院研究生院2011年度秋季课程,7,三个应用例子的共同特征,给定需求(或者是对象),从信息库中找出与之最匹配的信息(或对象)Google的例子:需求“现代信息检索”卓越-亚马逊的例子:对象“天王表-石英女表LS3522S(黑色)”世纪佳缘网的例子:对象“你自己”!,8,信息检索,给定用户需求返
2、回满足该需求信息的一门学科。通常涉及信息的获取、存储、组织和访问。从大规模非结构化数据(通常是文本)的集合(通常保存在计算机上)中找出满足用户信息需求的资料(通常是文档)的过程。“找对象”的学科,即定义并计算某种匹配“相似度”的学科。,9,信息检索技术的应用,10,搜索,推荐,挖掘,IR技术,情报处理,内容安全,舆情分析,信息检索应用系统,搜索系统Web搜索引擎IBM Waston问答系统推荐系统淘宝网豆瓣网当当网,11,从信息规模上分类,个人信息检索:个人相关信息的组织、整理、搜索等。桌面搜索(Desktop Search)、个人信息管理(PIM=Personal Information M
3、anagement)、个人数字记忆(Personal Digital Memory)企业级信息检索:在企业内容文档的组织、管理、搜索等。内容管理(Content Management)Web信息检索:在超大规模数据集上的检索。,中科院研究生院2011年度秋季课程,12,提纲,中科院研究生院2011年度秋季课程,13,什么是信息检索?为什么要学习信息检索?课程情况,市场发展的需求,用户需要信息检索技术:互联网的信息量太大、噪音太多,寻找所需要的信息非常不容易公司需要信息检索技术:搜索引擎改变了很多传统的生活方式,Yahoo、Google、Baidu,还有一些公司如Microsoft、Sina、S
4、ohu、Tecent、Netease都加入到这个搜索技术的竞争。不只是搜索引擎才需要信息检索技术,电子商务(如亚马逊网站、阿里巴巴)、社交网(微博、Facebook、twitter、校内网)、数字图书馆、大规模数据分析等都需要信息检索技术人才的竞争:搜索相关人才人数出现缺口,他们非常抢手,待遇如日中天是不是泡沫:2000年左右出现的网络泡沫和现在的互联网有什么不同,搜索引擎在其中占什么位置?,14,几个应用需求,移动搜索产品搜索专利搜索广告推荐消费行为分析网络评论分析SEO营销,15,对相关专业研究生的基本要求,信息检索技术是内容应用特别是互联网内容应用的核心技术,可以说在这些应用中无处不在信
5、息检索将会成为一门计算机专业的基础学科搜索(狭义的信息检索)的三个层次(个人观点),16,中科院研究生院2011年度秋季课程,17,应用层次:搜索是一项非常重要的应用!,中科院研究生院2011年度秋季课程,18,中间层次:搜索是极其重要的API,中科院研究生院2011年度秋季课程,19,中科院研究生院2011年度秋季课程,20,介绍一本有趣的书!,中科院研究生院2011年度秋季课程,21,核心层次:搜索是未来操作系统的重要组成部分!,提纲,22,什么是信息检索?为什么要学习信息检索?课程情况,课程的宗旨,信息检索的基本原理、模型和方法(含部分机器学习、自然语言处理方法)信息检索系统的基本实现方
6、法如何进行(信息检索)研究选题、查找文献、读论文、做实验、写论文、作报告等等,23,老师介绍(1),主讲老师:王斌,中科院计算所博士毕业,副研究员,博士生导师。现为中科院计算所前瞻研究实验室信息检索课题组负责人。http:/新浪微博:计算所王斌http:/,24,老师介绍(2),助教:,中科院研究生院2011年度秋季课程,25,本课程的特点,不是教学生学怎么使用信息检索工具(另有课程),而是了解信息检索工具背后的基本原理和技术,并且能够进行深层的研究或开发相关的应用。知其然知其所以然。基本原理+广泛实践,26,授课内容简介(传统角度总结),信息检索的基本概念信息检索的评价信息检索模型和算法模型
7、(布尔模型、向量模型、概率模型、语言模型)相关反馈、查询扩展文本处理技术文本分类和聚类技术(倾向性分析)信息过滤技术信息组织和索引并行和分布式检索信息检索的应用WEB检索,27,授课方案,课堂讲述和课后练习相结合讲授内容既包含传统内容,也注意吸收最新研究成果学术内容和业界进展相结合既考虑一般学生普及入门的需求,也考虑相关专业学生更高的要求尽量用简单而风趣的语言、形象而逼真的例子进行讲授,28,课程基础,数学基础概率统计线性代数计算机基础算法和数据结构编程,29,考核方式,平时作业+期末考试(开卷)不定期考勤 5%若干小作业 15%1个大作业 30%1篇读书报告 15%(论文阅读)期末考试 35
8、%(课堂开卷)具体参考课程网站,30,2006年选课情况分析,来自13个不同培养单位的62名学生选择本课程,其中计算所25人、软件所13人、自动化所5人 计算机类专业有48人(占总数的77.4%),图书情报类专业学生有7人(占总数的11.3%),其他专业背景的学生7人(占总数的11.3%)。,31,2006年考试结果分析,32,2007年选课情况分析,来自12个单位的71人选择该课程,其中计算所30人、网络中心8人、院图7人、软件所和自动化所各6人、其他单位14人。计算机类(计算机、自动化)专业58人(占总数的81.7%)、图书情报类专业9人(占总数的12.7%)、其他专业(信号处理、数学等)
9、4人(占总数的5.6%),33,2007考试结果分析,34,2008/2009/2010?,35,国际著名研究机构和代表人物,美国康奈尔大学 Salton(1927-1995)现代信息检索的奠基人,倡导向量空间模型SMART的完成人第一任Salton奖(1983年)得主,ACM Fellow英国剑桥大学 Sparck Jones(1935-2007)概率检索模型的提出者之一NLP和IR中的先辈曾获ACL终身成就奖和1988年Salton奖,36,国际著名研究机构和代表人物,微软英国剑桥研究院、伦敦城市大学 Robertson概率检索模型的先驱和倡导者开发了OKAPI检索系统2000年Salto
10、n奖得主美国 UMass CIIR W.B.Croft,ACM Fellow基于统计语言建模IR模型的提出者和倡导者和CMU共同开发了Lemur工具2003年Salton奖得主,37,国际著名研究机构和代表人物,英国Glasgow大学 Rijsbergen,ACM Fellow信息检索逻辑推理学派的提出者和倡导者现在试图用量子的方法解决IR问题2006年Salton奖得主微软美国研究院 Susan Dumais隐性语义索引LSI的提出者2009年Salton奖得主,38,中科院研究生院2011年度秋季课程,39,中科院研究生院2011年度秋季课程,40,中科院研究生院2011年度秋季课程,41
11、,国际著名研究机构和代表人物,美国CMU美国UIUC微软研究院IBM研究院Google研究院Yahoo!研究院,42,一些活跃的华裔学者,加拿大蒙特利尔大学聂建云教授跨语言检索IR模型美国UIUC 翟成祥(Chengxiang Zhai博士)IR模型、主题模型(Topic Model)美国CMU 杨颐明(Yiming Yang)教授文本分类领域最著名的学者之一,43,一些活跃的华裔学者,台湾中研院 简立峰号称“中文搜索”第一人加入Google研究院,44,国内一些相关研究机构,北京大学复旦大学清华大学哈尔滨工业大学上海交通大学中科院计算所中科院软件所中科院自动化所,45,重要会议,国际会议(C
12、OLING2010、SIGIR2011将在北京举行):SIGIR、ACL、WWW、SIGKDD、WSDM、ICMLCIKM、EMNLP、COLINGTREC、NTCIR评测会议ECIR、AIRS国内会议:全国信息检索学术会议(1年一届)全国计算语言学联合会议(2年一届)搜索引擎和WEB挖掘学术会议(1年一届,上半年),46,ACM SIGIR,ACM:美国计算机学会SIGIR:special interest group on information retrieval,特定兴趣组ACM SIGIR Conference:IR领域的最重要会议,起始于1971年,2009年是第31届。,47,I
13、R vs.其他学科,IR vs.NLP(自然语言处理)IR vs.ML(机器学习)IR vs.DM(数据挖掘)IR vs.SA(统计分析),48,IR及相关研究领域重要会议,49,ACM SIGIR,VLDB,PODS,ICDE,ASIS,Learning/Mining,NLP,Applications,Statistics,Software/systems,COLING,EMNLP,ANLP,HLT,NIPS,UAI,RECOMB,PSB,JCDL,Info.Science,Info Retrieval,ACM CIKM,Databases,ACM SIGMOD,ACL,ICML,AAAI,
14、ACM SIGKDD,ISMB,WWW,SOSP,OSDI,TREC,*本页借用了Chengxiang Zhai的课件,重要期刊,国际:ACM Transactions on Information Systems(TOIS)ACM Transactions on Asian Language Information Processing(TALIP)Information Processing&Management(IP&M)Information Retrieval国内中文信息学报情报学报,50,重要工具,Lemur、Indri:包含各种IR模型的实验平台,C+SMART:向量空间模型工具
15、,C编写Weka:数据挖掘工具,Java编写Lucene:开源检索工具,Java版本受维护,存在各种语言编写的其他版本Nutch:开源爬虫,Java版本Sphinx:开源检索工具,C+Larbin:采集工具,C+Firtex:检索平台,C+,计算所开发更多:,51,网站地址,外部网站:研究生院课程主页:课程微博:Gucas_2011_IRCourse,52,教材,教材主页:http:/注意要选第二次印刷的版本,可以直接上图灵出版社的淘宝店订购。网上有英文电子版(对照阅读),53,原版,内容比较新例子多有关NLP和分类聚类的内容较丰富有相关最新算法的介绍有实现相关的内容,54,序,55,参考书籍
16、及文献,Christopher D.Manning,Prabhakar Raghavan&Hinrich Schtze,Introduction to Information Retrieval,Cambridge University Press 2008 Electronic version(draft)can be downloaded from http:/www-csli.stanford.edu/hinrich/information-retrieval-book.htmlB.Croft,D.Metzler,T.Strohman,Search Engine:Information
17、Retrieval in Practice,Pearson Education,2009(国内机械工业出版社出版的影印版和中文翻译版)Baeza-Yates,R.&B.Ribeiro-Neto.eds.Modern Information Retrieval.ACM Press,1999(国内有机械工业出版社出版的影印版和中文翻译版)李晓明,闫宏飞,王继民著,搜索引擎-原理、技术与系统,北京:科学出版社,2005李国辉等著,信息的组织与检索,科学出版社,2003年Witten,Ian et al.Managing Gigabytes.Orlando,FL:Morgan Kaufmann Pub
18、lishers Incorporated,1999William Frakes&Ricardo Baeza-Yates,Information Retrieval Data Structures and Algorithms.PrenticeHall,1992Karen Sparck Jones&Peter Willet eds.Readings in Information Retrieval,Morgan Kaufmann,1997 刘挺等著,信息检索系统导论,机械工业出版社,2008SIGIR/WWW/SIKDD/TREC/CIKM/ProceedingsMore resources see:,56,对不同专业学生的期望,计算机类:学完了以后知道原理,能够构建系统非计算机类:学完了以后知道原理,能够指挥构建系统,57,Doug Cutting,斯坦佛大学语言学学士开源社区的巨牛LuceneNutchHadoop,58,