信息检索与Web搜索.ppt

上传人:牧羊曲112 文档编号:5229950 上传时间:2023-06-16 格式:PPT 页数:30 大小:886.50KB
返回 下载 相关 举报
信息检索与Web搜索.ppt_第1页
第1页 / 共30页
信息检索与Web搜索.ppt_第2页
第2页 / 共30页
信息检索与Web搜索.ppt_第3页
第3页 / 共30页
信息检索与Web搜索.ppt_第4页
第4页 / 共30页
信息检索与Web搜索.ppt_第5页
第5页 / 共30页
点击查看更多>>
资源描述

《信息检索与Web搜索.ppt》由会员分享,可在线阅读,更多相关《信息检索与Web搜索.ppt(30页珍藏版)》请在三一办公上搜索。

1、信息检索与Web搜索,第1讲 概述 授课人:高曙明,*改编自“现代信息检索”网上公开课件(http:/,2,信息检索概念,从大规模的具有非结构化特性(通常是文本)的资料集合(通常保存在计算机上)中找出满足用户信息需求的资料(通常是文档)的一门学科,大规模文档集合,信息需求,查询,相关文档列表,信息检索系统,查找,3,信息检索概念,文档(Document):指以文本内容为主的信息源,如纯文本、网页、邮件、论文、专利、图书等非结构化文档:指没有清晰和明显结构的文档,主要是纯文本半结构化文档:指带有简单结构表示的文档,如网页 李甲主页,4,信息检索概念,一般涉及信息的获取、分析、组织、存储、比对和展

2、示,5,信息检索 vs.关系数据库,IR系统主要用于查询文档RDB系统主要用于查询结构化数据,即记录集合,这些记录中包含预先定义的语义属性及属性值,如一本书的作者、标题、出版年份等,6,信息检索 vs.相关学科,7,信息检索技术的重要性,用户需要信息检索技术:信息时代的信息量爆炸式增长、噪音太多,寻找所需要的信息非常不容易使用搜索引擎寻找所需要的信息已经成为很多人的日常行为;使用专业信息检索系统,如专利、法律条文、科技论文等检索系统,则是专业人员的经常行为但目前的搜索引擎和专业信息检索系统还不尽如人意,8,信息检索技术的重要性,公司需要信息检索技术:Yahoo、Google、Baidu,还有M

3、icrosoft、Sina、Sohu、Tecent、Netease等都加入到搜索引擎的竞争行列包含搜索的应用很多:电子商务(如亚马逊网站、阿里巴巴)、社交网(微博、Facebook、twitter、校内网)、数字图书馆、大规模数据分析等都需要信息检索技术搜索是未来操作系统的重要组成部分,搜索,推荐,挖掘,IR技术,情报处理,内容安全,舆情分析,10,信息检索技术的发展历史,1960-70s:开始探索使用计算机为一些小规模科技、法律和商业文献的摘要建立文本检索系统形成最基本的概念、模型和算法Salton教授是奠基人1980s:由公司主导开发大规模文档数据库系统,如Lexis-Nexis,Dial

4、og,MEDLINE,11,信息检索技术的发展历史,1990s:第一个网络搜索工具:1990年加拿大McGill大学开发的FTP搜索工具Archie第一个WEB搜索引擎:1994年美国CMU开发的LycosYahoo搜索引擎:1995斯坦福大学博士生开发开始进行IR软件评测:NIST TREC推荐系统的出现:Ringo,Amazon,12,信息检索技术的发展历史,2000s:Google搜索引擎:斯坦福大学博士生开发,采用链接分析技术信息抽取:Whizbang,Fetch,Burning Glass问答系统:TREC Q/A track跨语言IR:DARPA Tides知识图谱的研发和使用,1

5、3,基于规模的信息检索分类,个人信息检索:个人相关文档的搜索,如桌面搜索(Desktop Search),属小规模企业级信息检索:企业内部文档的搜索,行业文档的搜索等,属中大规模Web信息检索:数万亿网页的搜索,属超大规模。,14,信息检索的基本内容,信息检索原理图,15,信息检索的基本内容,信息检索原理图,16,信息检索的基本内容,文档采集功能:自动获取有用的文档,用于建立文档库主要内容:Web采集器(web crawler)文本分析功能:文档预处理,用于将文档转化成索引词项或特征主要内容:词条化、去除停用词、词项归一化、词干还原和词干归并、链接分析等,17,信息检索的基本内容,索引构建功能

6、:创建索引数据结构,用于支持快速搜索主要内容:倒排索引、词典索引、基于块排序的索引构建、单遍内存式扫描构建、分布式(MapReduce)及动态索引构建索引压缩功能:对索引数据结构进行压缩表示,用于节省磁盘空间,提高检索系统效率主要内容:词项的统计特性(Heaps定律、Zipf定律)、词典的压缩、倒排记录表的压缩,18,信息检索的基本内容,检索模型与排序算法功能:用于判断查询和文档之间的关联性主要内容:布尔检索模型、向量空间模型、概率检索模型、TF-IDF词项权重计算机制以及基于TF-IDF 的文档排序算法、概率排序原理、PageRank算法、HITS算法、基于向量空间模型的XML文档排序算法,

7、19,信息检索的基本内容,用户交互功能:支持用户创建和精化查询,支持检索结果的展示主要内容:查询输入、查询变换、相关反馈和伪相关反馈、查询扩展及重构、检索结果展示等检索评价功能:对检索系统的效果和效率进行评价主要内容:正确率、召回率、正确率-召回率曲线、标准测试集及评测会议、用户体验及结果摘要等,20,课程目标,通过本课程的学习,使同学们能够掌握信息检索和Web搜索的基本思想和基础知识,包括基本的概念、原理、模型和算法,并具备一定的信息检索系统和搜索引擎研发能力不是教同学们怎么使用信息检索工具,而是了解信息检索工具背后的基本原理和技术,为今后能够从事与信息检索和Web搜索相关的研发工作打好基础

8、,老师介绍,主讲高曙明:浙江大学应用数学系博士毕业,教授,博士生导师。现为浙江大学CAD&CG国家重点实验室CAD方向学术带头人办公电话:88206081-514Email:办公地点:紫金港校区图书信息B楼525室个人主页:助教:秦孝廉,浙大计算机学院研究生,22,课程基础,数学基础概率统计线性代数计算机基础算法和数据结构编程,23,考核方式,平时作业+期末考试(开卷)不定期考勤和课堂发言 5%若干小作业 15%简单搜索引擎开发(小组项目)30%期末考试 50%(课堂开卷)具体参考课程网站,24,重要会议,国际会议:SIGIR、ACL、WWW、SIGKDD、WSDM、ICMLCIKM、EMNL

9、P、COLINGTREC、NTCIR评测会议ECIR、AIRS国内会议:全国信息检索学术会议(1年一届)全国计算语言学联合会议(2年一届)搜索引擎和WEB挖掘学术会议(1年一届,上半年),25,ACM SIGIR,ACM:美国计算机学会SIGIR:special interest group on information retrieval,特定兴趣组ACM SIGIR Conference:IR领域的最重要会议,起始于1971年,2014年是第37届。,26,重要期刊,国际:ACM Transactions on Information Systems(TOIS)ACM Transactio

10、ns on Asian Language Information Processing(TALIP)Information Processing&Management(IP&M)Information Retrieval国内:中文信息学报情报学报,27,重要工具,Lemur、Indri:包含各种IR模型的实验平台,C+SMART:向量空间模型工具,C编写Lucene:开源检索工具,Java版本受维护,存在各种语言编写的其他版本Nutch:开源爬虫,Java版本Sphinx:开源检索工具,C+Larbin:采集工具,C+更多:,28,教材,教材主页:http:/注意要选第二次印刷的版本,可以直接

11、上图灵出版社的淘宝店订购。网上有英文电子版(对照阅读),29,参考书籍及文献-1,Christopher D.Manning,Prabhakar Raghavan&Hinrich Schtze,Introduction to Information Retrieval,Cambridge University Press 2008 Electronic version(draft)can be downloaded from http:/www-csli.stanford.edu/hinrich/information-retrieval-book.htmlB.Croft,D.Metzler,

12、T.Strohman,Search Engine:Information Retrieval in Practice,Pearson Education,2009(国内机械工业出版社出版的影印版和中文翻译版)张华平等译.信息检索:算法与启发式方法.人民邮电出版社,2010Baeza-Yates,R.&B.Ribeiro-Neto.eds.Modern Information Retrieval.ACM Press,1999(国内有机械工业出版社出版的影印版和中文翻译版)李晓明,闫宏飞,王继民著,搜索引擎-原理、技术与系统,北京:科学出版社,2005,30,参考书籍及文献-2,李国辉等著,信息的

13、组织与检索,科学出版社,2003年Witten,Ian et al.Managing Gigabytes.Orlando,FL:Morgan Kaufmann Publishers Incorporated,1999William Frakes&Ricardo Baeza-Yates,Information Retrieval Data Structures and Algorithms.PrenticeHall,1992Karen Sparck Jones&Peter Willet eds.Readings in Information Retrieval,Morgan Kaufmann,1997 刘挺等著,信息检索系统导论,机械工业出版社,2008SIGIR/WWW/SIKDD/TREC/CIKM/ProceedingsMore resources see:,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号