信息组织知识.doc_三一办公31ppt.com

资源描述

《信息组织知识.doc》由会员分享，可在线阅读，更多相关《信息组织知识.doc（18页珍藏版）》请在三一办公上搜索。

1、知识要点第一章绪论1、什么是信息组织？（理解）信息组织：对信息资源对象进行收集、加工、整合、存储使之有序化、系统化的过程。2、信息组织的发展阶段按组织对象划分（理解）按组织对象划分信息组织经历了三个阶段：文献组织阶段、信息组织阶段、知识组织阶段文献组织阶段组织对象：传统文献实体，不涉及文献内容本身。信息组织阶段组织对象：从广度上，以纸质信息为中心转向以电子媒介信息为中心；从深度上，除了对文献实体进行组织，还要深入信息内容。知识组织阶段组织对象：从显性知识扩展到隐性知识。知识组织直接给用户提供直观的、可操作的系统化知识。不再局限于利用片面的信息来满足用户的需求，而是对用户的需求系统分析，向

2、用户提供全面、完善的解决方案。按职能划分信息组织经历了三个阶段（补充）：清册职能时期查检职能时期组织职能时期3、网络信息组织的基本方法（掌握）网络信息组织方法一次信息二次信息文件方式自由文本方式主页方式指引库方式超文本方式搜索引擎方式主题树方式数据库方式文件方式一般用于局域网内的非结构化信息组织。优点：通过FTP协议进行传输，简单方便缺点：以文件为单位共享和传输信息会使网络负载越来越大自由文本方式主要用于全文数据库的组织对非结构化的文本信息进行组织和处理的方式能够完整地反映出一次文献的全貌通过计算机自动进行文献信息的处理和组织，支持全文检索。数据库方式一般用于结构化/规范化信

3、息组织。优点：最小存取单位是字段，从而大大降低网络数据传输的负载。缺点：对非结构化信息处理难度大数据库方式是当前普遍使用的网络信息资源的组织方式。主页方式网页一般通过HTML语言规则将文本、图像、声音、视频等各种类型的信息集合在一起。超文本方式主题树方式主题树方式是一种可供检索和查询的等级式主题目录。它以人工方式或半自动方式搜集信息，然后将信息资源按照某种事先确定的概念体系结构，分门别类地逐层加以组织。主题树方式不太适合大型的综合性的网络信息资源系统，而较适合专题指引库的建立。搜索引擎方式指引库方式指引库，也称导航库。它并不存储各种实际的信息资源，只存放有关主题的数据库或服务器

4、的地址等信息，可指引用户到特定的地址获取所需的信息。5、信息的外表特征、内容特征分别包括哪些？（理解）外表特征：与信息内容无关的特征，如题目、作者、出处、作者工作单位、专利号等内容特征：信息所涉及的中心事物和学科属性，如分类号、主题词、关键词、摘要等。模糊对应外表特征内容特征精确对应信息6、什么是标引语言？什么是自然语言？什么是受控语言？自然语言区别于受控语言的特点有哪些？（理解）标引语言：是表达文献主题概念和文献需求主题概念的简明性、单义性和关联性概念标识系统，是根据标引和检索需要而编制的人工语言。也叫“情报语言”、“索引语言”、“检索语言” 揭示信息的中心主题和内容特征信息标引的

5、依据用于将检索用语和标引用语进行匹配对自然语言进行规范化处理后的人工语言标引语言实际上是检索者与组织者之间的一种“约定” 自然语言：文献作者所使用的书面语言受控语言：词汇及语法都受到各种控制的人工语言。7、标引包括哪些类型？自然语言标引包括哪些方法？（理解）划分标准信息标引类型按使用的标引工具分化分类标引主题标引按标引工作的不同执行者划分手工标引受控标引自由标引自由词补充标引自动标引自动抽词标引自动赋词标引自动分类自动聚类按采用的不同标识划分受控语言标引自然语言标引几个重要概念（补）自然语言标引：采用自然语言作为信息记录主题内容检索标识的标引。自然语言标引的方法：1.关键词法2.文本检

6、索3.自由标引4.自然语言入口词检索8、索取号及其构成（掌握）索取号：是信息服务机构赋予每一种信息资源的唯一号码。它反映每种信息资源的具体存放位置。索取号由两部分组成：分类号和书次号（书次号通常采用“种次号”或“著者号”）。“种次号”是依照同类信息资源到信息服务机构的先后次序编制的顺序号或流水号；“著者号”是依照著者姓名的音、形等特征编制的号码。9、信息存储介质（理解）存储介质纸张、磁盘、磁带、缩微胶片、光盘等10、信息存取系统的类型（理解）信息检索系统的类型按照信息源类型划分：文献型、事实型、数值型、图像型按照工作方式和存取介质：手工、单机、联机、光盘、网络信息检索系统的结构信息检索系统

7、一般包括五个子系统：选择子系统标引子系统词表子系统检索子系统交互子系统11、衡量检索效率的指标（理解）衡量检索效率的指标主要有：查全率（漏检率）查准率（误检率）第二章分类法（重点）1、什么是分类法？包括哪些类型（即构成原理）？（理解）分类组织法：根据概念的划分与概括原理，按照事先规定好的学科专业体系或事物范畴，根据某一特性将信息分门别类的组织成系统，以便于用户按照学科专业或事物范畴途径查询特定信息的信息组织法。分类法使用分类号来标识类目，分类号可反映类目在分类体系中的位置和排列次序。分类语言的构成原理：1）等级体系分类法2）分面组配分类法3）等级体系分面组配分类法（也即混合

8、分类法）2、什么是体系分类法？其主要代表有哪些？（理解）含义：类目按等级层层展开，并详尽列举的文献分类法p 特点将表达事物的概念（类目）按照知识分类与逻辑关系进行纵向从属、横向并列的方式编排成概念等级体系；是一种先组式定组型标引语言，其类目与类号标识都是在编制分类表时事先确定或大部分确定好的；按照学科专业和事物范畴区分和集中文献；标识符号既可以用于组织分类目录与索引，也可用于排书上架；采用数字和字母作为标识，便于国际标准化。p 种类中国图书馆分类法（简称中图法）中国科学院图书馆分类法（简称科图法）杜威十进分类法（简称DDC）国际十进分类法（简称UDC）美国国会图书馆图书

9、分类法（简称LDC）p 局限性（补充）列举类目与无限增长的科学知识不相适应；类目体系的单向线性结构与概念多向成族的网状结构不相适应；分类标识的概括性与信息源主题的专指性不相适应；号码标识的有限性与知识单元的无限性不相适应；文献单元标引与知识单元检索不相适应。3、什么是组配式分类法？其主要代表有哪些？（掌握）分面：一组性质相同的概念因素分面组配分类法含义：依据概念的分析与综合原理，将概括信息内容与事物的主题概念分成若干个“分面”，通过各分面内类目之间的组配来表达信息内容的分类法，也叫分面分类法、范畴分类法。即一个复杂主题概念可以用若干个简单概念标识的组配来表达构成：包括分面分析、分面

10、引用次序和分面标记制度三大关键理论和技术。种类：冒号分类法（简称CC）布利斯书目分类法（简称BC）缺点：类表结构和标记方法复杂，类目体系欠直观4、什么是体系组配式分类法？其主要代表有哪些？（理解）含义：是一种在体系分类法的基础上，引入分面分析和组配技术而形成的分类法结构模式，亦称半分面分类法。p 背景：全分面组配分类法很少被使用，分面分析和组配技术更多的是被体系分类法吸收，用来改善体系分类法的性能。p 特点:1）按照学科专业或事物范畴设置基本大类；2）通过设置各种分面辅助复分表提供分面组配技术与概念标识。p 种类：国际十进分类法（简称UDC）俄国图书馆书目分类法5、分类法中基本标记符号

11、包括哪些类型？（掌握）分类法的标记符号也称分类号、类号，是类目的代号。基本符号：单纯数字单纯字母数字、字母混合辅助符号（根据分类法的功能而定）6、常用标记制度包括哪些？（掌握）结构型标记制非结构型标记制层累标记制混合标记制分面标记制顺序标记制层累标记制又称等级标记制，是一种类号的位数与类目等级相适应的层次分明的标记制度。它常用一位号码表示一个大类，再加一位号码表示其下位类(二级类)，以号码的层层累加表示类目的层层划分。中图法基本采用层累标记制混合标记制一种结合采用顺序制和层累制的标记方式。包括层累顺序制和顺序一层累制科图法采用的是顺序一层累制。分类号的前两位数字采用顺序制，用于标识基

12、本大类和二级、三级类目；两位数字后，用小圆点隔开，其后基本使用层累标记制。分面标记制又称分段标记制，是用若干节段符号的组合来表达主题概念的标记制度。它能显示类目的组配关系。例如：“20世纪90年代中国儿童图书馆图书分类工作”的类号为2 ，61；43 ：51 . 41 N9。顺序标记制按照类目在分类体系中的次序，顺序配以号码，号码只表示类目的次序，不显示类目的等级或其他关系。7、中图法、科图法、DDC、UDC分别采用什么标记符号和标记制度？（掌握）中图法采用拉丁字母与阿拉伯数字相结合的混合号码制作为标记符号，基本采用层累标记制。科图法采用单纯数字号码作为标记符号，号码分为两部分：第一部分

13、采用整数顺序制，第二部分基本上采用小数层累制，简而言之，采用混合标记制。杜威十进分类法（DDC）：DDC是以阿拉伯数字作为基本的分类标记符号的，并采用层累制。国际十进分类法（UDC）：UDC 与DDC一样，采用单纯阿拉伯数字作为标记符号。基本采用层累制，第三章主题法（重点）1、什么是主题法？（理解）主题法是指用语词作为概念标识，将概念标识进行字顺排列，并用参照系统等方法间接显示概念之间相互关系的信息组织方法。2、主题法有什么特点？（掌握）1.以主题为中心集中信息2.直接用自然语词（主题词）作为存取标识3.主要按字顺排列4.用参照系统显示主题词之间的关系3、主题法包括哪些类型？（掌握）标

14、题法：用规范化语词标题词来表达主题概念元词法（单元词法）：用规范化语词单元词的字面组配来表达主题概念叙词法（主题词法）：用规范化语词叙词的概念组配来表达主题概念关键词法：直接以文献中的自然语词关键词来表达主题概念4、主题法参照系统的构成（理解）Y 用项符号：表示该主题是正式主题词D 代项符号：表示该主题是非正式主题词F 分项符号：表示该主题是“显像管”的下位主题词S 属项符号：表示该主题是“显像管”的上位主题词C 参项符号：表示该主题是“显像管”的相关主题词5、几种代表性主题法中哪些是自然语言，哪些是人工语言？（理解）标题法、元词法、叙词法为人工语言；而关键词法则为自然语言6、主

15、题法和分类法的比较（掌握）揭示对象不同主题法揭示文献论述的主题事物(“是什么”)；分类法揭示的是文献内容的学科属性(“属什么”)。使用标识不同主题法直接用词语表示文献主题；分类法则以抽象的“分类号”表示文献主题。排列方式不同主题法按词语字顺排列，如同词典，易学易查；分类法按分类号排列，系统性较强，但不熟悉有关分类表则难以有效地利用。用途不同主题法较适合于对单篇文献的组织和检索，且更适于计算机组织和检索;分类法则比较适合于图书或文集的组织和检索。7、什么是范畴索引、词族索引？（理解）范畴索引，又称分类索引，是将叙词和非正式叙词按所属学科或范畴编制的词汇分类索引。词族索引，也称等级索引，是将字顺

16、表中具有等级关系的叙词按属分等级构成词族，并按各词族的族首词字顺排列的词汇索引。8、什么是后控制，对网络信息资源组织的作用？（掌握）后控制主要是通过后控词表来实现的。后控制词表是利用受控语言的基本原理和方法编制的自然语言检索用词表。它主要是对自然语言中大量存在的等同关系、等级关系和大部分相关关系进行控制和揭示，用户在检索时通过浏览词表选用检索词，或者由系统自动调整检索式（扩检或缩检）。所以，后控词表是一种扩检或缩检工具，一种罗列自然语言检索标识供选择的工具。后控制模式：“标引不控制+检索控制”模式。即在标引阶段使用自然语言，不对标引进行严格控制，而在检索阶段才对检索词进行控制的自然语言检索

17、优化技术。后控制技术是人工语言与自然语言相结合的典范。9、网络信息资源组织中的主题法（掌握）标题词法和叙词法的应用标题词表和叙词表用于网络信息组织主要作为后控词表使用，分为两种情况：第一，检索前使用：用来规范用户的检索表达式；第二，检索后使用：在给出用户检索表达式及检索结果的同时，提供相似词以便用户进一步扩检或缩检。关键词法的应用关键词法在网络中的应用相当广泛，目前，大部分搜索引擎几乎都采用关键词法进行信息组织。关键词法的原理直接从文献的题目、正文、摘要中抽取出具有实际意义的语词作为文献标识，对标识不加规范化或只作少量规范化处理。不编制受控词表，不显示词间关系，只编制禁用词表来控

18、制抽词每个关键词都是平等的，轮流排至检索位置，提供多途径的主题字顺检索。关键词标引自由标引自动标引全文索引10、什么是自由标引、全文检索？（掌握）自由标引即人工关键词标引。即人工从文献中提取自然语言作为主题标识。全文检索不对文献进行任何标引，直接通过计算机将自然语言检索词与文献中的语词进行匹配。全文检索进行匹配的对象，可以是整个出版的文本，包括文章、报告甚整本图书，也可以是它的部分，如文摘、摘录或只是文献的题名。第四章置标语言工具1、什么是SGML？（理解）其基本思想、特点是什么？（掌握）SGML(标准通用标记语言）一种通用的描述各种电子文件的结构和内容的国际标准。为创建结构化、

19、可交换的电子文件提供了依据。SGML的基本思想是把文档的内容与样式分开 SGML的主要特点是它的通用性与独立性：所谓通用性是指SGML可支持无数的文档结构类型，例如布告、技术手册、章节目录、设计规范、各种报告、信函和备忘录等。所谓独立性是指它与硬件、软件独立。SGML可以创建与特定的软硬件无关的文档，因此很容易与使用不同计算机系统的用户交换文档。 2、文档三要素包括哪些？（掌握）文档的三要素：文档文档内容文档结构文档样式3、 HTML标签的主要作用？与SGML是什么关系？（理解）含义：HTML是一种表现语言，用来定义WEB上文字、图像以及声音等的显示及格式。主要作用：HTML的主要作用是指示

20、浏览器按照相应格式显示信息。与SGML关系：HTML是标准通用标记语言（SGML）所创建的许多标记语言之一,或者说是它的一个很小的子集。HTML是使用固定标签集的一种SGML文档。主要在Web上使用。4、什么是XML？具有哪些特性和优势？（掌握）XML eXtensible Markup Language(可扩展标记语言），是一种定义标记语言的元标记语言，是一套定义语义标记的规则。特点：可扩展性可自定义标签，元标记语言；数据与显示相分离同一数据可多视；自我描述性标签具有语义，支持智能检索；高度结构化采用树形结构。简明性SGML的子集，20%复杂、80%功能；优势：结构支持：HTM

21、L缺乏对复杂结构的支持内容提取：HTML的标记缺乏语义国际化：HTML对特殊字符和国际字符集的支持还很不够，在不同平台上的实现很不一致数据交换：HTML难以实现自动的数据交换信息重用：HTML不易重复使用已有的信息动态更新：用HTML创建的主页不允许使用者改变页面的外观属性，除非使用者载入新的页面，或者使用Java小程序。但是，任何存储在Java中的数据都不能被搜索引擎发现。5、 XML和HTML比较（掌握）比较内容HTMLXML可扩展性不具备扩展性元标记语言，可用于定义新的标记语言侧重点侧重于如何表现信息侧重于如何结构化的描述信息语法要求不要求标记的嵌套严格要求嵌套配对、呈树形结构

22、可读性及可维护性难于阅读、维护结构清晰、便于阅读、维护数据和显示的关系内容描述和显示方式整合一体内容描述与显示方式相分离6、 XML中用来描述信息的结构、内容、样式的语言规范分别是什么？（理解）结构：文档结构定义文件.DTD (或.XSD)内容：文档数据文件.XML我的第一个XML文档样式：样式单文件.XML(或.CSS)第五章元数据1、什么是元数据？（理解）元数据是关于数据的数据（data about data），同时也是结构化的数据。它对信息资源进行描述和解释，促进信息资源的检索、管理和利用。元数据可以为各种形态的信息资源提供规范的描述方案和检索工具，为分布的、由多种信息资源组成的信息系

23、统（如数字图书馆）提供整合的工具和纽带。关于数据的结构化数据用于描述数据的内容、覆盖范围、质量、管理方式、数据的所有者、数据的提供方式等信息的数据，是数据与数据用户之间的桥梁资源的信息编目信息管理、控制信息是一组独立的关于资源的说明定义和描述其它数据的数据3、什么是MARC、MARC元数据？（掌握）MARC（ Machine Readable Catalog ），机器可读目录（简称机读目录），是用于在计算机条件下描述、存储、交换、控制和检索著录数据的标准，已成为世界上流行最广的书目元数据标准。MARC数据，以代码形式和特定格式结构记录在计算机存贮载体上，可由计算机进行控制、处理和

24、编辑输出的目录。其实质是一种元数据。 MARC数据的交换和共享通过Z39.50协议实现。 4、MARC中856字段的用途（理解） 856字段是专门用于记载电子信息资源定位与存取信息的字段，是在为网络信息资源编目时才特有的字段。它包含定位与存取电子资源所需要的信息，第1指示符标识存取方式；第2指示符标识资源关系。5、什么是DC？DC包括几个核心元素？（掌握） DC是都柏林核心（Dubin Core）的简称，全称是都柏林核心元素集（Dubin Core Element Set）。核心DC指的是DC的15个核心元素: 题名、主题、描述、来源、语种、关联、覆盖范围、创建者、出版者、其他责任者、权限、日

25、期、类型、格式、标记等。第八章搜索引擎（重点）1、搜索引擎的分类（掌握）根据检索方式分类：分类目录、关键词搜索引擎、混合搜索引擎根据信息覆盖范围及适用用户群分类：综合搜索引擎、专用搜索引擎（垂直搜索引擎）根据搜索范围分类：独立搜索引擎、集成搜索引擎（元搜索引擎）2、什么是元搜索引擎（掌握）元搜索引擎又称集合式搜索引擎。即将多个搜索引擎集成在一起，并提供一个统一的检索界面。3、搜素引擎的发展趋势（掌握）个性化；智能化；整合化；垂直化；移动化；开放化；4、搜索引擎的体系结构（掌握）一个搜索引擎由以下五个部分组成：搜索器索引器索引数据库检索器用户接口 5、搜索器的功能、

26、工作原理及网页选取策略（理解）含义：搜索器（Spider）俗称蜘蛛、网络机器人、爬虫，是一个自动收集网页的系统程序。功能：搜索器的功能是日夜不停地在互联网中漫游，搜集信息。不光搜集各种类型的新信息，还要定期更新已经搜集过的旧信息，以避免出现死链。工作原理：搜索器首先将文档格式过滤掉，变成纯文本文件信息送回，然后将其放到“网页数据库”中。该库里还记录了这些网页的URL，整个网页的HTML代码，网页标题等等信息。网页选取策略广度优先：是指网络蜘蛛会先抓取起始网页中链接的所有网页，然后再选择其中的一个链接网页，继续抓取在此网页中链接的所有网页。深度优先：是指网络蜘蛛会从起始页开始，一个链接一个链

27、接跟踪下去，处理完这条线路之后再转入下一个起始页，继续跟踪链接。高权重优先：是指对搜索到的文档集合进行评级，利用计算得到的结果从中挑选评级最高的链接作为下一个搜索的对象。6、索引器的功能、具体工作步骤（理解）索引器的功能是理解搜索器所搜索的纯文本信息，从中抽取出索引项（属性），生成倒排索引文件，进而建立索引数据库。具体步骤：分析网页：提取正文信息并进行分词；统计词出现的频率及位置；提取其它相关信息，如被其他网页链接次数等；建立倒排索引：形成由文档号到索引词的正向索引；重组正向索引，建立从关键词到文档号集合的倒排索引；相关度及重要性计算：通过关键词频率、位置、表面特征及超链分析等因素来

28、决定某一个网页针对某一个关键词的重要性。7、检索器的功能、工作内容（理解）检索器的功能是根据用户的查询在索引库中快速检出文档，进行文档与查询的相关度评价，对将要输出的结果进行排序。检索器的工作包括查询匹配、结果排序和文档摘要三个部分。8、搜索引擎对搜索结果进行排序的依据及主要排序算法（掌握）依据：内容相关度基于相关度算法（搜索引擎怎么评价）网站或网页权威度基于链接分析（即其它网站怎么评价）网站或网页的实用度基于用户访问模式（即用户怎么评价）排序算法： PageRank（网页等级）算法 HillTop算法 Hits算法 9、用户接口的功能（理解）用户接口的作用是输入用户查询、显示查询结果

29、、提供用户相关性反馈机制。专题多媒体信息标引几种主要多媒体数据标引方法的基本原理外在特征标引方法的典型代表标签法基本原理：将多媒体信息的外在特征作为标识。以内容分析为主的标引方法编码系统法基本原理：采用某种特定的编码系统标识多媒体信息中分析出来的各个独立对象，并根据对象间存在的联系进行相应的代码拼接、组合，以完成多媒体信息的整体标引。自由文本法基本原理：先将多媒体信息的内容用文字进行确切的描述，形成描述性的自由文本，然后通过对文本内容的概念标引，间接地完成对多媒体信息记录内容的标引。特征描述法基本原理：从图像、声音等多媒体信息中捕获人们感觉最明显的特征，如图像的形状、颜色，音乐的基

30、调、序曲等主要特征，直接建立相应的“相似图像”索引与“相似声音”索引。全方位语义分析法基本原理：强调内容特征与外在特征相结合，从整体到局部，从各个角度为各个对象建立全面的特征标引；并利用语义分析的方法，将各个部分、各个对象间丰富的语义联系描绘成语义图的形式，一起存储于数据库中。专题自动标引（重点）1、自动标引方法体系图（掌握）标引词检索全文检索对应对应汉语自动分词2、什么是标引词检索、全文检索（掌握）标引词检索：将用户输入的检索词与文献的标引词进行匹配。全文检索（文本检索）：全文检索不对文献进行任何标引，直接通过计算机将自然语言检索词与文献中的语词进行匹配。3、什么是自动抽词？影响标引

31、词选择的因素有哪些？涉及的主要技术有哪些？自动抽词的方法有哪些（重点是统计法）？（掌握）含义：自动抽词标引即由计算机自动从文本中抽取词或短语来表达信息资源的主题内容。影响标引词选择的因素：词语出现的频率出现的位置(如出现在标题、文摘、图表解说词中等) 词性词的价值词语的语言环境等。自动抽词涉及的主要技术：文本分词技术词频分析技术权重评价技术自动抽词方法n 统计法词频统计标引法加权统计标引法机器学习标引法（统计学习标引法）n 语言法句法分析法语义分析法n 人工智能法4、什么是自动赋词？（掌握）所谓赋词标引就是从某种形式的受控词表中选取词语来表达文献主题内容。自动赋词标

32、引则是指由计算机来自动完成这一标引过程。它与自动抽词标引的最大区别就是，所使用的标引词来自于某一受控词表，而不是来自文献本身。包括：（1）基于关联词表的自动赋词标引（2）基于中介词典的自动赋词标引 5、什么是自动归类？基于词的自动归类方法的主要思想?（掌握）自动归类是指先分析待分类对象中的特征，将其与各种类别中对象具有的共同特征进行比较，再将待分类对象归入特征最近的一类并赋予相应的分类号。（类别已经事先确定）自动归类通常分为两种：（1）基于词的自动归类（2）基于专家系统的自动归类6、什么是自动聚类？包括哪些类型？每种类型的基本思想（掌握）？自动聚类是指从待分类对象中提出特征，再将提出的

33、全部特征进行比较，并根据一定的原则将具有相同或相近特征的对象定义为一类，设法使各类中包含的对象大体相等。自动聚类可以分为：基于词语特征的自动聚类，基于非词语特征（引文连接）的自动聚类。基于词语特征的自动聚类基本思想：根据文献中语词的相似度将相关文献聚集在一起。通常人们通过标引词来描述文献主题，如果描述文献内容的词汇相同或相近，就把这些文献归为一类。也就是说两篇文献拥有的共同关键词越多，说明相关度越高，越有可能属于同一领域。目前文献类主要有4种类型：网状的文献类星形的文献类链状的文献类块状的文献类基于非词语特征（引文连接）的自动聚类- 基于引文链接的自动聚类，优于基于语词特征的自动

34、聚类。它们独立于不同的语言和变化的术语。通过引文链接进行文献聚类有如下三种形式：利用直接引文进行文献聚类运用“书目耦合”原则进行文献聚类利用共同引文进行文献聚类 7、汉语自动分词的主要方法包括哪些？前三种方法的基本思想？（掌握）汉语自动分词方法有：1. 词典匹配切词法词典匹配方法主要是基于字符串匹配的原理进行的，即它以一部词典为依据，采用一定的处理策略将汉语文本中的字串与词典的词逐一匹配，若成功，便认定该字串为词。最常用的方法有最大匹配法、逆向最大匹配法、双向扫描法、逐词遍历匹配法、最佳匹配法、长短结合匹配法、词首匹配法。2. 设立切词标志法在分词时，先找出切分标志（标点符号、词首字、词

35、尾字、单音节单纯词、多音节单纯词、拟声词等），把句子切分成一些较短的字段，然后再用最大匹配法和逆向最大匹配法进一步把词切分出来。3. 理解式切词法（专家系统方法）针对词典匹配法的不足，人们提出了理解式切词方法，其分词系统由词库、知识库和推理机及三部分组成。8、什么是文本全文索引？（掌握）文本全文索引是指：计算机索引程序通过扫描文章中的每一个信息片断（英文中主要指单词，中文中包括词或字），为每一个信息片断建立一个索引，指明该信息片断在文章中出现的次数和位置。文本全文索引不是一种标引方式。汉语文本全文索引分为三种：单汉字索引、词索引和字词组合索引。选择：161.524分判断：818分名词解释：4312分简答：4832分论述：21224分

展开阅读全文