《《信息整序法》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《信息整序法》PPT课件.ppt(45页珍藏版)》请在三一办公上搜索。
1、信息组织学,主讲:杨力西南石油大学经济管理学院,第五章 信息整序法,本章重点 分类法分类标引主体法主题标引关键词语言的原理与类型自动标引技术,5.1 分类法与分类标引,信息资源分类具有以下特征,通过类目索引提供从字顺角度查找类目的途径,从一定角度出发组织和解释信息,按照内容特征的关系对信息资源进行组织,采用一定的标记符号作为排序工具,分面组配式分类法分面-亚面-类目简单概念组成复合类目本体+物质+动力+空间+时间组配复杂、标引难度大号码冗长直观性较差,等级列举式分类法树形等级系统逐级列出专指类目展开方式单一类间组配能力较弱类目结构变化性差,列举-组配式分类法等级列举+分面组配符号复杂工作量大,
2、分类法的编制,分类标引及方法,分类标引:又称为归类,是指依据一定的分类语言,对信息资源的内容特征进行分析、判断,赋予分类标识的过程。,类目辨析,号码配置,使用复分表,将主表号码与复分表号码加以组配,访分,利用同类性质的子目进一步细分,类间组配,将一个主类号与其他相关的主类号组合,“浙江经济地理”,可在主表类目F1299中国经济地理后加上中国地区表浙江得号码55,标引为F129955,“法语词典”,可在表示法语的号码“H32”后,加上从英语的号码“H31”后子目中表示词典的号码“6”,得到该主题的号码为H3261,“化学文摘”,可通过组配符号“:”,将表示专题文摘的类号“Z89”,与表示化学组配
3、类号“06”联结,标引为:Z89:06。,5.2 主题法与主题标引,主题法思想的典型例子:情感搜索,主题标引是依据一定的主题词表或主题标引规则,赋予信息资源语词标识的过程。具体而言,主题标引是在主题分析的基础上,以一定的词表或标引规则作为依据,将信息资源中具有检索意义的特征转换成相应的主题词,并将其组织成表达信息资源内容特征的标识的过程。,主题标引及方法,主题标引及方法,全面标引,充分揭示信息资源所论及的所有有检索价值的主题,揭示信息资源中具有检索价值的整体性主题,不揭示涉及的各种从属性主题内容,整体标引,对公路运输与铁路运输这一文献,就应根据文献论述的主题对象,分别对公路运输、铁路运输这两个
4、内容进行标引。,黄河水质变化浅析一文,主要分析了黄河的水质变化,指出城市工业废水及农药大量使用是造成支流污染的主要原因。在对其进行全面标引时,就必须将:水质、变化、水质污染、黄河、农药污染、城市污水、工业废水、河流污染、预测等主题概念一一加以标引和揭示。,对口标引,综合标引,分析标引,只揭示信息资源中适合本专业需要的主题内容的标引,以丛书、多卷书、论文集、会议录、标准汇编、档案的案卷等为单位进行的概括性标引,根据资源中部分片段或集合型资源的构成单元进行标引,公路运输与铁路运输,铁路运输单位的文献部门在采用对口标引的情况下,可只对铁路运输的有关内容进行标引,对于其中有关公路运输的内容则一般不予揭
5、示。,机械设计丛书在以整套书为单位进行标引时,除对整体内容“机械设计”进行标引外,应对“丛书”这一资源类型进行揭示。,主题标引的规则,1、选用词表中的叙词标引2、选用最匹配的叙词标引3、无专指叙词时,进行叙词组配标引4、无专指叙词且无法组配,使用上位词进行标引5、选用含义相近的叙词进行靠词标引6、可增补叙词表达新概念7、自由词标引,是主题标引的补充,选词规则,1、必须是概念组配2、优先采用交叉组配3、不能越级组配4、必须概念确切,具有单义性5、组配次序:主体因素-通用因素-时间因素-地区因素-文献类型的次序,组配规则,主题标引和分类标引的比较,5.3 关键词标引,关键词 出现在信息资源的标题摘
6、要、正文中,对描述信息资源的主题内容具有实质意义的词语。,关键词标引一般通过计算机自动进行,即计算机自动抽取文献题名、文摘或正文中有检索意义的词语。,题外关键词索引KWOC将关键词抽取出来,复合用户习惯。,题内关键词索引KWIC选取关键词,保留关键词的上下文,进行轮排索引。,双重关键词索引KWIC&KWOC双重目标,关键词索引编制的步骤,词典匹配切分、切词标志、理解式切分,使每个关键词轮流排至检索入口,1用禁用词表控制抽词,排除没有检索意义的词汇,2由计算机进行自动分词,3轮排编制关键词索引,5.4 自动分类与自动标引,自动分类是按照一定的分类体系或标准进行自动分类标记,又可细分为自动聚类与自
7、动分类两种。,聚类,根据信息内容的相关性来组织文献集合或信息集合,将整个集合聚集成若干个子类,并使属于同一类的文档尽量相似,属于不同类的文档差别明显。,分类,即归类,将具有相近特性的检索对象相对地集中,而具有不同特征者尽可能归于不同的类别中。,自动聚类,聚类分析原理介绍,聚类分析中“类”的特征:聚类所说的类不是事先给定的,而是根据数据的相似性和距离来划分聚类的数目和结构都没有事先假定,聚类方法的目的是寻找数据中:潜在的自然分组结构 a structure of“natural”grouping感兴趣的关系 relationship,聚类分析原理介绍,什么是自然分组结构Natural group
8、ing?我们看看以下的例子:有16张牌如何将他们分为 一组一组的牌呢?,聚类分析原理介绍,分成四组每组里花色相同组与组之间花色相异,花色相同的牌为一副Individual suits,聚类分析原理介绍,分成四组符号相同的牌为一组,符号相同的的牌Like face cards,聚类分析原理介绍,分成两组颜色相同的牌为一组,颜色相同的配对Black and red suits,聚类分析原理介绍,分成两组大小程度相近的牌分到一组,大配对和小配对Major and minor suits,聚类分析原理介绍,这个例子告诉我们,分组的意义在于我们怎么定义并度量“相似性”Similar因此衍生出一系列度量相
9、似性的算法,大配对和小配对Major and minor suits,聚类分析原理介绍,相似性Similar的度量(统计学角度)距离Q型聚类(主要讨论)主要用于对样本分类常用的距离有(只适用于具有间隔尺度变量的聚类):明考夫斯基距离(包括:绝对距离、欧式距离、切比雪夫距离)兰氏距离马氏距离斜交空间距离此不详述,有兴趣可参考应用多元分析(第二版)王学民相似系数R型聚类用于对变量分类,可以用变量之间的相似系数的变形如1rij定义距离这里不详细介绍这种聚类度量方法,聚类分析原理介绍,变量按测量尺度(Measurement Level)分类间隔(Interval)尺度变量连续变量,如长度、重量、速度、
10、温度等有序(Ordinal)尺度变量等级变量,不可加,但可比,如一等、二等、三等奖学金名义(Nominal)尺度变量类别变量,不可加也不可比,如性别、职业等,定义:对给定的数据进行层次的分解,等级聚类法(hierarchical method),广泛采用的类间距离:,最小距离法(single linkage method)极小异常值在实际中不多出现,避免极大值的影响,广泛采用的类间距离:,最大距离法(complete linkage method)可能被极大值扭曲,删除这些值之后再聚类,广泛采用的类间距离:,类平均距离法:类间所有样本点的平均距离该法利用了所有样本的信息,被认为是较好的系统聚类
11、法,广泛采用的类间距离:,重心法(centroid hierarchical method)类的重心之间的距离对异常值不敏感,结果更稳定,广泛采用的类间距离,离差平方和法(ward method)D2=WMWKWL即对异常值很敏感;对较大的类倾向产生较大的距离,从而不易合并,较符合实际需要。,自动分类,原理:根据一个已被分好类的训练文档集合,找到文档特征和文档类别之间的关系模型,然后利用这种学习得到的关系模型对新的文档进行类别判断。,自动标引,自动标引(Automatic Indexing),又称计算机辅助标引(Computer Aided Indexing),是根据文献内容,依靠计算机系统全
12、部或部分地自动给出标引符号的过程。换句话说,就是利用计算机系统模仿人的标引活动并自动生成情报检索所需的索引符号的过程。,自动标引的原理,齐夫定律:高频词:传递信息能力弱中频次:传递信息能力强低频词:传递信息能力极强,西文信息自动标引技术,1、抽取关键词遇空格取词;确定关键词,舍去非用词;累积词频,分析关键词;2、分析确定标引词绝对词频相对词频赋予权重,中文信息自动标引技术,中文自动标引所遇到的首要问题是词的切分。现在国内大部分自动标引方法只能依据字(词)典匹配,最多再加上一些构词模式或规则来进行词切分。,分词的必要性,物,理,学,physics,products,price,image,bod
13、y,theory,barber,science,understand,reason,school,study,credit,student,subject,物理学,physics,physicist,evidence,6 5 5=150:2,中文词语分析的主要难点:歧义交叉歧义(86%):结合成分子时组合歧义(14%):这个人手上有痣;我们缺人手全局歧义与局部歧义:乒乓球拍/卖/完了;乒乓球/拍卖/完了;我很/难过,未登录词问题干扰作用克林顿对内塔尼亚胡说龚学平等领导,(1)词典标引法主题词表法 关键词词典法部件词典法 词典切分组词法(2)单汉字标引法(3)语法分析标引法(4)神经网络分词法,中文自动分词的主要方法:,本章小结,