模糊数学在信息检索中的应用毕业论文.doc

上传人:仙人指路1688 文档编号:4026254 上传时间:2023-04-01 格式:DOC 页数:33 大小:1.64MB
返回 下载 相关 举报
模糊数学在信息检索中的应用毕业论文.doc_第1页
第1页 / 共33页
模糊数学在信息检索中的应用毕业论文.doc_第2页
第2页 / 共33页
模糊数学在信息检索中的应用毕业论文.doc_第3页
第3页 / 共33页
模糊数学在信息检索中的应用毕业论文.doc_第4页
第4页 / 共33页
模糊数学在信息检索中的应用毕业论文.doc_第5页
第5页 / 共33页
点击查看更多>>
资源描述

《模糊数学在信息检索中的应用毕业论文.doc》由会员分享,可在线阅读,更多相关《模糊数学在信息检索中的应用毕业论文.doc(33页珍藏版)》请在三一办公上搜索。

1、模糊数学在信息检索中的应用 摘 要:本文从模糊集出发,以信息检索为应用背景,逐步引入模糊数学理论,并以提高信息检索的准确率和检索效率为目的,提出以下思想方法: (1)为了提高检索准确率,根据模糊集理论,提出了基于文档和查询词的模糊集表示法.(2)通过利用模糊聚类分析理论,研究了基于模糊集文档的模糊聚类方法,并得到了分类的文档簇,同时研究了文档簇的模糊集表示法,为后续研究做铺垫.(3)为了提高检索效率,可以通过缩小检索范围来实现,据此提出了基于文档簇的模糊信息检索模型,从而得到满足条件的文档簇.(4)为了对满足条件的文档簇中的文档进行排序,提出了基于文档的模糊信息检索模型,从而完成了检索的剩余工

2、作,并形成完整的检索过程.(5)通过提出算例,分两种情况进行了分析:当文档集和查询项都是用模糊集表示的,分析了基于模糊集的模糊信息检索模型;当文档集是模糊集表示,查询项是确定的布尔类型,分析了基于模糊集的扩展布尔检索模型.关键词:模糊集;聚类分析;信息检索;检索模型;布尔检索Fuzzy mathematics application in information retrievalAbstract: For improving the information retrieval accuracy and efficiency of searching, this paper, which pu

3、ts information retrieval as application background and gradually introduces the fuzzy mathematical theory, puts forward the following thoughts and methods: (1) In order to improve retrieval accuracy, this paper, according to the fuzzy sets theory, put forward the fuzzy sets representations, based on

4、 both the inquiry word and the document. (2) Through fuzzy clustering analysis theory, we study the fuzzy clustering analysis method based on the document cluster and acquire the classification of the cluster. And we also study the representation of the document classification, based on the fuzzy se

5、ts. It is laying groundwork for the follow-up study. (3) In order to improve the search efficiency, we can do it through narrowing the searching range. So the paper puts forward the fuzzy information retrieval model, which is based on the document cluster. Then we get meet the satisfied document clu

6、sters. (4) In order to sort the satisfied document clusters, we put forward the fuzzy information retrieval model, which is based on the document. Thus we complete the surplus work of retrieval, forming a complete search process. (5) By presenting examples, two cases were analyzed: when the sets of

7、documents and query terms are represented by fuzzy sets, we analyze the fuzzy information retrieval model based on the fuzzy sets; when the set of documents is fuzzy set and the set of the query terms is the Boolean sets, we analyze the Boolean information retrieval model based on the fuzzy sets.Key

8、words: fuzzy sets;clustering analysis;information retrieval;retrieval model;Boolean retrieval目 录1 绪论11.1 论文研究的背景及意义11.1.1 论文研究的背景及目的11.1.2 国内外研究现状11.1.3 论文研究的意义11.1.4 论文研究采用的方法及理论依据21.2 论文构成及研究内容21.3 模糊集的基本概念21.4 模糊理论的数学基础21.4.1 经典集合21.4.2 模糊集合31.4.3 归属函数31.5 模糊子集及其运算31.5.1 模糊集的相关定义41.5.2 模糊集的运算51.5

9、.3 模糊集的其他运算51.6 模糊集的基本定理62模糊聚类检索策略72.1 相关概念72.2 模糊聚类分析72.2.1 选择模糊聚类方法82.2.2 词频矩阵82.3 基于编网法的模糊聚类分析模型92.3.1 构造模糊相似矩阵92.3.2 模糊聚类之编网法102.3.3 基于文档集合的模糊聚类编网法的应用102.4 文档簇的模糊表示法113 模糊概念网络123.1 模糊概念网络的结构123.2 基于文档的模糊概念网络的构建123.3 基于文档簇的模糊概念网络的构建144 基于文档簇和文档的信息检索模型154.1 基于文档簇的模糊信息检索模型154.1.1 文档簇和查询项的模糊集表示154.1

10、.2 相关性154.1.3 检索方法174.2 基于文档的模糊信息检索模型184.2.1 文档和查询项的模糊集表示184.2.2 相关性184.3 检索方法184.3.1 基于模糊集的扩展布尔检索184.3.2 基于模糊集的模糊检索205模糊信息检索模型实例分析235.1 基于模糊集的扩展布尔检索实例分析235.2 基于模糊集的模糊检索实例分析246 结论26参考文献28致 谢291 绪论1.1 论文研究的背景及意义1.1.1 论文研究的背景及目的自从美国著名控制论专家、加利福尼亚大学L.A.Zadeh教授1965年建立模糊集理以来,在各国学者的共同努力和不断探索下,模糊集理论及其应用的研究成

11、果已非常丰富.它不仅发展和扩充了经典数学的研究领域,使数学学科的研究体系发生了重大变革,而且能有效地解决经典数学难以解决的大系的复杂性问题,以及在自然界和日常生活中普遍存在而无法解决的模糊性问题,比如信息检索.模糊数学理提出后,信息检索领域的学者就尝试将其应用于信息检索中,并且取得了长足的发展,产生了一大批优秀的模糊信息检索应用理论,为模糊数学的应用开拓了新的领域,比如:模糊聚类分析在信息检索中的应用、模糊集在信息检索中的应用、模糊推理在信息检索中的应用等.总体来看,这些应用理论为模糊数学发展开辟了新的空间,增添了新的活力.本文以模糊数学理论为基础,提出了一套新的信息检索应用方法.此方法的提出

12、主要希望达到一下目的: (1) 为了提高信息检索的准确性,提出了基于模糊集的信息检索模型; (2) 为了提高信息检索的效率,提出了基于文档簇的模糊信息检索模型,并将“基于模糊聚类分析的检索策略”应用到模型上.1.1.2 国内外研究现状目前,信息检索发展迅速,并产生了优秀的检索模型:向量空间模型,概率模型,语言模型,推理网路模型,布尔检索,LSI,神经网络方法,遗传算法,模糊集检索模型等.同时,也促进了提高模型性能的检索策略的探索和发展,常用的检索策略:相关反馈,聚类,基于片段的检索,语言解析,n元语法,同义词表,n元语法,语义网路,回归分析.由于检索效率及稳定性的瓶颈,使得模糊信息检索实际应用

13、发展缓慢,其在信息检索领域的应用还比较有限.从国外来看,模糊数学应用到信息检索的案例还很少,大多数相关应用都处于实验阶段;从国内来看,模糊数学的信息检索应用案例几乎没有.总体来看,都是由于其不稳定及效率问题决定的,所以实现效率及稳定性的突破就显的很重要了.1.1.3 论文研究的意义模糊数学自身的理论研究进展迅速.我国模糊数学自身的理论研究仍占模糊数学及其应用学科的主导地位,所取得的研究成果在模糊数学、模糊系统与数学等数十种学术期刊和全国高校学报中经常可见,模糊聚类分析理论、模糊神经网络理论和各种新的模糊定理及算法不断取得进展.通过研究模糊数学在信息检索中的应用,提出一种新的方法,来提高模糊信息

14、检索的效率.同时,使得模糊数学的应用分支更丰富.1.1.4 论文研究采用的方法及理论依据(1)通过提出模糊集和模糊聚类分析理论,首先将样本文档表示成模糊集,并利用模糊聚类分析方法对文档模糊集进行模糊聚类,同时提出了分类文档簇的模糊集表示方法,从而建立了文档簇的模糊集.(2)通过基于词项概念和文档簇的模糊概念网图,为建立模糊信息检索模型,提供了直观的检索对象关系图.(3)通过建立基于文档类簇的模糊信息检索模型,得到满足条件的文档簇,从而为后续处理缩小检索范围,这在一定程度上提高了检索效率.(4)针对得到的文档簇集中的文档,建立基于文档的模糊信息检索模型,从而得到排序的检索结果.(5)为了直观描述

15、模糊信息检索模型,添加了模型的实例分析.1.2 论文构成及研究内容论文主要内容主要包括:1.介绍了模糊数学的信息检索应用现状,研究该课题的意义、目的、提出的方法及实现模型;初步阐述了模糊数学在信息检索的应用;2.介绍模糊聚类检索策略,根据制定的阈值,将样本文档分为一些类簇,并且为满足条件的文档簇建立其模糊量集度量方法,为下面的研究做铺垫;3.介绍模糊概念网络图的建立,使得研究变的更加直观;4.介绍基于文档类簇的模糊信息检索模型,从而得到簇类的检索结果,减小了检索的范围,在一定程度上提高了检索效率;5.介绍基于文档的模糊信息检索模型的实例分析.1.3 模糊集的基本概念模糊理论是为了解决真实世界中

16、普遍存在的模糊现象而发展的一门学问.模糊理论以模糊集合为基础,基本精神是接受模糊性现象存在的事实,而以处理概念模糊不确定的事物为其研究目标,并积极地将其严密量化成计算机处理可以处理的信息.实际上,模糊理论是模糊集合,模糊关系,模糊逻辑,模糊控制,模糊测量等理论的泛称,我们通常称之为模糊数学.1.4 模糊理论的数学基础1.4.1 经典集合 模糊理论的基础是模糊集合和归属函数,所谓集合是一些具有某种共同特质事物汇总起来的组织,用来归纳一群具有相同特征事物.一般而言,传统意义上的集合具有下列共同的特点:同一集合中的元素具有某种相同的性质;集合是元素组成的整体,元素之间可以互相区别;集合里的元素是确定

17、的.然而经典集合具有两条基本属性:元素彼此相异,即无重复性;范围边界分明,即一个元素x要么属于集合A(记作xA),要么不属于集合(记作xA),二者必居其一.1.4.2 模糊集合模糊数学是研究和处理模糊性现象的数学方法.众所周知,经典数学是以精确性为特征的.但与精确形相悖的模糊性并不完全是消极的,没有价值的.甚至可以说,有时模糊性比精确性还要好.例如我们要给“偶数”这个集和下定义时,我们很明确的知道这个集合中的每个元素,对于任何给定的数值,我们都清楚的知道它是否属于这个集合.但是当我们为“中年人”这个集合下定义时,多少会遇到困难,因为具体的所谓中年,指的是几岁到几岁?相信每个人对中年的定义都是不

18、同,假定从满35岁起到满55岁为止定义为中年,那么34岁的人还未迈入中年,只要增加一岁的那个瞬间就马上变成中年.另外,过完55岁迈入56岁生日的瞬间又已不再是中年人.基本上,这是相当不合理的方式.前述“中年”定义之所以会不自然,是因其界线太过清楚所致,当界线缓和一些,则不自然会消失.因此,如果以“中年程度”来考虑或许会比较适当.譬如说30岁的中年程度是0.6,35岁的中年程度是0.65,随着不同年龄,其程度也徐徐变化,而此问题也就能获得根本上的解决.此种重新扩张定义的集合,由L.A.Zadeh教授提出,称之为模糊集合.1.4.3 归属函数把传统的集合论特征函数从非0即1的二值选择,推广为可从0

19、到1之间的任何值来做出选择,此新型的特征函数,称之为归属函数.归属函数是模糊理论中最基本的概念,而我们可以用归属函数来表示模糊集合:在域上的模糊集合,由归属函数来表征,在区间中取值,值的大小反映了元素对于模糊集合的归属程度.的值越接近1,就表示元素属于的程度越高.当就是上限,表示完全属于.反之,若的值越接近0,就表示属于的程度越低.当就是下限,表示完全不属于.对于来说,距离“完全属于”和“完全不属于”最远,所以它的模糊度也最高.因此,模糊集合也被定义为元素与归属函数的组成集合.1.5 模糊子集及其运算模糊集最早出现于文献1,12-18.模糊集提出了使用隶属函数来标明元素在集合中的隶属度,而不是

20、假设元素是某个集合的成员.对于信息检索,模糊集是非常有效的,因为它可以描述一篇文档是“关于”什么内容的.描述文档关于什么内容的一组元素的集合本身就具有不确定性.关于“交通”且与诉讼之间间接相关的文档,或许可能是关于“交通事故”的文档.尽管将“交通事故”作为集合的一个元素实际上并不精确,但是将其从集合中排除掉也是不精确的.模糊集就是一种隶属度,其中每个元素的隶属力度本来就精确.在这个例子中,描述文档概念的集合的形式如下: 由于每个元素还附带其隶属度,所以集合C是一个模糊集.在模糊集中包含的概念可以形式化地表示为:其中:表示隶属函数,用于标识集合中元素的隶属度.对于有限集合,模糊集表示为: .接下

21、来我们给出了模糊集的基本操作:求交集和并集.从根本上说,求交集的方法是取相同元素的两个隶属度函数的最小值,并集就是取相同元素的两个隶属函数的最大值.模糊集的交集、并集和补集的定义: 1.5.1 模糊集的相关定义定义1 论域上的一个模糊集合是由上的一个隶属函数来表示,其中(有时用表示)表示元素隶属于模糊集合的程度.一般地,如果论域是有限集合或可数集合,那么一个模糊集可以表示为:.定义2 主导隶属度函数关系:当且仅当对于所有.定义3 设是论域,称映射 确定了一个上的模糊子集,映射称为的隶属函数,它表示对的隶属程度.使的点称为的过渡点,此点最具模糊性.当映射只取0或1时,模糊子集就是经典子集,而就是

22、它的特征函数.可见经典子集是模糊子集的特殊情形.例 设论域(单位:)表示人的身高,那么上的一个模糊子集的隶属函数可定义为 也可用Zadeh表示法: 1.5.2 模糊集的运算模糊集的并、交、余运算性质幂等律:交换律:结合律: 吸收律:分配律: 还原律:对偶律:模糊集的运算性质基本上与经典集合一致,除了排中律以外,即 ,1.5.3 模糊集的其他运算模糊集不再具有非此即彼的特点,这正是模糊性带来的本质特征.相等:包含:并:的隶属函数为 交:的隶属函数为 余:的隶属函数为 例 设论域(商品集),在上定义两个模糊集:=“商品质量好”,=“商品质量坏”,并设则 =“商品质量不好”,=“商品质量不坏”, =

23、可见又 1.6 模糊集的基本定理定理1 模糊集的基本定理 -截集 模糊集的-截集是一个经典集合,由隶属度不小于的成员构成.若论域(学生集),他们的成绩依次为50,60,70,80,90,95,=“学生成绩好的学生”的隶属度分别为0.5,0.6,0.7,0.8,0.9,0.95.则 (90分以上者)=,(60分以上者)=.性质:设(是论域的两个模糊子集),于是对-截集有:(1) (2) (3) ,定理2 (分解定理) 设,则定理3 (扩张原理) 设映射:,定义2 模糊聚类检索策略所谓聚类分析是根据事物间的不同特征,亲疏程度和相似性等关系,对它们进行分类的一种数学方法,其数学基础是数理统计中的多元

24、分析.模糊聚类分析就是建立在模糊数学理论基础上的聚类分析,模糊聚类分析的方法有好几种(模糊传递闭包法,直接聚类法,最大树法,编网法),根据信息检索的特征,此处介绍的是利用模糊相似矩阵和编网法进行聚类的方法,其特点是能在分类数不确定的情况下进行分类,可以根据不同的要求对事物,文档进行聚类,而且结果直观、简捷.2.1 相关概念为了描述信息检索的模糊聚类分析模型,我们使用以下术语以及记号.(1)标引词,这是由若干个标引词组成的集合;(2)文献信息,其中是标引词在该文献中出现的频率,使用统计分析可以计算出标引词的隶属度.(3)文献信息库可表示为:;(4)分类文献信息集,这是将要被分类的文献信息集;(5

25、)相似度,其中按照它描述文献信息和之间的相关程度,这里选用最大,最小法贴近度来表示和的相关程度,则其严格贴近度为 (2-1) 其中“”表示“取小”运算,“”表示“取大运算”.(6)模糊相似矩阵,其中是相似度.相似矩阵是以分类文献信息集中和之间的相似度构造出来的,它刻画的是信息之间相关程度.2.2 模糊聚类分析在实际课题中,不同的数据可能有不同的量纲.为了不使不同量纲的数据也能进行比较,需要对数据进行适当的变换,根据模糊矩阵的要求将数据压缩到区间0,1.数据变换:设论域为被分类的对象,每个元素又由个数据表示,对第个元素有 .(1)标准差变换 (2-2) (2-3)经过变换后,每个变量的均值为0,

26、标准差为1,并可以消除量纲的影响,但不一定在0,1区间上.(2)级差变换 (2-4)经过级差变换后有,且消除了量纲的影响.2.2.1 选择模糊聚类方法 聚类可以分为两种,一种是模糊等价矩阵聚类.它有两种方法,传递闭包法和布尔矩阵法.另一种是直接聚类,它包括直接聚类法、最大树法和编网法.在实际的聚类问题中,通过建立上的模糊关系,常常是模糊相似的关系.因为论域是有限集,这个模糊相似关系可表示为一个模糊相似矩阵,即对角线上的元素为1的对称模糊方阵.可以选择的模糊聚类方法通常有四种(由文献5,23-36可知):模糊传递闭包法、直接聚类法、最大树法和编网法.模糊传递闭包法是从模糊相似矩阵出发,构造一个新

27、的模糊等价矩阵(即模糊相似矩阵的传递闭包),该矩阵满足自反性、对称性、以及传递性三个性质.因此,可以根据模糊等价矩阵进行聚类.直接聚类法不计算模糊相似矩阵的传递闭包,而是直接用模糊相似矩阵进行聚类,具体步骤如下 :(1) 将模糊相似矩阵中的所有不同元素从大到小的顺序编排,设为 .(2) 以为置信水平,选取,直接在模糊相似矩阵上找出水平上的相似类,并进行归并,即得到水平上的等价分类.寻找相似类和归并的原则:若,则将和分为一类.设是水平上的两个类,若,则称它们是相似的.将所有相似的类合并成一类,最后得到的分类就是水平上的等价分类.2.2.2 词频矩阵为确定一组相关文本间的相关度,建立文本间的模糊相

28、似关系,首先要构造一个词频矩阵,它是一个二维表,表示关键词在文档中出现的次数,假设这一组数据中有个文档和个关键词,则是一个的矩阵,将每一个关键字视为一个维空间上的一个向量,的个坐标是一个数字,表示第个文本与所给的关键字间的相关度,当文档不含有该词时,其值为零,否则设为一个非零的正值,定义为为文档中关键词出现的次数(即频率),再利用绝对值减数法建立模糊相似矩阵,当时,;否则,当时,其中,为一常数,可根据实际情况选定,使得,由该定义可知,为一主对角元均为1的对称阵.2.3 基于编网法的模糊聚类分析模型在一个合适的分类中,同一类中的对象应该自反性、对称性以及传递性三个性质.模糊数学的理论告诉我们,如

29、果相似度选择合适,相似矩阵具有自反性和对称性,但是大多数相似矩阵一般不具备传递性.因此,仅依赖相似矩阵来对分类文档信息集进行分类是不够的.模糊聚类分析就是根据相似矩阵来寻找一个等价关系进行分类,其主要步骤如下:2.3.1 构造模糊相似矩阵 聚类是按某种标准来鉴别中元素之间的接近程度,把彼此接近的对象归为一类.为此,我们用中的数来表示中的元素和的接近或相似程度,称为相似系数.相似系数构成的模糊矩阵是上的模糊关系.确定相似系数的方法很多,可以分为三类:1.相似系数法 2.距离法 3.主观评分法.最常见的是距离法中的贴近度法. 不妨假定,如若不然,可以通过公式: (2-5)(其中分别是各个的第个特征

30、的最大、最小值)将转换为.当时,可以认为是一个模糊向量,也就是可以看成以个特征指标构成的集合为论域的模糊集,于是的贴近度可以作为它们的相似程度.即.当取距离贴近度时, (2-6)把所有的组成的矩阵为模糊相似矩阵,命名为.针对的分类文献集,选择一个计算相似度的算法,可以计算出相似矩阵.2.3.2 模糊聚类之编网法 编网法是由我国学者赵汝怀提出的,其特点是在模糊相似矩阵的截集上直接进行聚类.因此,使用起来更为直观简单.具体步骤如下:(1)适当选取,求出截矩阵,且去掉的主对角线右上半部分的所有元素;(2)将主对角线上的“1”对应地用其对象的标号来代替;(3)将主对角线左下方的“0”去掉,而用“*”代

31、替“1”,称* 所在的位置为结点; (4)用竖直线与横直线将结点与对角线上的序号连接,即编网.通过如此打结而连接的对象归为同一类,从而实现了等价分类.(5)画出动态聚类图.通过以上步骤即可完成对文档集的分类.2.3.3 基于文档集合的模糊聚类编网法的应用 如果我们现在要检索混凝土断裂方面的文献,可选关键词有多个,且利用每个关键词都可以得上百篇文献,检索过程中,每篇文献都详细阅读是不贴实际的,因此我们需要通过聚类筛选出相关度高的几篇或者几十篇文献.设标引词集为:混凝土、断裂韧度、尺度效应、虚拟裂缝模型同时设D为某信息库,从该信息库中选出5篇文档进行分析,则.根据各关键词在相应文献中的出现频率,使

32、用模糊统计分析可计算出每个关键词的隶属度.从而每篇文献在检索中的表示记为: 故根据(2-1)可得模糊相似矩阵为对R中的元素进行排序为: 10.820.80.670.430.33从而,的截矩阵为截矩阵为这时U被分为3类:2.4 文档簇的模糊表示法通过上节的模糊聚类分析方法,可得到分类的文档簇,本部分将介绍一种模糊度量方法来量化这些文档簇.任意一篇文档可表示为,则文献集的度量可表示为,则文献集的度量可表示为 (2-7)通过以上讨论,得到了文档簇的模糊表示法,这为之后的讨论提供了基础依据,且对应于文档集的文档簇集可表示为:,其中为聚类数.从而.3 模糊概念网络3.1 模糊概念网络的结构模糊概念网络的

33、结构是由节点和弧构成.网络包括两种类型的节点:概念节点和文档节点.连接节点的弧表达了节点之间的相关关系,并用模糊权值对关系的强弱进行量化.设概念节点集合C=(c,c,.c),文档节点集合D=(,.) .表示和的相关度权重为,也可表示为表示和概念的相关权重为,也可表示为,)=.规则1 如果存在节点,和,其,且的关系权值为.规则2 如果节点和之间存在多条路径连接,和间的关系值为最大的路径权重.图3-1如下,给出了一个典型模糊概念网络实例.其中节点和相关关系权重为.图3-1 模糊概念网路实例3.2 基于文档的模糊概念网络的构建模糊概念网络可以通过领域专家手工建立,但需要大量的手工劳动,并受限于领域专

34、家的个人水平.为了突破这种限制,文献2提出了模糊概念网络的自动构建方法,本部分将对此作以详细阐述.将一个文档表示成关键词集.统计词表中每个关键词在正文、标题、关键词、超链、超链描述中出现的概率,表示为 , 和.关键词频率计算公式为其中,和是调整系数.计算特征词在文档中的权重公式为: (3-1)其中,表示关键词的文档数目,N表示总的文档数.词是概念的表现方式,同一个概念节点可能包含多个对应词.设概念节点对应的词够构成集表示成向量形式,其中表示关键词在概念节点中的权重.计算文档d与概念之间的相关度为 (3-2)式中,表示在中的权重,表示文档d中所有关键词的权重之和,表示概念节点包含的关键词的权重之

35、和.统一文档中包含的词语之间存在语义上的关联关系,这种关联关系从形式上表现为词与词的共现.利用这些现象,挖掘概念之间的相关关系.选取部分样本构成样本集S,M为文档树.设概念节点集合计算样本中文档与概念节点之间的相关度.对于概念节点,它与文档的相关度可以表示成向量形式:,表示文档与概念节点的相关度.概念节点和之间的相关度的计算公式为 (3-3) 模糊概念网络中概念节点的产生,可以通过两种方式:聚类方法和逐步添加方法,这里主要介绍聚类方法.采用聚类方法时,初始阶段每个关键词对应独立的概念节点.计算概念节点的相关度,根据设定的阈值,相关度超过特定阈值的概念节点被合并为新的节点.3.3 基于文档簇的模

36、糊概念网络的构建通过3.2节的介绍,可知模糊概念网络的构建方法,但其是基于概念节点和文档节点,而本节将引入基于概念节点和文档簇节点的模糊概念网络,如下图3-2所示:图3-2 基于模糊簇的模糊概念网络从而可得到模糊集簇和概念之间的模糊概念网络,其建立了文档簇和概念之间的相关关系,从而使得检索所需处理的文档数从整体上减少,可以提高检索的效率.同时,通过模糊概念网络图的建立,使得文档的检索原理更加直观,为后续处理提供了方便. 4 基于文档簇和文档的信息检索模型通过以上的讨论,我们得到由文档簇和概念组成的模糊概念网络,其为建立基于文档簇的模糊信息检索模型提供了方便.基于文档簇的模糊信息检索模型,在效率

37、上有明显的优势,其从整体上减少了检索中所涉及的文档数量.其需要完成两个步骤: (1)通过基于文档簇的信息检索,选出满足条件的文档簇; (2)针对选出的文档簇,再次使用模糊信息检索模型,对该文档簇的文档进行排序,将其作为检索结果输出.4.1 基于文档簇的模糊信息检索模型4.1.1 文档簇和查询项的模糊集表示通过的以上的讨论,我们可以得到文档簇的模糊集表示方法: 设查询项的模糊集表示为: 其中的为查询项的相关程度,其是通过频率及统计方法计算得到的词项隶属度.即得到了文档簇和查询项的模糊集表示,从而为后面的讨论奠定了基础.4.1.2 相关性 为了比较查询项和文档簇的相似度,人们提出了很多比较查询模糊

38、向量和文档簇模糊向量的方法,这些方法都经过了证明.以下我们做以快速回顾: (1)最常见的方法是余弦方法,也就是计算查询向量和文档簇向量之间的余弦值: (4-1)因为在计算每篇文档时都会出现,向量内积除以文档向量大小后,余弦系数应该给出相同的相关性结果.我们注意到余弦方法通过考虑文档长度来归一化结果.通过内及方法,一个较长的文档可能会得到一个比较高的分数,仅仅因为文档比较长,因此有更多的机会包含查询词并一定因为文档是相关的.Die系数定义为: (4-2) Jaccard系数定义为: (4-3)余弦方法通过将向量内积除以文档向量的长度来实现不同文档长度的归一化.余弦方法中假定文档长度对查询没有影响

39、.排除归一化因素,较长的文档更容易被认定为相关的,仅仅因长文档包含的词多,所以增加了包含查询词的可能性.除以文档向量长度就是不考虑文档长度.(2)模糊集之间的贴近度Chebyshev贴近度 (4-4)Hamming贴近度 (4-5)Euclid贴近度 (4-6)Minkowski贴近度 (4-7) Lambert贴近度 (4-8)绝对和差贴近度 (4-9)最大最小贴近度 (4-10)算术平均最小贴近度 (4-11)几何平均最小贴近度 (4-12)4.1.3 检索方法在4.1.2中,我们讨论了衡量文档簇和查询项相近度的两种方法,因此利用这两种方法可以得到文档簇和查询项的相近度度量方法.这样就可以

40、得到文档簇和查询项相似度,利用相似度可以对查询结果进行排序.同时,在排序过程中,选择合适的相似度阈值,满足该阈值的文档簇进行排序,不满足阈值的文档不排序,这样可以提供检索效率,具体实现步骤如下: (1)求出各个文档簇和查询项之间的相似度或者贴近度; (2)选出符合指定阈值的文档簇; (3)将满足要求的文档簇按照相关性大小进行排序. 4.2 基于文档的模糊信息检索模型通过4.1的讨论,我们得到了满足相似度要求的文档簇集.这样就缩小了检索的文档范围,从而提高了检索效率,下面将阐述基于文档的模糊检索.4.2.1 文档和查询项的模糊集表示 类似于4.1.1中的文档簇和查询项的模糊集表示,我们可以得到文

41、档的模糊集表示方法: 查询项的模糊集表示为: 其中的为查询项的相关程度,其是通过频率及统计方法计算得到的词项隶属度.4.2.2 相关性 为了比较查询项和文档簇的相似度,人们提出了很多比较查询模糊向量和文档簇模糊向量的方法,这些方法都经过了证明.以下我们做以快速回顾: 最常见的方法是余弦方法,也就是计算查询向量和文档簇向量之间的余弦值:因为在计算每篇文档时都会出现,向量内积除以文档向量大小后,余弦系数应该给出相同的相关性结果.我们注意到余弦方法通过考虑文档长度来归一化结果.通过内及方法,一个较长的文档可能会得到一个比较高的分数,仅仅因为文档比较长,因此有更多的机会包含查询词并一定因为文档时相关的

42、.4.3 检索方法通过计算各个文档的相似度或者贴近度,并根据相关性进行排序,最后将排序结果作为检索结果输出. 4.3.1 基于模糊集的扩展布尔检索在20世纪70年代末期,研究人员对布尔检索进行了扩展,提出了模糊集检索.我们可以将文档中的词看成模糊集来计算布尔的相似度,这是因为这些词在文档中出现的频率可视为隶属度.下面我们考虑有文档集中所有文档组成的集合.模糊集可以看作描述所有包含词的文档的集合.这个集合可以记作=.这表明文档包含词,且其隶属度为0.8;文档包含词且其隶属度为0.5. 类似地,集合可以定义为所有包含词的文档.这个集合可以记作:计算需要计算(计算需要计算).这些计算可以通过使用并集

43、的最大值和交集的最小值实现.因此: 我们可以通过应用这些操作的结果来构造更复杂的布尔表达式.最终,我们可以得到包含文档及其相似度的一个集合.这种方法的一个问题是,这种模型不仅允许我们给查询词赋予权重.我们可以通过在集合中每个元素的隶属度上乘以查询词权重从而在模型中引入查询词权重. 另外一个问题是权重很低的词汇决定相似度.隶属度很低的词最终是相似度计算的唯一因素.比如下面这种情况,文档1包含词s和词t,并且词s的隶属度为0.0001,词t的隶属度为0.5 .在请求查询时,文档1的得分就是0.0001 .特别是查询中包含较多关键词项时,这种低隶属度的词决定了整个相似度的权重.这个问题的一种解决方法

44、是定义一个阈值,当其值低于时,隶属度函数值就变为0. 为了克服布尔检索系统的主要限制,有一些学者提出构想,希望扩充布尔检索系统的功能,而其中Radecki便利用部分匹配原理,定量估算出所检索文件与查询语句间的相关程度,也有一些加权(Weights)观念的检索系统被提出.在其中,文件是以关键词的加权来表示,查询语句也将传统布尔检索系统之查询语句加入权数,而经过匹配处理,可以在所检索出的每一件文件中,相对地得出一个检索状态值(Retrieval Status Value,RSV).RSV值可用来评估所检索出文件与加权查询语句间的相关程度.然而加权布尔检索系统仍有其限制,如其查询语句无法处理不明确之查询,而不明确概念通常却是检索者在查询之常有的现象,也是最直接的想法.另外即使加权布尔检索系统加以处理的情形,如查询语句:“模糊集合0.6,语意模式0.8 ”,其所表示的即为找出有关关键词“模糊集合”重要性占六成,关键词“语意模式”重要性占八成的文件,而对于以上之重要性成数,也十分难以认定.对于关键词加权后的语意表示什么?又检索出的文件,其RSV值是以一临界值来界定,是否也有可议之处?因此,便引用了能够解决上述问题的模糊语意法,来扩展布尔检索系统之功能.

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 办公文档 > 其他范文


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号