基于聚类分析的潜在语义文献检索研究生学位论文.doc

资源描述

《基于聚类分析的潜在语义文献检索研究生学位论文.doc》由会员分享，可在线阅读，更多相关《基于聚类分析的潜在语义文献检索研究生学位论文.doc（61页珍藏版）》请在三一办公上搜索。

1、国内图书分类号：O229 密级：公开西南交通大学研究生学位论文基于聚类分析的潜在语义文献检索申请学位级别理学硕士专业应用数学 Southwest Jiaotong UniversityMaster Degree ThesisLATENT SEMANTIC RETRIEVAL BASEDON DOCUMENT CLUSTERING ANALYSIS Grade: 2010 Candidate: Chunjiang WuAcademic Degree Applied for : Masters Degree Speciality: Applied Mathemati

2、cs Supervisor: Hailiang Zhao(Prof.)May.2013西南交通大学学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定，同意学校保留并向国家有关部门或机构送交论文的复印件和电子版，允许论文被查阅和借阅。本人授权西南交通大学可以将本论文的全部或部分内容编入有关数据库进行检索，可以采用影印、缩印或扫描等复印手段保存和汇编本学位论文。本学位论文属于1保密，在年解密后适用本授权书；2不保密，使用本授权书。（请在以上方框内打“”）学位论文作者签名：指导老师签名：日期：日期：西南交通大学硕士学位论文主要工作（贡献）声明本人郑重声明：所呈交的学位

3、论文，是在导师指导下独立进行研究工作所得的成果。除文中已经注明引用的内容外，本论文不包含任何其他个人或集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体，均已在文中作了明确说明。本人完全了解违反上述声明所引起的一切法律责任将由本人承担。本人在学位论文中所做的主要创新点如下：1. 词频矩阵的建立。利用从查询关键词出发，获取相关文献，同时从相关文献中获取高质量扩展关键词，不断迭代搜索，获得更多的链式文献以及扩展关键词汇，建立词频矩阵。这步仅解决因数据更新造成词频矩阵更换不便等问题，也能够不借用所有原始数据库进行语义分解，提高检索效率2.在奇异值降维分解中，对截取矩阵的选择。用变化率：

4、来替代。 3.采用均值聚类方法，在计算相似度时不用欧式距离，改用余弦相似度原模型：改进后：学位论文作者签名：日期：毕业设计（论文）原创性声明和使用授权说明原创性声明本人郑重承诺：所呈交的毕业设计（论文），是我个人在指导教师的指导下进行的研究工作及取得的成果。尽我所知，除文中特别加以标注和致谢的地方外，不包含其他人或组织已经发表或公布过的研究成果，也不包含我为获得及其它教育机构的学位或学历而使用过的材料。对本研究提供过帮助和做出过贡献的个人或集体，均已在文中作了明确的说明并表示了谢意。作者签名：日期：指导教师签名：日期：使用授权说明本人完全了解大学关于收集、保存、使

5、用毕业设计（论文）的规定，即：按照学校要求提交毕业设计（论文）的印刷本和电子版本；学校有权保存毕业设计（论文）的印刷本和电子版，并提供目录检索与阅览服务；学校可以采用影印、缩印、数字化或其它复制手段保存论文；在不以赢利为目的前提下，学校可以公布论文的部分或全部内容。作者签名：日期：学位论文原创性声明本人郑重声明：所呈交的论文是本人在导师的指导下独立进行研究所取得的研究成果。除了文中特别加以标注引用的内容外，本论文不包含任何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡献的个人和集体，均已在文中以明确方式标明。本人完全意识到本声明的法律后果由本人承担。作者签名：日期：年

6、月日学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定，同意学校保留并向国家有关部门或机构送交论文的复印件和电子版，允许论文被查阅和借阅。本人授权大学可以将本学位论文的全部或部分内容编入有关数据库进行检索，可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。涉密论文按学校规定处理。作者签名：日期：年月日导师签名：日期：年月日指导教师评阅书指导教师评价：一、撰写（设计）过程1、学生在论文（设计）过程中的治学态度、工作精神优良中及格不及格2、学生掌握专业知识、技能的扎实程度优良中及格不及格3、学生综合运用所学知识和专业技能分析和

7、解决问题的能力优良中及格不及格4、研究方法的科学性；技术线路的可行性；设计方案的合理性优良中及格不及格5、完成毕业论文（设计）期间的出勤情况优良中及格不及格二、论文（设计）质量1、论文（设计）的整体结构是否符合撰写规范？优良中及格不及格2、是否完成指定的论文（设计）任务（包括装订及附件）？优良中及格不及格三、论文（设计）水平1、论文（设计）的理论意义或对解决实际问题的指导意义优良中及格不及格2、论文的观念是否有新意？设计是否有创意？优良中及格不及格3、论文（设计说明书）所体现的整体水平优良中及格不及格建议成绩：优

8、良中及格不及格（在所选等级前的内画“”）指导教师：（签名）单位：（盖章）年月日评阅教师评阅书评阅教师评价：一、论文（设计）质量1、论文（设计）的整体结构是否符合撰写规范？优良中及格不及格2、是否完成指定的论文（设计）任务（包括装订及附件）？优良中及格不及格二、论文（设计）水平1、论文（设计）的理论意义或对解决实际问题的指导意义优良中及格不及格2、论文的观念是否有新意？设计是否有创意？优良中及格不及格3、论文（设计说明书）所体现的整体水平优良中及格不及格建议成绩：优良中及格不及格（在所选等级前的内画“”）评阅教师：（

9、签名）单位：（盖章）年月日教研室（或答辩小组）及教学系意见教研室（或答辩小组）评价：一、答辩过程1、毕业论文（设计）的基本要点和见解的叙述情况优良中及格不及格2、对答辩问题的反应、理解、表达情况优良中及格不及格3、学生答辩过程中的精神状态优良中及格不及格二、论文（设计）质量1、论文（设计）的整体结构是否符合撰写规范？优良中及格不及格2、是否完成指定的论文（设计）任务（包括装订及附件）？优良中及格不及格三、论文（设计）水平1、论文（设计）的理论意义或对解决实际问题的指导意义优良中及格不及格2、论文的观念是否有新意？设计是否有创意

10、？优良中及格不及格3、论文（设计说明书）所体现的整体水平优良中及格不及格评定成绩：优良中及格不及格（在所选等级前的内画“”）教研室主任（或答辩小组组长）：（签名）年月日教学系意见：系主任：（签名）年月日摘要传统文献检索算法将用户提问关键词与系统数据库存文献关键词集进行匹配，然后根据匹配程度的大小检测文献。实践证明，此方法存在一些不足。其一，词语具有多义性，很难确定文献中该关键词表达的具体含义是否符合检索内容。其二，多词一意，即文章的主题可以由不同关键词构成。因此，严格匹配可能会丢失大量相关文献。鉴于以上问题，LSA即语义分析法（Latent Sem

11、antic Analysis）在相似文献的检索中能取得较好的效果。LSA认为文献由关键词集通过某种结构联系起来。大量关键词的集合可以表示文献主题。LSA基于数学理论和计算机技术的结合，通过大量文献集的词频分析，建立关于关键词和文献的词汇-文献矩阵。然后通过奇异值分解，最终分解成词汇矩阵，起连接作用的对角矩阵，以及文献矩阵的乘积。因此，即使查询词关键词不在文献关键词集内，只要其主要内容和文献一致，也可以通过与语义分解后的文献向量进行相似度运算，进而检索出相关文献。本文在研究LSA产生背景以及基本原理及应用的基础上，着重讨论了从查询关键词出发，对相关文献链建立的方法。文献关系链的建立依赖于相同关键

12、词在不同文献中出现的频率。显然两篇不同文献中相同的关键词越多，这两篇文献就越具有相关性。通过寻找相关文献，对文献中的众多关键词取并集，进而获得更多的关键词，即所谓扩展关键词。对在不同文献中出现频率大的扩展关键词取交集，获得1级高质量关键词。然后通过一级高质量关键词不停地做循环搜索，进而获得2级，3级，n级扩展关键词集，以及更多的相似文献集。根据扩展关键词集以及文献集建立词汇-文献矩阵，并将其进行奇异值分解，分解成三个矩阵的乘积，其中中间的矩阵为对角阵，对角元素按照奇异值由大到小的顺序排列，其值反映了对原矩阵作用的大小。按照奇异值变化率选定某链接关系度阈值，并依据阈值对分解后的三个矩阵进行截取降

13、维处理。然后对降维后的文献矩阵中的列向量进行k均值聚类，形成k类的文献列向量簇，以及k个簇类中心点。根据用户偏好，选取扩展关键词作为查询词集，并将其对k个聚类中心点做相似运算。选择相似度高的簇内中心点，并对其内文献向量进行同样相似运算，最终依据相似程度输出文献。关键词：潜在语义分析聚类分析降维奇异值分解文献链AbstractThe traditional document retrieval is based on keywords matching based strictly, to the user query keywords and the system database

14、storing text keyword matching, then according to the size of the matching degree of the relevant text detection. But in practice, this method is inadequate. First, because the word is ambiguous, it is difficult to determine the specific meaning of the keywords in the text of the expression, consiste

15、nt with the content retrieval. Second, many words are the theme of this article can be composed of different keywords, so strictly matching may lose a lot of relevant text. In view of lexical ambiguity, semantic analysis method (Latent Semantic Analysis, LSA) is an effective solution to this keyword

16、 strict matching problems. LSA believes that text by keyword through certain structure is connected, and a collection of keywords shows the theme of the text. LSA combined with mathematical and computer based on the analysis of a large corpus of text and the word frequency, the keywords and text is

17、mapped to the term-document matrix A, and then through the singular value decomposition (SVD), the final decomposition into lexical matrix, document matrix, as well as the diagonal matrix connection function. Therefore, even if the user queries keywords absolute matching and document keywords withou

18、t, but the theme and documents are the same, it can also pass through the projection of the key words semantic space, to find a corresponding semantic space, and then compare the similarity cosine document and the value of key words, and then retrieve the relevant documents. In this paper, based on

19、LSA in the background as well as the basic principle and application, we discussed the starting user queries based on keywords to establish the literature chain structure. Establishment of the literatures on the relationship between chain depends on the level of the same key words in different artic

20、les. Obviously two different literatures have the same keywords more, the two articles have more relevant. By searching the literature, we can take the union of many key words in the literature, and then get more keywords, then the high frequency keywords intersection, to obtain high quality key wor

21、ds. Followed by a high quality keyword cant stop doing circular search, and then get more of the level 2, level 3.N keyword set, of course, this time also get more literature. But because of the lack of semantic keywords , we can not only use high quality key words of each level and the correspondin

22、g literature to create the literature chain from grade 1 to grade n. So we need LSA Latent Semantic Intelligent Analysis and classification of 1 to n keywords. Through the establishment of document frequency matrix, which is decomposed into three matrices by SVD, to intercept the document matrix dim

23、ension reduction after treatment for K clustering, and according to user preferences, select the extended keyword similarity calculation of cluster center, and the center point of high similarity in the literature were also similar operations, based on the similarity of the output chain literature.K

24、eywords: latent semantic analysis; Cluster analysis; the reduction of dimension; singular value decomposition; literature chain目录第1章绪论11.1研究背景和意义11.2 国内外研究概况21.2.1 国外研究状况31.2.2国内研究现状31.3文献搜索的若干模型介绍31.3.1布尔模型41.3.2概率模型41.3.3向量模型41.3.4潜在语义模型51.4本文主要研究内容61.5本文结构安排7第2章 SVD分解的数学理论基础及应用82.1奇异值的分解理论82.1

25、.1奇异值分解的意义92.1.2奇异值近似分解102.1.3 降维估计的合理性122.1.4 降维阈值的选取：122.2传统SVD分解在潜在语义文献搜索中的应用132.2.1 词汇-文献矩阵的建立132.2.2词汇-文献矩阵的奇异值分解132.2.3提问式的几何表示142.2.4 文献的扩充142.2.5词汇的扩充152.2.6查询向量和文献间的相关度计算152.3 小型英文样本的分解示列162.3.1原始样本概况172.3.2词汇-文献矩阵及查询向量模型的建立172.3.3词汇-文献矩阵的奇异值分解192.3.4潜在语义空间的形成202.3.5潜在语义空间下的K维查询向量与文献的相似度计算2

26、2第3章基于K均值聚类分析的文献语义检索模型233.1文献聚类综述233.1.1相似文献的聚类基础233.1.2文献聚类意义233.2相似度量233.3基于余弦相似度的 K均值聚类算法243.4改进的k均值聚类算法与潜在语义分析检索结合253.5 本章小结25第4章实证分析264.1样本集建立及数据的初始化264.1.1分别以模糊控制和房地产为查询关键词建立文献集264.2词汇文献矩阵建立264.3词汇-文献矩阵的SVD分解，以及潜在语义空间的形成284.4查询词语义向量化304.5分别计算偏好语义向量和聚类中心点相似度及对相关文献检索31结论与展望34致谢35参考文献36攻读硕士期间发

27、表的论文40附录41第1章绪论1.1研究背景和意义文献检索虽作为数据挖掘的重要组成部分，但有着其独特性。文献检索研究的主要对象来自于大量各种数据源文献。其中包括：新闻文章、学术论文、期刊、专利文献、政府出版物、电子邮件、Web页面等。诸如以上文献可能包含标题、关键词、作者、出版日期等结构化数据，也包含摘要、内容等非结构化内容2。由于其内容是人们使用的非结构化自然语言，所以计算机对其语义的处理显得十分艰难。因此，文献检索的语义研究显得十分重要。科技发展，网络信息日新月异，信息增长遍布整个网络。据中国互联网络信息中心报告，截止2008年底，中国网页总数超过160亿个5。面对如此浩瀚的信息，至

28、少有两个方面值得我们研究。第一：如何快速有效获取我们需要的信息；第二：如何根据用户提供的查询信息找出一系列链式的相关信息。信息时代，科学技术作为第一生产力，最新技术的研究成果大多以文献方式发布于网上（除特殊保密技术外）。据世界知识产权组织统计，世界上新科学技术和新发明有90%至95%记载在文献里面6。因此无论学术研究还是新产品创新，通过阅读大量文献，不仅能够及时了解研发进程、开阔研究者视野，而且能够避免重复研究，侵犯他人知识产权。由于我国属于发展中国家，科学技术相对发达国家而言较为薄弱，科学技术的引进和借鉴显得尤为重要。据世界知识产权组织统计，在技术研究领域，专利文献能提高研发人员的科研水平，

29、拓展思维，激发创造性，进而缩短研发时间60%，节约40%的研究费用33。由于不仅存在不同词汇间的同义性和单个词汇间的歧义性，而且文献集是由大量不同索引关键词聚集而形成的集合，因此，文献检索极具复杂性，且主要表现在以下方面：首先由同义词汇引起的复杂性体现在：查询词不同、查询目的、文化背景、语言习惯等差异，直接导致运用不同同义词汇表示相同概念。有国外研究表明，词汇运用的不确定性远超出人们现在的想象。以英文为列，两人用相同词汇表达统一概念的概率小于20%33。这大大影响相关文献的检出率。其次单个词汇的多义性。即同一词汇在不同语境表达不同含义。因此仅根据关键词汇判断文献是否与提问词意一致是不够准确的。

30、词汇的歧义现象大大降低了检索的准确性。显然基于传统关键词的匹配算法不能很好处理词汇间的语义性。问题主要表现在以下三个方面：第一：索引词不够完整。这里指的是被用来描述文献内容的词汇缺乏，覆盖面窄。主要有两种可能：一是文献用同义词汇代替查询词汇；二是文献索引词的建立具有偶然性，存在人为删除或者遗漏重点关键词汇的情况。虽然词汇同义性可依靠词汇的智能扩充或者建立同义词表来解决。但由于词表扩充后，仅利于知识面比较丰富的查询者，他们有能力提供更多的检索词。但与此同时，新问题也随之产生了，即新进的词汇必然会增加词汇的歧义性，从而降低检索的准确率。国外有研究表明，无论从海量文献还是从用户的实际使用中将新词汇加

31、入词汇表，在不降低检测准确率的前提下，对检测出结果改善并不明显6。所以，在词表中无限地增加同义词汇集是否可以改进检索效果，仍有待进一步研究。第二：缺乏解决词汇间歧义问题的智能算法。以前常用受控词表和人工转换来确定语义。但该方法效率低，成本高，难以推广。第三：由于需要在海量文献中找出相关需求信息，聚类方法可以提高在各种信息提取中的速度。文献聚类是文献搜索中的研究内容之一，它可以根据数据中的不同特征，按照一定算法，将其划分为不同的数据簇。并且同簇之间相似度大，不同簇之间相似度小。虽然用几个簇代表整个数据集会丢失部分信息，但其抓住了主要信息，有利于用户在海量信息中检索出他们所需要的信息。但在高维向量

32、下的聚类方法不仅耗时，而且聚类质量不佳。基于以上原因，信息检索不仅需要解决词汇歧义以及关键词汇的智能扩充的问题，而且为了突出聚类效果，还需要尽可能地将高维向量映射到低维向量。在此背景下，国外研究人员提出了一种智能型的检索方法潜在语义分析法。这种方法不仅能够消除词汇的多义现象，而且还能对高维向量进行降维处理，是一种实现语义和降维的双重算法。1.2 国内外研究概况1.2.1 国外研究状况国外关于潜在语义分析（LSA）的研究可以追溯到20世纪80年代末。1988年，贝尔通信实验室的Susan TDumais 等多人撰写的Using Latent Semantic Analysis to Impro

33、ve Access to Textual Information（潜在语义分析对文献信息检索效果的改进）是LSA方法早期的研发成果8。该论文发表至今，仍被广泛引用。其中文献9比较全面地阐述潜在语义分析产生背景和基本思路，并对SVD分解做了简要分析，并选择了两个巨型样本进行仿真验证，对传统词汇匹配法，Smart和Voorhees系统法以及潜在语义分析法进行检索效果的比较。文献7该文着重论证了LSA的数学相关原理，解决了词汇-文献矩阵的状态更新，开拓了LSA的实际应用领域。但以上文献都缺乏对检索结果重新分类的研究。1.2.2国内研究现状当前我国主要的中文信息检索研究单位有：中国科学院计算机研究所、

34、清华大学、复旦大学、香港大学、台湾大学，哈尔滨工业大学等。其中北京大学研发的天网搜索引擎已经实现了个性化搜索、专业搜索，以及地域信息等方面的搜索。清华大学的PINS系统和Bookmark系统，借助用户信息以往的搜索习惯，挖掘用户需求信息14。近年来，有关LSA的论文研究也非常丰富。文献23利用LSA对文献分类进行了研究。主要讨论了权重计算、稀疏矩阵、特征选取这三个因素对潜在语义分析的影响。其次对传统模型进行了改进，进一步降低对存储空间的要求。文献2基于潜在语义模型研究了中文问答系统。和传统的问答系统相比，潜在语义系统在人机交互界面以及中文信息处理能力上更有优势。文献5基于潜在语义分析模型的查询

35、语义扩展模型，抛弃了复杂的语法分析，利用语义空间提取语义信息，克服了传统信息检索的弱点，进一步提高了检索性能。文献13将潜在语义分析运用于答疑系统中，并且使用奇异值分解和因子分解两种方法，实现了答疑系统答疑功能和挖掘知识功能。但以上研究都缺乏对搜索结果的后续研究。借助现有的搜索结果，根据用户喜好，检索出用户偏好的文献可能更能凸显LSA的经济价值和实用价值。1.3文献搜索的若干模型介绍尽管查询词的千差万别以及网络信息浩瀚繁多，而且信息获取的途径和方式各不相同，但回顾其检索过程，二者最终还是基于某种算法匹配，最终达到信息检索的目的。这揭示了信息检索的基本原理：检索系统利用某种算法将查询词（集合）与

36、储备数据信息（集合）进行相似度计算，依据相似度大小输出检索信息。1.3.1布尔模型布尔模型2运用布尔逻辑将查询词和文档集建立一种相似度关系。它虽具有简单、容易理解、简洁的形式化等优点，但是随着信息检索理论的进一步研究，布尔模型也面临着一系列挑战，具体有以下方面：（1）基于精确的关键词匹配。布尔模型采用精确的“非此即彼”的二值判断标准，即只有当查询词集以及文献D的索引关键词完全匹配时，才能被检测出。这完全忽略了词汇间的同义和多义现象，使得检索结果不足，容易出现输出结果为零的现象。而且，最终的相似函数结果也只有0和1的二值判断标准，缺乏对查询结果相关性检索，无法满足人们对相关知识搜索的需求。（

37、2）由于布尔检索模型没有对索引词汇进行加权处理，它无法对检索的最终结果进行排序。当最终检索输出结果过大时，查询者不能依据输出结果快速检测自己所求信息。1.3.2概率模型就本质而言，信息检索是处理随机事件的过程。概率模型2利用这种不确定性，首先对每个检索词赋予不同权值，表示索引词在相关文献和不相关文献中出现的概率。然后计算查询词与随机文献之间的相似度概率。其检索过程吸收了相关反馈信息，不断逼近目标检索文献，并最终确定检索信息。但其检索方式也存在一定的局限性。如关键词权重取值为0，1，各种参数估计难度较大，并且索引词之间相互独立的假设不一定成立等。1.3.3向量模型 VSM模型4将查询关键词和文

38、献映射成一个同维数向量，通过计算两向量间的余弦相似度，进而检索出相关文献。算法首先建立索引关键词集K=k1,k2.,kt,文献集D=d1,d2,dj，查询词集为q。分别依据t个关键词将q和di投影到t维向量空间上，并将投影向量分别记为和Dj。然后对和Dj做余弦值运算，得到它们之间的相似关系，根据其值大小，输出相似文献。这种方式能够将无结构的文字转化为有数学背景的向量结构，进而借助数学的算法求解文献和查询词之间的相似度。实践证明，此算法优于布尔模型和概率模型。但由于其仅仅利用关键词的频率，并假定每个索引词之间相互独立，忽略的一词多义和多词一意，使得查询结果不尽人意。1.3.4潜在语义模型潜在语义

39、分析法4将文献看作是由若干相关词汇根据一定顺序组合而成的语义集合。认为文献和词汇之间必存在某种联系是该法的基本出发点。它借助数学原理及计算机技术对这个结构进行处理，保留文献与词汇之间的主要信息，去除其它庞大而冗余的次要信息，以达到对该结构优化的目的，最终形成语义结构。这与原始文献词汇结构相比，不仅规模减小，而且还能保留其主干信息，进而挖掘出文献与词汇的潜在关系。运用数学相关算法，就能在该简化的语义空间里找出与查询词相关联的文献信息。用词频统计算法对原始n篇文献，m个词汇统计，并建立m行n列的巨型词汇-文献矩阵A= (wij) mn。行向量表示同一词汇在不同文献中出现的频数；列向量表示同一文献中

40、不同词汇出现的频数。其中，表示关键词在文献中出现的频数。潜在语义分析法是采用矩阵分解理论中的奇异值分解法，将巨型词汇-文献矩阵分解成三个矩阵的乘积。由于此时分解后的三个矩阵规模太大，造成储存不变以及主要信息不明显等弊端，降维处理是克服该弊端的有效做法。如何选择降维方法是一个关键问题，有文献依据分解后的奇异值呈递减特性，利用末尾非零奇异值平方和小于给定阈值，以达到剔除较小奇异值进而对矩阵降维目的，即。但此法没有考虑奇异值的变化率，奇异值变化率强度直接影响中奇异值分布，进而对分解后三个矩阵的乘积影响巨大，最终影响原始矩阵。因此，奇异值变化率的研究可以进一步提高降维的可靠性，并且显然对提升潜在语义结

41、构至关重要。1.4本文主要研究内容基于上述分析，可以看出，潜在语义分析在文献检索中最具语义特性，更能搜索出内容和查询词集一致的相关文献。本文将从以下几个方面，对现有潜在语义分解法做尝试改进研究。首先依据原始查询词集，获取相关文献集和扩展关键词集。根据原始查询词集获得相关文献,并且根据同一关键词在不同文献中出现的词频进行阈值处理，获得一级高质量扩展关键词集。由不停地做循环搜索，进而获得2级，3级，n级扩展关键词集以及相关文献集，建立词汇-文本矩阵。其次从理论上论证了词汇-文本矩阵经过分解成乘积后，三个矩阵对的作用。即对的行作用大，对的列作用大，对的行列作用都大，起到连接，的作用。再次针对分解后的

42、三个矩阵进行降维处理。考虑到中奇异值增量突变特性，故考虑阈值的选取由原来的，改为，其优点在于充分利用奇异值突变特性，将突变率大的奇异值作为截取点，与原来相比，克服了对奇异值突变特性挖掘的不足。因此，本文利用对角矩阵S中奇异值变化率改变的特点进行阈值K的选择，并对进行阈值K的压缩处理，最终得到降维矩阵的乘积。从而优化语义空间。对于相似度计算的问题，考虑到欧氏距离范围在0到，范围过大，改为余弦相似系数，使得相似范围在到。而且据文献2知，IBM公司的Intelligent Miner for Text产品是目前最佳的数据采集工具，并且获得Data Mining读者奖，其核心技术采用余弦相似系数作为不

43、同文本之间的相似距离。故本文按照余弦相似度建立评价函数，对优化后的文献矩阵中列向量进行k均值聚类，形成k个簇。然后根据用户偏好选取适当的扩展关键词集对聚类后的k个簇内中心点进行余弦相似度计算，最终根据需求选择相似度符合要求的簇内中心文献，并且依次对选定的簇内各元素进行余弦相似计算，最终根据相似度大小输出文献。为了验证本文方法的有效性，对分别以“模糊控制”和“房地产”为原始查询词集做了实测分析。检索结果表明，该方法能有效区分分别以“模糊控制”和“房地产”为关键词的文献，而且能通过语义分析，挖掘出即使不含“模糊控制”以及“房地产”关键词，但主要内容和“模糊控制”和“房地产”一致的相似文献。1.5本

44、文结构安排第一章：主要介绍文献检索研究的背景和意义，以及关于潜在语义检索的国内外研究状况，最后着重介绍了文献检索的主要三种检索模型。第二章：主要介绍了潜在语义分析的数学原理，以及对英文小文献集运用潜在语义分析进行检索实验。第三章：主要介绍了基于改进的K均值聚类潜在语义分析算法。第四章：主要运用matlab工具对中文样本进行实例分析，验证理科结构的科学性和可行性。最后总结全文，并对下一步的可行性研究做出展望。第2章 SVD分解的数学理论基础及应用矩阵论中的奇异值分解（Singular Value Decomposition,缩写形式为SVD）是潜在语义分析中的关键技术。为了本文完备性，本章对有关概念和结论做简要介绍。2.1奇异值的分解理论引理1

展开阅读全文