面向中文的文本相似度计算方法研究.doc

资源描述

《面向中文的文本相似度计算方法研究.doc》由会员分享，可在线阅读，更多相关《面向中文的文本相似度计算方法研究.doc（2页珍藏版）》请在三一办公上搜索。

1、面向中文的文本相似度计算方法研究马军红（西安外事学院工学院，陕西西安 710077）【摘要】本文对中文信息处理中的文本相似度计算方法进行了研究和比较，提出了分词和特证词计算的关键算法。在相似度计算中，利用各个特征在特征提取时的权值，对TF-IDF算法做了改进。【关键词】文本相似度计算；向量空间模型；词频一逆文档频率法引言随着计算机技术和网络技术的不断发展，信息量成倍增加，在这些信息中，大部分是非结构化或半结构化的文本信息。文本相似度是表示两个或多个文本之间匹配程度的一个度量参数，对于文本分类、文本聚类、信息检索等多个领域，文本相似度的有效计算都是进行信息处理的关键。目前，有多种

2、文本相似度模型被提出并在特定的领域中得到广泛应用，但大多是根据具体应用的特点，凭借经验性知识来构造的，具有对文档特性拟合的不完全性，缺乏完整的理论依据。1.向量空间模型VSM1.1 基本思想所谓文本相似度计算是指利用计算机自动计算文本间的相似度，可以采用相似系数、相似距离等尺度进行衡量，常常表现为相似度计算的公式或者模型。其中最成熟和常用的模型是基于统计学理论的VSM。其基本思想是：假设词与词之间是不相关的，以向量来表示文本，使得模型具备了可计算性。在VSM中，将文档看成是由相互独立的词条组(T1，T2，T3，Tn)构成，对于每一个词条T，根据其在文档的重要程度赋予

3、一定权值W，并将(T1，T2，T3，Tn) 看成是一个n维坐标系中的坐标轴，(w1， w2，w3，wn)为对应的坐标值。这样由 (T1，T2，T3，Tn)分解得到的正交词条矢量组就构成了一个文档向量空间。计算相似度的函数式中常用余弦函数，它将相似度定义为：Wtd=TFtd IDFt（2）其中xk，yk分别表示文本w1对应的码字M1和文本w2对应的码字M2中第k位的分量，要么为0要么为1,+就是模2加运算。2.3 优缺点分析与其它的文本相似度计算方法相比，该方法只是利用模2加等运算，完全避开了在欧氏空间中求相似度的大量乘法运算，因此计算速度较快；其次，它跳出了传统的借用空间的理念，而

4、是用码字的方法来表征文本信息的特征，可以不仅限于关键字等孤立的信息，这为联合的描述文本的信息提供了可能。基于汉明距离的计算方法通常被用于句子的快速模糊匹配领域，但它是以字为基本计算单位，而在中文中单个字往往不具备意义。如何提取文本的信息特征并排成与文本一一对应的码字集合，是运用该方法的关键和难点，需要进一步的研究。此外还有其它文本相似度计算方法，对于中文处理都有或多或少的不足，这里不再介绍。3.改进的TF-DF算法：基于统计的算法适合大规模的文本集合，为了不增加系统开销，本文提出将特征项在特征选择阶段的权重应用到要计算相似度的文档集合中。改进的TF-IDF算法如下

5、：其中：Wtd表示该特征项在文档中的重要程度；TFtd指特征项在文档d中出现的次数。IDF反映特征项在整个文档集合中的分布情况，在一定程度上体现了该特征项的区分能力；TF反映特征项在文档内部的分布情况。此算法可以排除那些高频、低区分度的词，是一种有效的权重定义方法。1.3 优缺点分析对于一般的文本相似度计算方法，首先是利用训练集进行特征词选择，然后再根据已选择的特征对文档集进行统计，前后的工作是分离的，也就是说，前期的特征一旦被选中，在后期对文档进行词频统计时，它们的地位相同。另外，无论是DF特征选择，还是TF-IDF都是基于词频统计的，所以比较适用于大规模文本计算。T

6、F-IDF方法只考虑了词在上下文中的统计特性，而没有考虑词本身的语义信息，具有一定的局限性。2.隐性语义标引LSI2.1 基本思想隐性语义标引LSI (LatentSemanticIndexing )的工作原理是利用矩阵理论中的“奇异值分解(SVD)”技术，将词频矩阵转化为奇异矩阵,通过标准化的内积计算来计算向量之间的夹角余弦相似度。概念向量之间使用内积的夹角余弦相似度计算比原来基于原文本向量的相似度计算更可靠， LSI的缺点在于它的效果依赖于上下文信息，过于稀疏的语料不能很好的体现其潜在的语义。2.2 基于汉明距离的文本相似度计算方法基于汉明距离的文本相似度计算方法借助编码

7、理论中汉明距离的概念，来计算文本的相似度。在信息论中，汉明距离是一个基本的概念，它是描述两个n长码字x=(x1 x2xkxn)与y=(y1 y2yk yn) 之间的距离。首先确定文本集对应的码字集，对于不同的文本，设M1=（x1 x2xkWtd=WtTFtdIDFt（3-1）其中：Wt表示特征项t在训练集中的权重，其大小应根据具体情况进行调整。4.结束语用计算机来实现自然语言理解，中文比英文具有更大的困难，中文文本的相似度计算难度更大，计算相当复杂，很难找到一种万能且高效的计算方法，需要我们在实践中不断地去探索、发现并逐步完善。S（Di，Dj）=（1）Di为文献集合中的第i篇文

8、献。这种方法的实质就是计算m维空间中文献向量之间的夹角余弦。1.2 基于VSM的TF-IDF方法TF-IDF方法综合考虑了不同的词在所有文本中的出现频率(TF值)和这个词对不同文本的分辨能力(IDF值)，被广泛用于参考文献1郑家恒等.中文分词中歧义切分处理策略J.山西大学学报(自然科学版),2007.2Pantel Patrick,Lin Dekang.A statistical corpus-based term extractorZ.Apr 2001,Ottawa,Canada,2001. 3宋玲等.文档相似度综合计算研究J.计算机工程与应用,2006.xn),M2=(yl y2y

9、kyn)，则M1和M2之间的相似度计算公式为：Sim(M ,M )=1- ()/ n （4）file:/D|/我的资料/Desktop/新建文本文档.txtAppliance Error (configuration_error)Your request could not be processed because of a configuration error: Could not connect to LDAP server.For assistance, contact your network support team.file:/D|/我的资料/Desktop/新建文本文档.txt2012-07-12 20:42:52

展开阅读全文