《面向中文的文本相似度计算方法研究.doc》由会员分享,可在线阅读,更多相关《面向中文的文本相似度计算方法研究.doc(2页珍藏版)》请在三一办公上搜索。
1、面向中文的文本相似度计算方法研究马军红(西安外事学院工学院,陕西 西安 710077)【摘要】本文对中文信息处理中的文本相似度计算方法进行了研究和比较,提出了分词和特证词计算的关键算法。在相似度计算中,利用各个特征在特征提取时的权值,对TF-IDF算法做了改进。【关键词】文本相似度计算;向量空间模型;词频一逆文档频率法引言随着计算机技术和网络技术的不断发 展,信息量成倍增加,在这些信息中,大 部分是非结构化或半结构化的文本信息。 文本相似度是表示两个或多个文本之间匹 配程度的一个度量参数,对于文本分类、 文本聚类、信息检索等多个领域,文本相似 度的有效计算都是进行信息处理的关键。目 前,有多种
2、文本相似度模型被提出并在特 定的领域中得到广泛应用,但大多是根据 具体应用的特点,凭借经验性知识来构造 的,具有对文档特性拟合的不完全性,缺 乏完整的理论依据。1.向量空间模型VSM1.1 基本思想 所谓文本相似度计算是指利用计算机自动计算文本间的相似度,可以采用相似 系数、相似距离等尺度进行衡量,常常表 现为相似度计算的公式或者模型。其中最成 熟和常用的模型是基于统计学理论的VSM。 其基本思想是:假设词与词之间是不相关 的,以向量来表示文本,使得模型具备了 可计算性。在VSM中,将文档看成是由相互独立的 词条组(T1,T2,T3,Tn)构成,对于每 一个词条T,根据其在文档的重要程度赋 予
3、一定权值W,并将(T1,T2,T3,Tn) 看成是一个n维坐标系中的坐标轴,(w1, w2,w3,wn)为对应的坐标值。这样由 (T1,T2,T3,Tn)分解得到的正交词条 矢量组就构成了一个文档向量空间。计算相似度的函数式中常用余弦函数,它将相似度定义为:Wtd=TFtd IDFt(2)其中xk,yk分别表示文本w1对应的码字M1和文本w2对应的码字M2中第k位的分 量,要么为0要么为1,+就是模2加运算。2.3 优缺点分析 与其它的文本相似度计算方法相比,该方法只是利用模2加等运算,完全避开 了在欧氏空间中求相似度的大量乘法运算, 因此计算速度较快;其次,它跳出了传统 的借用空间的理念,而
4、是用码字的方法来 表征文本信息的特征,可以不仅限于关键 字等孤立的信息,这为联合的描述文本的 信息提供了可能。基于汉明距离的计算方 法通常被用于句子的快速模糊匹配领域, 但它是以字为基本计算单位,而在中文中 单个字往往不具备意义。如何提取文本的 信息特征并排成与文本一一对应的码字集 合,是运用该方法的关键和难点,需要进 一步的研究。此外还有其它文本相似度计算方法, 对于中文处理都有或多或少的不足,这里 不再介绍。3.改进的TF-DF算法:基于统计的算法适合大规模的文本集 合,为了不增加系统开销,本文提出将特 征项在特征选择阶段的权重应用到要计算 相似度的文档集合中。改进的TF-IDF算法 如下
5、:其中:Wtd表示该特征项在文档中的重要程度;TFtd指特征项在文档d中出现的次 数。IDF反映特征项在整个文档集合中的 分布情况,在一定程度上体现了该特征项 的区分能力;TF反映特征项在文档内部的 分布情况。此算法可以排除那些高频、低区 分度的词,是一种有效的权重定义方法。1.3 优缺点分析对于一般的文本相似度计算方法,首 先是利用训练集进行特征词选择,然后再根 据已选择的特征对文档集进行统计,前后的 工作是分离的,也就是说,前期的特征一旦 被选中,在后期对文档进行词频统计时,它 们的地位相同。另外,无论是DF特征选择, 还是TF-IDF都是基于词频统计的,所以比较 适用于大规模文本计算。T
6、F-IDF方法只考虑 了词在上下文中的统计特性,而没有考虑词 本身的语义信息,具有一定的局限性。2.隐性语义标引LSI2.1 基本思想隐性语义标引LSI (LatentSemanticIndexing )的工作原理是利用矩阵理论中的“奇异值分解(SVD)”技术,将词频矩 阵转化为奇异矩阵,通过标准化的内积计算 来计算向量之间的夹角余弦相似度。概念向 量之间使用内积的夹角余弦相似度计算比原 来基于原文本向量的相似度计算更可靠, LSI的缺点在于它的效果依赖于上下文信 息,过于稀疏的语料不能很好的体现其潜 在的语义。2.2 基于汉明距离的文本相似度计算方法基于汉明距离的文本相似度计算方 法借助编码
7、理论中汉明距离的概念,来计 算文本的相似度。在信息论中,汉明距离 是一个基本的概念,它是描述两个n长码 字x=(x1 x2xkxn)与y=(y1 y2yk yn) 之间的距离。首先确定文本集对应的码字 集,对于不同的文本,设M1=(x1 x2xkWtd=WtTFtdIDFt(3-1)其中:Wt表示特征项t在训练集中的权重,其大小应根据具体情况进行调整。4.结束语用计算机来实现自然语言理解,中文 比英文具有更大的困难,中文文本的相似 度计算难度更大,计算相当复杂,很难找到 一种万能且高效的计算方法,需要我们在实 践中不断地去探索、发现并逐步完善。S(Di,Dj)=(1)Di为文献集合中的第i篇文
8、献。这种方法的实质就是计算m维空间中文献向量之间 的夹角余弦。1.2 基于VSM的TF-IDF方法TF-IDF方法综合考虑了不同的词在所 有文本中的出现频率(TF值)和这个词对不 同文本的分辨能力(IDF值),被广泛用于参考文献1郑家恒等.中文分词中歧义切分处理策略J.山西大学学报(自然科学版),2007.2Pantel Patrick,Lin Dekang.A statistical corpus-based term extractorZ.Apr 2001,Ottawa,Canada,2001. 3宋玲等.文档相似度综合计算研究J.计算机工程与应 用,2006.xn),M2=(yl y2y
9、kyn),则M1和M2之间的相似度计算公式为:Sim(M ,M )=1- ()/ n (4)file:/D|/我的资料/Desktop/新建文本文档.txtAppliance Error (configuration_error)Your request could not be processed because of a configuration error: Could not connect to LDAP server.For assistance, contact your network support team.file:/D|/我的资料/Desktop/新建文本文档.txt2012-07-12 20:42:52