《语场近似词的统计学习挖掘.doc》由会员分享,可在线阅读,更多相关《语场近似词的统计学习挖掘.doc(6页珍藏版)》请在三一办公上搜索。
1、精品论文语场近似词的统计学习挖掘周燎明,刘瑞芳(北京邮电大学信息与通信工程学院,北京市 100876)5摘要:针对自然语言处理领域的同义词问题,本文提出一种基于语场近似词进行识别的方法。 该方法立足于语场近似词的某些特点:有共同的语法地位,并且在高层次的语义单元上具有 强相关性的词语。本文采用半监督的统计学习方法从文本集中挖掘出语场近似词。实验结果 表明,半监督的统计学习方法能够有效识别文本中的语场近似词。 关键词:统计学习;自然语言处理;信息增益10中图分类号:TP273Field Approximate Word Mining Based on StatisticalKnowledgeZh
2、ou Liaoming, Liu Ruifang15(School of Information and Communication Engineering, Beijing University of Posts andTelecommunications, Beijing 100876)Abstract: To solving the synonyms problem of natural language process, this paper proposed a method based on approximate words. This method is based on th
3、e characteristics of approximate words which have a common grammatical status and has a strong correlation on the high-level semantic unit. In this20paper, a semi-supervised statistical learning method is used to mining the approximate words from text.Experimental results show that the semi-supervis
4、ed statistical learning method could effectively identify the approximate words from text.Key words: statistical knowledge; natural language process; information gain250引言自二十世纪末开始,互联网经历了爆炸式的发展。它包含海量的网络信息,其中文本形 式的信息占据着主要地位。如何在浩如烟海的原始信息中挖掘出所需要的信息始终是一个热 点问题。它激发了信息检索学科的飞速发展。在该领域,基于向量空间的检索模型1得到了 广泛的应用。这种
5、文本表示方法能方便应用到多种数据挖掘领域中。在信息检索领域,它将30查询串与文档转换为同一个向量空间,从而可以使用相似性测度如:余弦相似度进行打分, 并且可以根据词的权重,对向量的不同维度赋予不同的权重。但向量空间模型的表示方法不 能够处理自然语言处理中的两个关键问题:即同义词问题和一词多义问题。针对那些多义词 与同义词的查询请求,检索返回的结果有进一步提高的空间。现有研究表明,面对自然语言处理中的多义词与同义词问题,一种可行的策略是将大量35同义词通过某种算法归并为一个核心关键词,它高度概括了这批同义词的共同语义部分,并 且具有不随时间、文档领域等因素而发生概念漂移的特点。 本文围绕语场近似
6、词问题展开研究工作。语场近似词有如下特征:多个词组成的集合;它们有相同的语法地位;并且在高层次的语义单元上具有强相关性。在本文范围内,同义词属于 语场近似词的一种,因为同义词中的那些词均可以应用于一句话的相同语法结构中,即具有作者简介:周燎明(1988-),男,硕士在读,情感分析通信联系人:刘瑞芳(1972-),女,副教授,IP 网络性能和网络应用. E-mail: lrf- 6 -40相同的语法地位,而且在词本身的语义上具有强相关性。语场近似词识别问题与潜在语义分析(Latent Semantic Analysis, LSA)等算法自下到上的思路相反,它被描述成:给定一个词, 首先找到以它为
7、中心的候选语场近似词词团,再从候选词团中挑选出与该词意义最相近的若 干个词组成语场近似词词团。语场近似词对于向量空间模型应用中的近义词问题,是一种全 新的解决思路。通过进一步研究发现,语场近似词对情感倾向性分析工作也有一定的现实意45义:通过找出已知情感词的语场近似词,能有效的拓展出这个情感词的大量类似情感词集, 进而有效提高情感词的召回率,并且能在一定程度上解决新生情感词的识别问题。1国内外研究现状国外自然语言处理领域,同义词归并方面,隐性语义分析(latent semantic analysis, LSA) 就是它的代表性算法,LSA 通过对词-文档矩阵进行奇异值分解(singular v
8、alue decomposition,50SVD),得到词-文档矩阵的低阶近似,同时将查询映射到这个低阶的表示空间,再用向量 空间模型进行相似度计算1。LSA 在信息检索任务中取得了比向量空间模型更优的结果。因 此,通过提前识别文本中的相似词,进而将其应用到检索等领域,不失为对同义词问题的一 种解决办法。围绕近义词的识别问题2,较早的研究工作主要有基于点互信息(point-wise mutual information, PMI)和检索系统的大规模文本的近似词的识别,它应用大规模语料库学55习得到词之间的互信息,再按权重筛选出结果。基于 LSA 的近似词的识别也有相关研究。 通过对比发现,在近
9、似词的识别中,更简单的 PMI 算法比 LSA 在准确度上高出了十多个百 分点。在中文自然语言处理中,基于统计知识的近义词的研究工作在相关领域主要还在探索阶 段。已有的研究工作主要围绕如何应用 LSA 等模型消除文档表示中的近义词问题,即将近60义词问题归一到某个核心词,用于优化向量空间模型的特征维度。概念层次网络(hierarchicalnetwork of concepts, HNC)是自然语言处理领域比较独特的派别之一。它是一个以语义表达 为基础的,融合语义、语法与语用为一体的自然语言理解的理论体系3。它尝试以有限数量 的概念基元来表达无限数量的概念实例,并描述语言概念空间,再通过自然语
10、言空间向语言 概念空间的映射,实现对自然语言的描述3。近义词具有以下特点:在词语的主要意义上相65同,但不一定在所有意义都相同的词的集合。而在 HNC 层次中,近义词为一类概念基元。 对该模型在近似词方面已有一些研究工作,比如应用 HNC 进行相似词聚类4。本文基于语场近似词上下文的相似度假设,提出一种基于词激活力(word active force, WAF)5与信息增益的相似词聚类算法。它本质上是一种无监督的机器学习算法。词激活力 模型通过计算基于某个中心词的邻接词与该中心词之间的同现频率,挖掘出词之间的近似程70度值与紧密程度值。信息增益用于度量类别与词之间的相关性。本文的研究表明,这种
11、策略 在近义词的挖掘上有探索的价值。2词激活力模型与信息增益信息增益 (Information Gain, IG)是从熵派生出来的测度。熵用来描述随机量 X 的 变化程度, 记作 H(X)。它可以从两个维度进行描述:不确定性(即随机量自身的取值范围)、75描述能力(即随机量的取值能映射为另一个随机量的某种唯一状态的能力)。熵的定义如下:nH(X ) =t =1 p(xi ) *logp(xi )(1)精品论文信息增益度量类别中的某个特征的取值对该类别出现的贡献程度,它同时考虑了该特征出现与不出现的情况,记作 IG(t)。 信息增益的计算公式如下:IG(t) =H(C ) H(C t)(2)80
12、其中,H(Ct) =np(x ) *ii = 1t T ,T np( Cit)log p(Ci t) .词激活力模型(word active force, WAF)是国内最新提出的一种表征文本中词之间的关 系的统计学习模型。模型是一种度量文本集中词关系的新算法,是一种基于某个词窗内的上 下文词关系描绘出的词网络。以单词“科学”为例,通过分析语料集的上下文可以发现,它的 前驱词窗中的词分布更均匀一些,比如有“数学”、“前沿”、“进行”等词出现在其前驱词窗中,85而其后继词窗中的词分布则更集中一些,比如有“技术”、“研究”、“知识”、“方法”、“期刊” 等5;正是这些在“科学”的前驱词窗中与后继词
13、窗中出现的高频词描述出“科学”在文本应用 中的特征集,WAF 对这种描述进行了很好的建模。词激活力模型主要的组成有:词之间在给定距离以内的有向共现词频率,词之间的激活 力 WAF 矩阵,词之间的亲近度值(affinity,A)矩阵。90词之间的激活力矩阵按如下规则生成:对于词和词,设 Vi 是词 i 在文档中的频数,Vj 是词 j 在文档集中的频数,Vi,j 是在文档集中词 j 在词 i 之前给定的距离内出现的的频数,Vj,i 是文档集中词 j 在词 i 之后给定的距离内出现的频数,词 i 与词 j 之间的平均距离为di,j (用词的个数表示),则词 i 对词 j 的激活力值 Wafi,j 为
14、:Vi,jViVi,j*VjWAFi,j=(3)di,j95100由上式可知,词激活力体现了前后两个相邻词之间在两者的全局邻接词中的有序共现程 度。由于 Vi,j 与 Vj,i 不能保证相等,所以词激活力矩阵是以全部有效词集作维度,组成的非对称矩阵。整个矩阵可以看作一个有向网络,对于第 i 个词,矩阵的第 i 行对应该词的出链词信息,矩阵的第 i 列对应该词的入链词信息。需要说明的是,每个词的入链词信息和出链 词信息都是强长尾分布。不能按矩阵的某一行或某一列进行加总归一化。亲近度矩阵(A 矩阵)是在词激活力的基础上生成的。生成公式如下:1Ai,j = K1OR(WAFk,i,WAFk,j )*
15、 NOR(WAFi,n ,WAFj,n )0.5(4)i,jkKi,ji,jnLi,j其中,OR(x,y ) = min(x,y )max(x,y ), 约定词 1 对应下标 i,词 2 对应下标 j,体现了词 1 或词 2 在105其入链词或出链词之间的激活力大小的差异程度。Ki,j 指词 1 和词 2 的入链词信息的交集。 Li,j 指词 1 和词 2 的出链词信息的交集。并有对应的工具实现:(Word Active Force Toolset, WAFT)6。在语场相似词的识别中,本文提出一种基于上下文相似性测度作为词与词之间相似程度 的衡量标准。上下文相似性测度包含两个方面:首先,对于
16、给定的预处理好的文档,基于精品论文110115WAF 信息,挑选出来部分可能包含同义词的词作为种子词,以它的上下文为线索,找出所有可能的与其相近的近义词。其次,用信息增益作为向量的维度,表达出词在共同的意义空 间中的特征分布。3基于词激活力与信息增益的聚类算法信息增益能很好的度量两个事件之间的相关性。本文将其应用于语场近似词的筛选上。 在开展词的语场相似词聚类之前,需要从海量文本中抽取出基本语义场,并对候选的语场相 似词进行适当的过滤。研究表明,汉语的语法特征是以意义为基础、以语序以及虚词的运用 为主要语法手段、以音律为辅助语法手段的7。为了挖掘出尽可能多的有效汉语意义单元, 本文预先收集了若
17、干个汉语的基本意义结构所对应的词性组合模式。具体组合模式见表 1.表 1 汉语基本意义结构的词性组合8Tab.1 Chinese POS Combination of Basic Meaning Structure120125130135说明:N 指名词类词性,V 指动词,A 指形容词,符号|指左右之间为“或者”的关系,符号?词性模式修饰成分被修饰成分样例N+ANA作品/n 优秀/aV+A A+(的|地)?+NA+的|地+VV+得+A N+VV N V V NA A A A V动作/v 漂亮/a 光滑/a 的/u 外表/n 优雅/a 地/u 展开/v 速度/v 快/a电脑/n 卡/v指代括号中
18、的模式出现 0 或 1 次。 基于词性组合,对每个词计算出它的信息增益。之后,基于词激活力工具,通过 WAF算法得到 WAF 矩阵。对每个按 WAF 的分值大小排序的词,以它的上下文词语场中有代表性的词为依据,识别出那些有相近意义的词,形成候选的语场近似词词团。对词团中的每个 词,基于信息增益进行局域小词团的语法相似度计算。基于相似度阀值过滤得到最终的语场 近似词词团。算法的流程如下:1) 应用汉语基本意义结构从文本集中抽取若干有意义的语义片段,对每个词计算其相 对于基本意义结构的信息增益。2) 基于 WAFT,将特定词性的词集合(T)生成 WAF 矩阵。3) 对 T 中的每一个词,按其在 W
19、AF 矩阵中的分值排序,以它的上下文为线索,找出 那些有类似上下文的候选语场近似词词团。对每个语场近似词词团,执行第四、五 步操作。4) 对每个语场近似词词团,按它对基本意义结构的信息增益形成特征向量,再应用聚 类算法得到若干个子类,形成小词团。5) 计算每个小词团的归一化平均相似度分值,小于阀值则被滤除,剩下的词团即为当 前种子词得到的语场近似词。1401451504结论本文的研究工作基于半监督的学习算法展开。首先应用少量的规则抽取词语,并对每个 词生成这些规则上的信息增益。在生成最终的结果时,应用了聚类算法。最终结果为按相似 度排序的语场近似词词团。整个流程可以类比为用某个词去搜索引擎中检
20、索出一序列用词表 述的有序文档的过程。聚类问题的典型目标函数是将簇内的高相似度及簇间的低相似度为目标进行优化 后得到的一个函数1。这是聚类质量的一个内部准则。然而,内部准则得到的高分并不意味 着应用中的效果就一定好,在实际应用中,也要根据具体的需求进行评价。衡量聚类质量的 外部准则常有以下几种:纯度,归一化互信息,兰德指数,F 值等。无序检索结果的评价方 法中常用的有:正确率、召回率和 F 值。有序检索结果的评价方法中常用的有:正确率-召 回率曲线,平均正确率均值、前 K 个结果的正确率(precision at K, Pk),累积增益。本 文的研究工作本质上是一个信息检索的任务,同时考虑到语
21、场近似词具有易混淆的特征,参 考 PK 进行评测;研究中进一步发现,对于给定的 K 值,在最终结果中,每个种子词最终 得到的结果不一定有 K 个子词团被保留下来,最终采用修正的 PK 作为测验指标。表 2 语场近似词的 PK 结果Tab.2 The PK Result of Field Approximate Word分值的阀值P1P2P3P4P50.10.82%0.62%0.37%0.32%0.23%0.21.55%1.13%0.76%0.78%0.55%0.35.01%3.59%2.47%2.03%1.35%0.410.35%6.01%3.32%3.19%2.85%0.523.69%15.
22、48%7.83%6.52%3.34%0.639.40%23.88%10.61%9.62%5.56%0.745.29%25.91%13.46%14.87%10.22%0.857.30%35.91%25.73%27.29%17.83%0.965.82%54.38%47.80%41.28%33.42%1.066.48%63.25%60.87%46.91%35.79%其中,分值的阀值是作用于最终得到的小词团的归一化平均相似度的阀值;PK 指:通过每个种子词得到的语境相似词词团,根据阀值过滤后的结果,从其中最多取前 K 个词团进 行人工评测得到的正确率。155160165170175图 1 语场近似词的
23、 PK 结果的分布特征Fig.1 The Distribution Character of Field Approximate Words PK Result从上图中可知,随着聚类分值的阀值的增加,准确率有所提升;随着 K 的增加,准确 率有所下降。当聚类分值的阀值接近 1 时,PK 的值开始趋于平缓。这种现象在 P1 中最 明显,通过对结果的观察发现,总是有少量语义无关而上下文词语很相似的词在相似度上有 非常高的分值。如:“中关村”、“北四环”与“北京”之间的相似度聚类分值就为 1,很 明显,它们对于语场近似词的条件不是很符合。对这个问题有待展开进一步研究。本文就自然语言处理中的同义词问题
24、,提出一种基于半监督的统计学习方法,进行语场 近似词词团生成。并探索了 WAF 模型的应用,获得一定成效,在后续的科学研究工作中需 要就该模型的应用场景展开更深入的研究,将它应用到更广阔的研究领域中,去解决更多的 现实问题。整个研究工作是对同义词问题的一种有益探索.参考文献 (References)1 Christopher D., Prabhakar R., Hinrich S. Introduction to Information RetrievalM. London:CambridgeUniversity Press, 2008.2 P Turney. Mining the Web f
25、or Synonyms:PMI-IR Versus LSA on TOEFLA. NRC-CNRC. EMCLC. London:Springer-Verlag, 2001. 491-502.3 朱倩, 史燕, 程显毅等. 基于 HNC 词的聚类J. 郑州大学学报(理学版), 2009, 41(2):44-47.4 Guo J, Guo H, Wang Z. An Activation Force-based Affinity Measure for Analyzing Complex NetworksJ. Sci.Rep,2011,1:11;DOI:10.1038/srep00113.5 张永田. Word Activation Force ToolsetR. 北京:北京邮电大学,2011. Available at 6 董振东, 董强, 郝长伶. 知网的理论发现J. 中文信息学报. 2007, 21(4):3-9. 7 苗传江. HNC(概念层次网络)理论引导M. 北京:清华大学出版社, 2005.8 许洪波等. 第三届中文倾向性分析评测技术报告R. 山东:第三届中文倾向性分析评测会议,2011.