搜索引擎日志中“N+V”型短语分析.doc

资源描述

《搜索引擎日志中“N+V”型短语分析.doc》由会员分享，可在线阅读，更多相关《搜索引擎日志中“N+V”型短语分析.doc（5页珍藏版）》请在三一办公上搜索。

1、搜索引擎日志中“N+V”型短语分析摘要句法分析是自然语言处理中的一个难点和重点。基于搜狗日志语料，提出一种用层叠条件随机场模型实现搜索引擎日志中“N+V”型短语分析的方法。将短语分析分为两个阶段：“N+V”型短语内部结构分析和外部功能分析。这为 “N+N+V”型短语和“N+V+V”型短语等外显型歧义结构的消歧提供了解决方法，从而为搜索引擎用短语词典构建提供基础研究服务。关键词 “N+V”型短语内部结构 “N+V”型短语外部功能层叠条件随机场模型中图分类号 TP391 文献标识码 A Phrase Parsing of “N+V” Structure in Search Engine Qu

2、ery LogsAbstract Syntactic parsing is an important and difficult problem in natural language processing.Based on Sogou log corpus,this paper presents an approach which realizes phrase parsing of“N+V”structure,adopting cascaded conditional random fields model. Phrase parsing is divided into two stage

3、s:internal structure parsing and external function type of the phrase of “N+V”structure. The method proposes a solution to the problem of the phrase structure ambiguities of explicit type,and provides basic service for the construction of phrase dictionary which is used by search engine.Keywords Int

4、ernal Structure Parsing of the Phrase of “N+V” Structure External Function Type of the Phrase of “N+V”Structure Cascaded Conditiona Random Fields Model0 引言收稿日期: 2012-02-15，国家社会科学基金资助项目（09CYY021）；赵红改（1981-），女（汉族），河南内乡人，北京信息科技大学中文信息处理研究中心，在读硕士，中文信息和多媒体处理；吕学强，博士，中文信息处理；肖诗斌，高级工程师，中文信息处理句法分析是在自然语言处理中起着举

5、足轻重的作用，在机器翻译、自动问答和自动标引等领域有着广泛的应用。但是，它的研究和发展比较缓慢。目前短语通常采用“分而治之”的原则，降低完全句法分析的难度，进行部分的句法分析，而对于短语的分析使其重要部分之一1。文献2探讨了汉语中基于短语的语法分析方法的优势，指出单独的短语分析和提取在汉语的句法分析中有重要地位。基于以上理论，本文对搜索引擎日志中“N+V”型短语进行内部结构和外部功能的分析，为“N+N+V”型短语和“N+V+V”型短语等外显型歧义结构2的消歧提供了解决方法，从而为完全句法分析打下基础，为搜索引擎用短语词典构建3提供基础研究服务。短语分析主要分为基于规则的和基于统计的两种。文献4

6、指出现代汉语中，对短语的分类一般采用下面两种分类标准：内部结构；外部功能。按照内部结构，可分为：定中短语、状中短语、主谓短语、述宾短语等；而按外部功能，则一般分为名词短语、动词短语、主谓短语、形容词短语等。文献5以1998年半年人民日报语料，对常用的组合歧义字段，通过建立以歧义字段的上下文的词和词性的复合特征模板，实现其消歧。文献6提出一种基于层叠条件随机场的句法语义自动标注方法，该方法在底层条件随机场模型中解决框架元素的识别，将识别结果传递到上层短语类型识别的条件随机场模型，再将识别结果传递到上层句法功能识别的条件随机场模型，有效地解决了短语句法语义自动标注问题。基于以上理论，本文将基于层叠

7、条件随机场实现对搜狗日志语料中的“N+V型短语”分析。其分析分为两个阶段：确定“N+V”型内部结构；确定“N+V”外部功能类别。对搜狗日志语料中“N+V”型短语进行初步人工校对，发现“N+V”型短语呈现五种结构类型：主谓、定中、状中、同位和联合；三种外部功能类别：名词短语、动词短语和主谓短语。首先，是对搜狗日志语料中已经进行过短语边界识别的“N+V”型短语，通过条件随机场模型，依据句子中词语、音节信息和词类信息，预测每个词对应的短语内部结构标记信息；然后，通过对短语的内部结构的预测信息进行校对处理，得到正确的短语内部结构标记信息，作为短语外部功能类别识别的一个输入特征；其次，根据短语的词语、词

8、类信息、词语长度信息和短语内部结构信息，运用条件随机场模型，预测每个词对应的短语外部功能标记信息；最后，对短语的外部功能标记信息进行校对处理，得到正确的短语外部功能类别标记信息。1 条件随机场模型条件随机场模型是一种用于标注和切分的序列化标注模型，它是Lafferty在最大熵和隐马尔科夫模型的基础上，提出的一种判别式概率无向图学习模型7。条件随机场作为一个无向图模型比隐马模型和最大熵模型等有向图模型识别的效果好。隐马最大的一个缺点是它的输出独立性假设条件，使得不能考虑上下文的特征信息，限制了特征的选择；而最大熵模型解决了这个瓶颈，但是又引来了新的问题：它可以随意的选择特征，由于其在每个节点上都

9、要进行归一化处理，所以只能达到局部最优，不能达到全局最优。而条件随机场解决了以上两种问题，它不是在每个节点进行归一化处理，而是对所有特征都进行全局归一化处理，具有表达元素长距离依赖性和交叠型特征的能力，能方便地在模型中包含领域知识，因此，可以达到全局最优。但是条件随机场也有一个缺点：当需要识别的类别数很大，以及数据规模比较大的时候，会产生许多可区分的特征，导致训练和测试的效率降低。搜索引擎日志中“N+V”型短语的内部结构和外部功能类别确定问题可以转化为对搜索引擎日志查询串利用词语、词类信息、词语长度信息、边界信息、信息焦点等特征，选择标记的问题。而条件随机场是一个序列标注化模型，因此，将搜索引

10、擎日志中“N+V”型短语分析的过程通过基于层叠条件随机场模型来实现。2 搜索引擎日志中“N+V”型短语分析模型2.1 “N+V”型短语分析的问题描述“N+V”型短语分析的过程其实是通过层叠条件随机场实现“N+V”型短语的内部结构和外部功能类别识别的过程。本文采用S/E（Start/End）8编码方式，B表示一个短语的开始，I表示短语的内部，E表示短语的结尾词，O表示短语的外部的词。如搜狗语料中的查询串：海南/ns康/b 德/b 泰/b 电力/n 开发/vn 有限公司/n；依据S/E编码方式，可以编码为：海南ns2OOO康b1OOO德b1OOO泰b1OOO电力n2B-NVB-NV4B-NV1开发

11、vn2E-NVE-NV4E-NV1有限公司n4OOO。其中，第二列是词的音节列；第三列是短语边界标记列，“O”、“B-NV”、“E-NV”分别表示短语边界类型的外部标记、短语边界的开始标记、短语边界的结束标记；第四列是短语的内部结构标记列，“O”、“B-NV4”、“E-NV4”分别表示短语内部结构标记的外部标记、开始标记、结束标记；第五列是短语的外部功能类别标记列，“O”、“B-NV1”、“E-NV1”分别表示短语外部功能类别标记的外部标记、开始标记、结束标记。通过这样标记之后，可以清楚地知道上面的查询词串中存在一条“N+V”型定中结构的名词短语“电力/n 开发/vn”。 2.2 搜索引擎日志

12、中“N+V”型短语分析的特征描述对搜索引擎日志中的“N+V”型短语进行分析，需要分为两个阶段：短语内部结构分析和外部功能分析，因此需要将以词为标注单位的词信息、音节信息、信息焦点等信息融合到模型当中。为此，通过S/E编码方式，参照文献9对名动式偏正结构短语的研究，以及文献10短语标注集集的确定方法，将需要标注的信息进行如下标注：（1）以词为标注单位的边界特征描述。边界的标注集为：B-NV、E-NV和O。（2）以词为标注单位的信息焦点特征描述。信息焦点的特征标注集为：1、0和O；1表示当前词是“N+V”型短语的信息焦点；0表示当前词不是 “N+V”型短语的信息焦点。如果是则标记为1；O表示当前

13、词是“N+V”型短语的外部词。（3）以词为标注单位的短语内部结构特征描述。短语内部结构的特征标注集为:B-NV1、E-NV1、O；B-NV2、E-NV2、O；B-NV3、E-NV3；B-NV4、E-NV4、O；B-NV5、E-NV5、O。其中，NV1、NV2、NV3、NV4、NV5分别表示短语内部结构为主谓、联合、定中、同位、状中。B、E、O表示短语内部结构的起始词、结尾词、外部词。按照语法结构，“N+V”型短语的内部结构关系仅有：主谓、定中和状中三种。但是，在搜狗语料中，有少量的查询串，如“歌曲/n 欢聚一堂/vl”、“电影/n 征服/v ”等这种形式， V已经名词化，和V形成了复指关系，

14、因此将这种短语的内部关系视为同位关系；像“短发/n 卷发/vn 造型/n”、“服饰/n 化装/v”等这种形式的短语，V已经名词化，N和V之间没有直接的关系，只是形成了并列的形式，因此将这种短语的内部关系视为联合关系。（4）以词为标注单位的短语外部功能类别特征描述。短语外部功能的特征标注集为：B-NV1、E-NV1、O；B-NV2、E-NV2、O；B-NV3、E-NV3、O。其中，NV1、NV2、NV3分别表示短语外部功能为：名词、动词、主谓。B、E、O表示短语内部结构的起始词、结尾词、外部词。3 搜索引擎日志中“N+V”型短语分析的特征模板的确定特征是基于条件随机场的短语识别的核心，特征选择

15、的好坏将决定了层叠条件随机场模型对“N+V”型短语分析的性能。因为基于条件随机场的“N+V”型短语内部结构确定模型识别的结果需要传递给“N+V”型短语外部功能类别确定模型，所以需要选择合适的特征，使得实验效果最好，而且训练的时间不是太长。实验中考虑了一下特征：w、p、fc、b、st、ft、y、i；其中，w表示短语的词标记，p表示词对应的词性标记，fc表示当前词是否是短语的信息焦点，b表示当前词对应的边界信息，st表示短语的内部结构标记，ft表示短语的外部功能类别标记，y表示词对应的词语长度，i表示特征位置。特征窗口大小为15。 “N+V”型短语所涉及到的特征集见表1:表1 “N+V”型短语的候

16、选特征集序号特征集备注1Wi, i 单个词特征2Pi,i 单个词性特征3wi-1wi，i 相邻词组成的复合特征4pi-1pi，i 相邻词性组成的复合特征5wipi，i 词和词性组成的复合特征6wi-1wiwi+1，i 当前词和左右两个词组成的复合特征7pi-1pipi+1，i 当前词的词性和左右两个词性组成的复合特征8w-2w-1w0w1w2当前词，左右各两个词组成的复合特征9p-2p-1p0p1p2当前词性，左右各两个词性组成的复合特征10Yi,i 单个词语长度特征11Piyi,i 词性和词语长度组成的复合特征12yi-1yiyi+1,i 当前词的长度，以及左右两个词的长度组成的三元复合特征

17、13yi-1yi,i 相邻词的词语长度组成的复合特征14fi,i 单个词语信息焦点特征15fi-1fifi+1,i 当前词信息焦点，以及左右两个词的信息焦点组成的三元复合特征16fi-1fi,i 相邻词的信息焦点组成的复合特征17bi,i 单个词的边界特征18Biwi,i 词的边界和词组成的复合特征19bipi，i 词的边界和词对应的词性组成的复合特征20sti,i 单个词的内部结构特征21stiwi,i 单个词的内部结构和词组成的复合特征22stipi,i 单个词的内部结构和词对应词性组成的复合特征23st-1st0st1当前词内部结构，以及左右两个词的内部结构组成的三元复合特征3.1 “N

18、+V”型短语内部结构的特征模板的确定表2 “N+V”型短语内部结构的特征模板特征模板特征集备注模板一19、1719词、词性、边界模板二113、1719词、词性、边界、词语长度模板三19、1519词、词性、边界、词语焦点模板四119词、词性、边界、词语长度、词语焦点3.2 “N+V”型短语外部功能类别特征模板的确定 “N+V”型短语外部功能类别的四个特征模板是在“N+V”型短语内部结构的四个特征模板的基础上，分别添加短语内部结构特征（2023）构成的。模板结构类型ABCP/%R/%FB1/%模板一NV111261291.6742.3157.89NV3020000NV439639842293.84

19、99.596.59NV510201190.915064.52模板二NV112261485.7146.1560NV3020000NV439539842094.0599.2596.28NV510201190.915064.52模板三NV125262792.5996.1594.34NV3020000NV439439840796.8198.9997.89NV510201190.915064.52模板四NV125262792.5996.1594.34NV3020000NV439439840896.5798.9997.77NV5920109045604 实验结果与分析4.1 实验语料实验所用语料来自搜狗

20、实验室2006年8月1日的查询日志语料。随机抽取8月1日半天的语料进行人工标注其短语边界信息、短语信息焦点、短语内部结构信息，以及短语外部功能类别信息。本文利用短语的词、词性信息，以及上面人工标注的信息，将标注的语料按9:1的比例进行切分，基于层叠条件随机场模型进行实验。4.2 评测标准本文采用通用而又客观的测评方法来评测实验结果，即给出人工标注结果作为参照标准，并将自动识别结果与其对比，从而评测系统的性能。评测过程不需要人工干预，效率较高。评测指标为准确率（P）、召回率（R）和F-测试值（FB1）；其中，A表示自动识别与人工标准相同的正确短语数目，B表示人工标注的正确短语数目，C表示自动识别

21、的正确短语数目。（Precision）=，（Recall）=，FB1=，这里，=1.4.3 实验结果及分析本实验的语料是对2006年8月1日半天的查询语料进行“N+V”型短语边界识别后得到的，语料总共有4429条“N+V”型短语。将此语料随机抽取分成10份，其中9份用作训练语料，1份用作测试语料，进行开放测试实验。（1）“N+V”型短语内部结构分析的测试结果见表3，如图1所示，从中看出模板三的测试效果比较理想，因此，用模板三的测试结果作为短语功能类别分析的输入。表3 “N+V”型短语内部结构测试结果图1 “N+V”型短语内部结构测试结果对比从表3和图1可以看出“N+V”型短语的同位结构识别的

22、效果为零，而“N+V”型短语的联合结构在测试语料中就没有出现，造成这种现象的原因是搜狗日志语料中出现这两种结构的“N+V”型短语很少。从表3和图1可以看出，在模板一的基础上，增加词语长度特征后，“N+V”型主谓结构短语FB1提高了2个百分点，而“N+V”型定中结构的短语FB1值下降了近1个百分点，这说明词语长度特征对“N+V”型结构短语识别效果影响不大。模板三是在特征模板一的基础上增加词语信息焦点特征构成，从图1可以看出，“N+V”型主谓短语FB1值提高了36个百分点，“N+V”定中结构短语FB1值提高了1个百分点；同样地，模板四“N+V”型主谓短语FB1值提高了34个百分点，“N+V”定中结

23、构短语FB1值提高了1个百分点。这说明信息焦点对“N+V”型结构短语识别效果影响很大。模板四与模板三相比，“N+V”型状中结构短语FB1值下降了4个百分点，“N+V”型定中结构短语准确率和FB1值下降了，这说明在增加了信息焦点特征后，词语长度特征对“N+V”型短语结构识别效果起阻碍作用。（2）用短语结构分析的模板三的实验结果进行校对后，作为短语功能类别的输入，进行短语功能类别实分析实验。实验测试结果见表4，测试结果对比如图2所示。表4 “N+V”型短语外部功能测试结果模板功能类别ABCP/%R/%FB1/%模板一NV1397397397100100100NV2111111100100100N

24、V3252525100100100模板二NV1397397397100100100NV2111111100100100NV3252525100100100模板三NV139639740996.8299.7598.26NV211111291.6710095.65NV3252525100100100模板四NV139639740996.8299.7598.26NV211111291.6710095.65NV3252525100100100图2 “N+V”型短语外部功能测试结果对比从图2和表4的数据可以看出，模板一与模板二，模板三和模板四的数据一致，这说明词语长度特征对“N+V”型短语外部功能类别的识

25、别效果不起作用；模板三与模板一，模板四与模板二相比，准确率、召回率和FB1值都在下降，这说明信息焦点对“N+V”型短语外部功能类别的识别效果起阻碍作用。5 结论句法分析是自然语言处理中的难点。针对搜狗日志语料，用层叠条件随机场模型，对“N+V”型短语进行短语的内部结构和外部功能类别的分析实验。由于搜索引擎日志语料自身的特点，“N+V”型短语内部结构实验结果没有预期的结果好。这种短语分析方法，为“N+N+V”型短语和“N+V+V”型短语等外显型歧义结构的消歧提供了解决方法，从而为完全句法分析打下基础，为搜索引擎用短语词典构建提供基础研究服务。下一步的任务是引入其他的特征，来提高这种短语分析的准

26、确率。参考文献1 朱冲，王大为，等.基于最大熵方法汉语基本短语分析J.计算机工程与应用.2008，44（32）：137-139.2 杨国基，梁洪峻.自然语言处理中基于短语结构的语法分析方法J.微处理机.2009，30（6）：74-77.3 詹卫东，常宝宝，俞士汶.汉语短语结构定界歧义类型分析及分布统计J.中文信息学报.1999，13（3）：9-17.4 吕学强，苏祺，孙斌，俞士汶.搜索引擎用短语词典建设J.清华大学学报（自然科学版），2005，45（S1）：1892-1895.5 涂云杰，郑家恒.基于规则的汉语短语标注探讨J.山西大学学报.2002，25（4）：301-304.6 丁德鑫，曲维

27、光，等.基于CRF模型的组合型歧义消解研究J.南京师范大学学报（工程技术版）.2008，8（4）：73-94.7 陈雪艳，吕国英，等.基于层叠条件随机场的句法语义自动标注研究C/第四届全国学生计算语言学研讨会论文集，山西，2008:49-55.8 J.Lafferty，A. McCallum,and F.Pereira. Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data.In Proc.of ICML2001，pp.282-289.9 U.Kiyotaka，Qing

28、 Ma，M. Masaki，et al. (2000) Named entity extraction based on a maximum entropy model and transformation rules. Proceedings of the 38th Annual Meeting on Association for Computational Linguistics, Hong Kong, pp. 326 335.10 唐昱.现代汉语名动式偏正结构研究D.华中科技大学，2006:1-34.11 周强，俞士汶.汉语短语标注标记集的确定J.中文信息处理学报.1996，10（4）：1-10.作者简介：赵红改，工学硕士，中文信息处理E-mail：zxy_summer电话：15210921242

展开阅读全文