《“of”结构的翻译.ppt》由会员分享,可在线阅读,更多相关《“of”结构的翻译.ppt(30页珍藏版)》请在三一办公上搜索。
1、,英汉机器翻译中“of”结构的处理,英汉机器翻译中“of”结构的处理,一、引言,二、“of”结构定义及测试,三、“of”结构中并列结构,四、结语,引言,随着计算机网络的迅速普及以及信息高速公路的发展,不同语言之间的交际越来越普遍,语言障碍也显得越来越严重,机器翻译是克服信息时代语言障碍的不可缺少手段。但由于自然语言的极其复杂性,机器翻译是当代科学技术的十大难题之一。,引言,大致来讲,现行的机器翻译系统主要有基于规则和基于统计两种方法。由于无需人工编写和调试词典以及规则,节省了大量的人力,也省去了用于解决规则冲突的复杂设计,使得统计机器翻译系统在开发和应用上呈现出一些明显的特点和优势:(1)机器
2、翻译系统开发的人工成本低、开发周期短;(2)可以迅速迁移到新的语种;(3)可以迅速迁移到新的领域(1)。因此,统计方法为机器翻译系统开发提供了一个有利的平台。,引言,Euro Matrix项目联络人Hans Uszkopeit教授(德国萨尔兰大学计算语言学教授,德国人工智能研究中心(DFKI)主任以及DFKI 语言技术试验室首席研究员)09年1月的一个报告中提到目前从欧洲语料库基础上的机器翻译评测结果来看:基于统计的系统(SMT)在翻译结果上往往能有较好的词汇选择(lexical choice),但是经常选择错误的语法结构并得不到完整的译文;而基于规则的系统(RBMT)很难解决歧义问题以及选择
3、合适的词汇和短语,但是却能得到在语法结构,词汇顺序上比较完整那个的译文。因此结合这两者应该是一个比较好的研究方向。,引言,目前从事将句法知识引入统计机器翻译系统中的学者较多,成果颇丰,在翻译模型中引入句法知识的主要有David Chiang的层次短语模型和吴德凯的ITG模型,南加州大学信息科学研究所ISI(Yamada,Galley,Marcu等)提出的串到树模型,刘洋等人提出的树到串模型等;在语言模型中引入句法知识的研究主要包括Colin Cherry 和 Dekang Lin等在单词对齐模型中引入句法知识,Fei Xia 和 Michael McCord等在翻译之前利用句法知识调整源语言语
4、序,Och、Daniel Gildea等人在翻译之后利用句法知识做Ranking等。,引言,本文首先给出了“of”结构的范式BNF定义,接着通过对统计翻译系统GOOGLE测试结果的错误分析,利用STSNFORD PARSER(基于统计的句法分析器)的句法分析结果和标记信息,并融入HNC的概念相似度计算,来解决of结构在现有统计机器翻译中的错误。本研究属于在在语言模型中引入知识,也是规则和统计结合的一个试探性个案研究。,“of”结构定义,“of”在传统语法上定义为介词,尽管介词各有自己的词义但极其模糊,可变性很强,往往受搭配词语之间的关系所制约。介词的搭配能力特别强它可以联系动词与名词,可以联系
5、形容词与名词,还可以联系名词与名词,等等。,“of”结构定义,He talks of returning nest week.,He is always considerate of others.,Of,VP+OF+NP,ADJ+OF+NP,NP+OF+NP,The will of the peopleThe acquisition of the family,“of”结构定义,本文所讨论的“of结构”为of结构的所有格用法,相当于汉字“的”字结构“N+的+N”。本文所涉及的“of结构”在表现形式上属于“NP+OF+NP”结构。“NP+OF+NP”在语言学研究范围内可分为多种情况:,“of”
6、结构定义,逆序主谓关系:the requirements of times顺序动宾关系:loss of energy施受关系:the book of Hugo主属关系:the children of the family同格关系:the city of Rome偏正关系:a man of ability,“of”结构定义,某些存在结构性歧义:the love of godthe creation of manthe discovery of Livingstonethe city of Rome a box of wood,“of”结构定义,“of”结构范式BNF定义,“of”结构定义,例如:
7、(1)China is pursuing(long-term,comprehensive transformation)of(its military forces)to improve its capabilities for power projection,anti-access,and area denial.(2)(The pace and scope)of(Chinas military transformation)has increased in recent years,fueled by continued high rates of investment in its d
8、omestic defense and science and technology industries,acquisition of advanced foreign weapons,and far reaching reforms of the armed forces.,“of”结构测试,原文一:The report shall address(the current and probable future course)of(military-technological development)on the Peoples Liberation Army GOOGLE译文一:该报告应
9、解决对解放军当前的和可能的军事技术发展的未来走向 SYANFORD PARSER分析一:,“of”结构测试,原文二:but it does not adequately address(the composition of Chinas military forces),or(the purposes and desired end states)of(Chinas military development).GOOGLE译文二:但它没有充分解决中国的军队,或的宗旨和中国军事发展的期望的最终状态组成。SYANFORD PARSER分析二:,“of”结构定义及测试,某些存在结构性歧义:the l
10、ove of godthe creation of manthe discovery of Livingstonethe city of Rome a box of wood,“of”结构测试,原文三:This chapter discusses(the mission,organizational structure,characteristics,and weapon systems)of(the Infantry weapons company)found in(the Infantry battalions)of(the Infantry brigade combat team(IBC
11、T).GOOGLE译文三:本章讨论的使命,组织结构,特点和武器的步兵武器系统公司发现的步兵旅战斗队(IBCT)的步兵营。SYANFORD PARSER分析三:,“of”结构测试,“of”结构测试结果,从以上三个例子中可以看出:(1)统计机器翻译对of结构的调序基本正确。(2)of结构的统计译文中单词和短语翻 译较正确,但是存在语序翻译失误,而这种失误造成译文不知所云。(3)造成语序翻译失误的主要要因是of结构管辖范围确定失误。,“of”结构测试结果,偏正结构,例一,嵌套结构,并列结构,例二,例三,从三个例子中可发现,每种错误都与并列结构密不可分!解决问题的关键为确定of结构中“of”对并列结构
12、的管辖控制。,“of”结构翻译处理,对含of的语句进行句法分析,通过句法符号特征初步确立of结构的范围,利用特殊句法知识以及汉语译文语义相似度计算确定of结构的准确范围,一,二,三,对于NP+OF+NP结构的机器翻译,难点在于确定两个NP的范围,即确定of结构的左右管辖,如果我们能将of结构正确提出,那么问题就基本解决了。具体提取步骤如下:,(1)句法分析,如例二:This chapter discusses(the mission,organizational structure,characteristics,and weapon systems)of(the Infantry weapo
13、ns company)found in(the Infantry battalions)of(the Infantry brigade combat team(IBCT).句法分析结果:,(2)通过前后界句法符号标记,以of结构为锚点进行左右扫描,直到左右遇到终止符号。将所有在范围内的字符串全部提取根据特征字符串初步判别,(3)计算语义相似度,根据标记特征判断并列结构中心词计算名词并列结构中心词相应汉语译文的语义距离确定of结构左侧并列结构的范围通过of结构左右两侧的语义关系,确定of结构右侧取值范围,有关嵌套结构处理,处理思路:依次扫描出of嵌套结构NP+OF+NP+OF+NP+利用前面的方
14、法确定第一个NP和最后一个NP的范围将of结构存入堆栈,后进先出,得到中文译文,结语,基于统计的机器翻译系统对“of”结构的处理并不理想,主要体现在语序翻译失误,管辖范围控制失误,嵌套结构逻辑错误等方面。我们利用传统的基于句法分析标记,以语义和用法为索引具体说明每个用法所需要的知识和所指示的操作,通过计算语意距离,重点研究of结构中并列结构的左右管辖,为“of”结构的处理提供了一条新思路。,接下来的工作,深入研究,横向研究,纵向研究,Of结构中并列结构的构成情况,其他介词结构中并列结构的构成情况,Of结构的全方位考察(包扩VP/ADJ+OF),Thank You!,Add your company slogan,Q&A,