《机器翻译简介整理.ppt》由会员分享,可在线阅读,更多相关《机器翻译简介整理.ppt(49页珍藏版)》请在三一办公上搜索。
1、,MACHINE TRANSLATION,机器翻译,Machine Translation,Definition of MTHistory of DevelopmentContrast between MT and HTProspect of MT,The Definition of MT,MT,the abbreviation of machine translation,is a sub-field of computational linguistics that investigates the use of software to translate text or speech f
2、rom one natural language to another.,什么是机器翻译,机器翻译(machine translation,MT)是利用计算机把一种语言(源语言,source language)翻译成另一种语言(目标语言,target language)的一门学科和技术。,MACHINE TRANSLATION,机器翻译的 产生发展,机器翻译遇到的困难,添加文本,机器翻译的 现状,机器翻译的产生发展,1947 1964:草创时期 1970 1976:复苏阶段 1976 现在:繁荣时期,History of Development,1开创期(1947-1964)1954 年,美国
3、乔治敦大学在 IBM 公司协同下,用 IBM-701计算机首次完成了英俄机器翻译试验,拉开了机器翻译研究的序幕。中国早在1956年,国家就把这项研究列入了全国科学工作发展规划,课题名称是“机器翻译、自然语言翻译规则的建设和自然语言的数学理论”。从20世纪50年代开始到20世纪60年代前半期,美国和前苏联两个超级大国出于军事、政治、经济目的,均对机器翻译项目提供了大量的资金支持,而欧洲国家由于地缘政治和经济的需要也对机器翻译研究给予了相当大的重视,机器翻译一时出现热潮。,2受挫期(1964-1975)1964年,为了对机器翻译的研究进展作出评价,美国科学院成立了语言自动处理咨询委员会(Autom
4、atic Language Processing Advisory Committee,简称ALPAC委员会),开始了为期两年的综合调查分析和测试。1966年11月,该委员会公布了一个题为语言与机器的报告(简称ALPAC报告),该报告全面否定了机器翻译的可行性,并建议停止对机器翻译项目的资金支持。这一报告的发表给了正在蓬勃发展的机器翻译当头一棒,机器翻译研究陷入了近乎停滞的僵局。无独有偶,在此期间,中国爆发了“十年文革”,基本上这些研究也停滞了。机器翻译步入萧条期。,3恢复期(1975-1989)进入 70 年代后,随着科学技术的发展和各国科技情报交流的日趋频繁,国与国之间的语言障碍显得更为严
5、重,传统的人工作业方式已经远远不能满足需求,迫切地需要计算机来从事翻译工作。同时,计算机科学、语言学研究的发展,特别是计算机硬件技术的大幅度提高以及人工智能在自然语言处理上的应用,从技术层面推动了机器翻译研究的复苏,机器翻译项目又开始发展起来,各种实用的以及实验的系统被先后推出,例如 Weinder 系统、EURPOTRA 多国语翻译系统、TAUM-METEO系统等。,4新时期(1990现在)随着 Internet 的普遍应用,世界经济一体化进程的加速以及国际社会交流的日渐频繁,传统的人工作业的方式已经远远不能满足迅猛增长的翻译需求,人们对于机器翻译的需求空前增长,机器翻译迎来了一个新的发展机
6、遇。国际性的关于机器翻译研究的会议频繁召开,中国也取得了前所未有的成就,相继推出了一系列机器翻译软件,例如“译星”、“雅信”、“通译”、“华建”等。在市场需求的推动下,商用机器翻译系统迈入了实用化阶段,走进了市场,来到了用户面前。,基本翻译方法,1.直接转换法 2.基于规则的翻译方法 3.基于中间语言的翻译方法 4.基于语料库的翻译方法 基于实例的翻译方法 基于统计的翻译方法,Contrast between MT and HT,Machine Translation VS Human TranslationThe Limitation of MT,例1:The sight and sound
7、 of our jet planes filled me with special longing.科智系统:我们的喷气式飞机的情景和声音使我充满特别的渴望。功学系统:我们的喷射机的景象和声音充满我以(和)特别的longing。参考译文:看到我们的喷气式飞机,听到隆隆的机声,令我特别神往。,例2:The mountains began to throw their long blue shadows overthe valley.科智系统:这些高山开始越过这个(山)谷投他们的长的蓝色的影子。功学系统:这些山开始掷他们的长蓝色阴影超过这valley。参考译文:群山已开始在山谷里投下它们蔚蓝色的长
8、影。,例4:I had a car stolen yesterday.金山快译:我昨天偷一辆汽车。东方快车:我把了一辆汽车昨天被偷窃。例5:I used to have three cars.I couldnt keep them all in my smallgarage.I parked somewhere around my house,but I had a car stolen yesterday.金山快译:我过去一直有三辆汽车。我无法在我的小车库中使他们保持所有的。我停车了在我的房子周围的某处。但是我昨天偷一辆汽车。东方快车:我过去常有3辆汽车。我都不能把他们放在我的小车库。在我的
9、房子附近我停车了某地。但是我把了一辆汽车昨天被偷窃。,例6:He was in the seventh heaven last night.金山快译:他昨晚是在第七天堂方面;东方快车:昨晚他在第7天堂;参考译文:昨晚他欣喜若狂。,例7:Oh!My eye!he said,Looking very low spirited.I am sorry for that.(Charles Dickens:David Copperfield,ch.5)金山快译:/Oh!我的眼睛!他说,看起来非常无精神。我为那感到抱歉。东方快车:/oh!我的眼睛!他说,看起来很没有精神。我是抱歉的为那。参考译文:/噢,天哪
10、!他看起来很丧气,说道:这件事可糟了。,例8:Our history teacher is a good talker.Id like to ask him,Wheres the beef?Because we sure dont learn much from him.金山快译:我们的历史老师是一个好说话的人。我想要问他,牛肉在哪里?因为我们当然不从他得知多。东方快译:我们的历史教师是一位好的空谈者。我很想问他,牛肉在哪儿?因为向他我们没问题不学习很多。参考译文:我们的历史老师很能夸夸其谈。我真想问问他,/管用的货色在哪儿?因为我们真的没有从他那里学到多少东西。,The Limitation
11、 of MT,人名翻译 MT表现稍有逊色,例如将“彭定康”翻译为“Patten”而没有译成全名“Christopher Francis pattern”,将 Google创始人之一 Larry Page的名字翻译为“佩奇”而没有译成“拉里佩奇”,“金庸”的名字只提供了“Jin Yong”而没有使用更加准确的“Louis Cha”,不能不说是一种遗憾。,习语翻译 MT的表现中规中矩,对大多数习语的识别显然还算不错,但稍艰深或涉及文化的成语则呈现出一定差异,例如将“海誓山盟a solemn pledge of love”译作“eternal”不够全面,英文习语“to carry coal to N
12、ew castle 做徒劳无益的事(多此一举,白费力气)”直译为“运煤到纽卡斯尔”,“祸起萧墙Trouble breaks out at home”则干脆译成了莫名其妙的“Harris”。,文学作品翻译 文学作品翻译方面,MT翻译基本上是逐字翻译,根本无法传达作品的深层内涵。,满地黄花堆积,憔悴损,而今有谁堪摘?MT:Everywhere yellow flower accumulation gaunt who can pick the loss now?HT:The ground is covered with yellow flowers faded and fallen in showe
13、rs.Who will pick them up now?,明月几时有,把酒问青天MT:When the moon is,wine ask blue sky.HT:When will the moon be clear and bright?With a cup of wine in my hand,I ask the blue sky.,成语典故翻译在成语典故方面,MT翻译只能翻译出字面意思,无法结合语境和历史文化背景,给出合适恰当的翻译。,别狗咬吕洞宾,不识好人心。MT:The dog bite lv dongbin does not know good hearts.HT:Dont bi
14、te the hand that feeds you.,机器翻译遇到困难,1.词法歧义 自动化研究所取得的成就 自动化/研究所/取得/的/成就/。自动化/研究/所/取得/的/成就/。Achievements made by the Institute of Automation,2.新的词汇无法理解 上大学子烛光追思钱伟长 University sub candlelight memorial chang On the big students qian wei-chang candlelight memorial Shanghai University students mourn Qian
15、 Weichang with the candlelight,3.结构歧义 今天中午吃食堂 At noon today,meals in the cafeteria ChiShiTang at noon today We will have lunch in the cafeteria today,I saw a man with a telescope I saw a man with a telescope.I saw a man with a telescope.我看到一个人用望远镜 我看见一个男人与一个望远镜,4.语义歧义,他说:“她这个人真有意思(funny)”。她说:“他这个人怪有
16、意思的(funny)”。于是人们以为他们有了意思(wish),并让他向她意思意思(express)。他火了:“我根本没有那个意思(thought)”!她也生气了:“你们这么说是什么意思(intention)”?事后有人说:“真有意思(funny)”。也有人说:“真没意思(nonsense)”。,Your brain has two parts:the left and the right.Your left brain has nothing right,and your right brain has nothing left。你的大脑有两部分:左边的和好的。左脑有什么权利,你的右脑有一无所
17、有 你的大脑有两部分:左和右。你的左脑没有正确的,你的右脑没剩下什么东西。,机器翻译的现状,我们需要的是计算机帮助人类完成某些翻译工作,而不是完全替代人,人与机器翻译系统之间应该是互补的关系,而不是相互竞争。机器翻译还不成熟(in state-of-the-art),需要的是人与系统的配合,而不是有意为难,辅助机器翻译可以大大减轻人的负担。,目前机器翻译的价值不在于它可以取代翻译专家,而在于它可在一个完整翻译过程的部分环节中有所贡献。虽然机器翻译的可理解性和忠实度还不够理想,但倘若数学、计算机科学、翻译学及语言学等领域的研究者齐心协力,并且把上下文语境和文化语境考虑在程序编写过程中,就能使译文
18、的语篇性更强,使语言的三大功能,即概念功能、人际功能和篇章功能 表现得更加突出。,Prospect of MT,Geeks save the world!技术宅改变世界!,翻译记忆方法1,翻译记忆方法(Translation Memory)是基于实例方法的特例;也可以把基于实例的方法理解为广义的翻译记忆方法;翻译记忆的基本思想:把已经翻译过的句子保存起来翻译新句子时,直接到语料库中去查找如果发现相同的句子,直接输出译文否则交给人去翻译,但可以提供相似的句子的参考译文,翻译记忆方法2,翻译记忆方法主要被应用于计算机辅助翻译(CAT)软件中翻译记忆方法的优缺点翻译质量有保证随着使用时间匹配成功率逐
19、步提高特别适用于重复率高的文本翻译,例如公司的产品说明书的新版本翻译与语言无关,适用于各种语言对缺点是匹配成功率不高,特别是刚开始使用时,翻译记忆方法3,计算机辅助翻译(CAT)软件已经形成了比较成熟的产业TRADOS号称占有国际CAT市场的70%Microsoft、Siemens、SAP等国际大公司和一些著名的国际组织都是其用户雅信CAT适合中国人的习惯产品已比较成熟国际组织:LISA(Localisation Industry Standards Association本地化产业标准协会)面向用户:专业翻译人员数据交换:LISA制定了TMX(Translation Memory Exchange)标准。,翻译记忆方法4,完整的计算机辅助翻译软件除了包括翻译记忆功能以外,还应该包括以下功能多种文件格式的分解与合成术语库管理功能语料库的句子对齐(历史资料的重复利用)项目管理:翻译任务的分解与合并翻译工作量的估计数据共享和数据交换,翻译记忆方法5,Thanks for your attention!,