《《计算语言学》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《计算语言学》PPT课件.ppt(92页珍藏版)》请在三一办公上搜索。
1、第六讲 计算语言学,什么是计算语言学?请举出你概念里计算语言学研究的大致内容.,一、计算语言学的定义二、萌芽初创(语言翻译问题、语言与数学)三、计算语言学的分类四、计算语言学的特点五、汉字的信息处理六、词语的信息处理七、机器翻译,各类定义:社会的需求和技术的进步,推动着古老的语言学和新兴的计算机科学相接合,产生了一门交叉学科计算语言学。它为计算机处理语言信息(包括语言中信息成分的发现和提取,语言数据的存储、加工和传输,语言翻译和理解)提供理论模型、计算方法和实现技术。俞士汶,一、计算语言学的定义,计算语言学是一个横跨语言学、数学、计算机科学的交叉学科。冯志伟,计算语言学,数学,计算机,语言学,
2、计算语言学(Computational Linguistics)指的是这样一门学科,它通过建立形式化的数学模型,/来分析、处理自然语言,/并在计算机上用程序来实现分析和处理的过程,/从而达到以机器来模拟人的部分乃至全部语言能力的目的。百度百科/詹卫东,计算语言学的定义:是利用计算计研究和处理自然语言的学科。,狭义:指的是通过建立形式化的计算模型,用计算机理解、分析、处理自然语言的学科。广义:包括狭义的内容;还包括利用计算机对语言文字进行的各种定量化和精密化的研究。例1:中国红楼梦的作者:前八十回和后四十回是不是一个人。例2:方言亲属关系的计量,二、计算语言学的萌芽初创:,语言学自己的准备:1、
3、圣经创世纪中“巴比塔”的传说。旧约创世纪第11章讲述了“通天塔”的故事。很久很久以前,天下的人都居住在一个叫做古巴比伦的地方,那时候人们都使用同一种语言。后来,古巴比伦人计划修建一座塔,塔顶要高耸入云,直达天庭,以显示人们的团结和力量。塔越建越高,惊动了天庭的耶和华。他想,现在天下的人都是一个民族,都说一种语言,他们团结一致,什么奇迹都可以创造,那神还怎么去统治人类?于是上帝便决定要惩罚惩罚人类。他施魔法变乱了人们的口音,使他们无法沟通,高塔因此无法继续建造下去。最后,上帝还把人类驱散到地球的各个角落。,2、17世纪中叶展开的“普遍语言”的运动,旨在运用逻辑原则和图形符号的基础上,创造出一种无
4、歧义的语言。十七世纪的普遍语言文字运动席卷西欧,吸引了各国学者,但最为投入的似乎是英国人。伦敦皇家学会在成立初期,主要致力于普遍语言文字的讨论,并资助威尔金斯出版论一种真实字符和一种哲学语言(1668)。牛顿对语言问题也颇感兴趣,在皇家学会哲学汇刊上发表过两篇语音学论文。,语言学的应用翻译计算语言学的研究首先是从机器翻译开始的。3、20世纪30年代,法国工程师提出了用机器进行语言翻译的想法,并在1933年7月获得了一项“翻译机”的专利,叫做“机械脑”。,语言学与计算机的结合1、1946年,美国研制出第一台电子计算机,人们开始用计算机进行翻译的尝试,当时采用的是词对词的策略,所以翻译效果不理想。
5、2、在1960年代初期,计算语言学曾因做机器翻译的应用研究,受到各国政府的大力支持而风光一时,然而一直没有满意的成绩。于是美国政府委托国家科学院评估机器翻译的计划。1966年该评估报告指出:当时的研究是没有希望做好机器翻译的。,3、人们在失败中得到启发,认为要搞好自动翻译,必须在语言理论和计算机科学两方面下足功夫,其中尤其语言处理理论的研究,人们认识到,如果计算机无法理解自然语言,机器翻译等只能是空中楼阁。理解自然语言 使计算机具有听说读写的能力 语音识别与合成,机器翻译,自然语言人际借口,情报检索,自动文摘,信息抽取,语料库建设,4、计算语言学的进一步发展音字转换:语音识别、拼音输入自动文摘
6、:自动给出一篇或多篇文章的摘要信息检索:在海量的信息准确找到你所需要的信息信息过滤:信息过滤是大规模内容处理的另一种典型应用。它是对陆续到达的信息进行过滤操作,将符合用户需求的信息保留,将不符合用户需求的信息过滤掉。通常可分为不良信息过滤和个性化信息过滤:不良信息过滤一般指过滤掉暴力反动色情等信息;个性化信息过滤类似于信息检索,帮助用户返回感兴趣的东西。,语言学与数学,1847年,俄国数学家B.Buljakovski认为可以用概率论方法来进行语法、词源和语言历史比较的研究。1851年,英国数学家A.DeMorgen把词长作为文章风格的一个特征进行统计研究。1894年,瑞士语言学家De Saus
7、sure指出,在基本性质方面,语言中的量和量之间的关系,可以用数学公式有规律地表达出来,他在1916年出版的普通语言学教程中又指出,语言好比一个几何系统,它可以归结为一些待证的定理。,1898年,德国学者统计了德语词汇的在文本中的出现频率,编制了世界上一部频率词典德语频率词典。1904年,波兰语言学家Baudouin De Courtenay指出,语言学家不仅应当掌握初等数学,而且还要掌握高等数学。他表示坚信,语言学将日益接近精密科学,并将根据数学的模式,更多地扩展量的概念,发展新的演绎思想的方法。,1933年,美国语言学家L.Bloomfield提出一个著名的论点:“数学只不过是语言所能达到
8、的最高境界。”1935年,加拿大学者E.Varder Beke提出了词的分布率的概念,并以之作为词典选词的主要标准。1944年,英国数学家发表了文学词语的统计分析一书,大规模地使用概率和统计的方法来研究词汇。,计算语言学的标志性事件:1962美国计算语言学会成立,每年举行一次年会,出版季刊美国计算语言学杂志(International Journal of Computational Linguistics)1965年在美国纽约成立国际计算语言学委员会,每两年召开一次学术研讨会。中国:我国的中文信息学会成立于1981年,出版季刊中文信息学报,隶属于中文信息学会的计算语言学专业委员会1987年6
9、月成立,1988年6月在北京举行了,首届计算语言学学术会议。,三、计算语言学的学科分类,计算语音学 计算词汇学 计算语法学 计算语义学 语料库语言学,(一)计算语音学:研究如何用计算机对语音信息进行处理,实现语音的自动识别和合成。语音识别(speech recognition):机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。,一般来说,完整的语音识别要经历三个步骤:(1)语音特征提取:目的是从语音波形中提取随时间变化的语音特征序列。(2)声学模型与模式匹配(识别算法):将输入的语音特征同声学模型(模式)进行匹配与比较,得到最佳的识别结果。(3)计算机对识别结果进行语法、语义分
10、析。明白语言的意义以便作出相应的反应。通常是通过语言模型来实现。,语音合成(speech synthesis):将可视的文本信息转化为可听的语音信息。哑人的手语语音iphone4S,(二)计算词汇学:研究如何用计算机处理自然语言的词汇,建立语言词汇库,术语数据库等机器可读词典。,机读词典的规模及词条的详尽程度将成为衡量一个语言信息处理系统质量的决定性因素。,(三)计算语法学:研究如何用计算机来分析自然语言的语法。这种研究在计算语言学中叫做自动语法分析(parsing)。,(四)计算语义学:如何利用计算机来分析自然语言的语义。优选语义学指的是用于自动翻译的一种语义学理论,英国人工智能专家Y.A.
11、威尔克斯于1974年提出。语义单位有 5种:义素;义式;裸模板;模板;超模板。,义素是最基本的语义单位,由义素构成义式,用以描写单词的语义;由义式构成裸模板及模板,用以描写简单句的语义;再由超模板描写更大的文句或段落的语义。威尔克斯确定了80个义素,分为 5组:语义实体:如 MAN(人类),STUFF(物质),THING(物体),PART(事物的部分),FOLK(人类的群体),STATE(存在的物质),BEAST(兽类)等等。动作:如FORCE(强迫),CAUSE(引起),FLOW(流动),PICK(挑选),BE(存在)等等。性状:如KIND(性质),HOW(动作的方式)等等。种类:如 CON
12、T(容器),THRU(孔)等等。格:如 TO(方向),SOUR(来源),GOAL(目标),LOCA(位置),SUBJ(施事),OBJE(受事),IN(包含),POSS(领属)等等。,(五)语料库语言学:语料库(corpus)亦称语库或素材,是收集并科学地组织起来的一套语言材料,这种材料是某种语言中自然出现的,可以是书面的,也可以是口头的。语料库语言学(corpus linguistics)是以语料库中的语篇(text)语料为基础对语言进行研究的一门学科。,北京大学人民日报标注语料库:北京语言大学的语料库:清华大学的汉语均衡语料库TH-ACorpus:山西大学的语料库:台湾中研院的语料库:现代汉
13、语平衡语料库:或 http:/www.sinica.edu.tw/tibe/2-words/modern-words/或 近代汉语标记语料库:古汉语语料库:或 或 http:/www.sinica.edu.tw/tibe/2-words/old-words/台湾南岛语典藏:闽南语典藏:汉籍电子文献:http:/www.sinica.edu.tw/tdbproj/handy1/或 香港城市大学的LIVAC共时语料库:或 http:/www.LIVAC.org 浙江师范大学的历史文献语料库:中国科学院计算所的双语语料库:中文语言资源联盟:,四、计算语言学的特点,(一)元语言的形式化1、对象语言、元
14、语言:对象语言指的是人们要研究的那种语言。元语言指的是人们描述对象语言的那种语言。从交际的角度来看,对象语言一般是人类正在使用的自然语言,也可以是死语言,元语言一般是人类正在使用的自然语言;从人机交流的角度讲,对象语言一般是类正在使用的自然语言,也可以是死语言,元语言一般是人工语言。,2、元语言为什么要形式化?自然语言太复杂了,这是自然语言做语言的最大缺陷。,计算语言学研究的重要内容:如何设计元语言才能更好地描述或叙述对象语言里的规律而且计算机能够读懂。计算语言学要考虑:一是技术上的需要,便于在计算机上实现。二是语言描述的需要,能精确深入地描述语言规律。,(二)具有可操作性:操作性描述性语言研
15、究的可操作性:告诉人们怎样从一个现成的句子(这时你并不懂这个句子的具体含义)变出他的句法结构乃至它的意义。其过程是先操作后理解。可操作性可以看成是计算语言学区别于传统语言学的特征之一。,(三)具有工程性:表现在其涉及领域的广泛和不能停留在理论和实验阶段,其最终目标是达到实用化。(四)注重语言研究的全局性和一般性:计算语言学研究的是带有普遍性和一般性的问题,而传统的语言学家往往喜欢研究的是内在的规律。,俞士汶,男,1938年 12月出生,安徽宣城人,汉族。1964年毕业于北京大学数学力学系。之后,一直在北大从事计算机学科的研究与教学工作。现任北京大学信息科学技术学院教授、计算语言学研究所学术指导
16、委员会主席。兼任中国中文信息学会和中国语文现代化学会常务理事、全国标准化技术委员会委员和三分会主任、新加坡汉语语言与计算学报联合主编等职。主持了多个国家973重点基础研究项目、国家863高技术项目、国家重点科技攻关项目、国家自然科学基金项目、国家社会科学基金项目以及国际、两岸合作项目。发表论文140多篇,著作8本。现代汉语语法信息词典等研究成果有广泛影响。得到政府部门和北京大学的多项奖励和表彰。培养了数十名计算语言学领域的博士生、硕士生,也与一批博士后和访问学者进行了合作研究。,推荐网站:北京大学语言研究所 詹卫东 卢伟推荐书:计算语言学基础 冯志伟 商务印书馆计算语言学 易绵竹 上海外语教育
17、 计算语言学与机器翻译导论 张政、苗天顺等 外语教学与研究出版社,北京大学、北语、厦大、上海师大、南京师大、华中科大、鲁东大学都有这个方向。,中文信息处理,中文信息处理的三个阶段:字处理:输入、显示、排序、排版;字形、字量词处理:词语切分、语法属性标注、词汇单位、词汇统计、词语构成、义项划分、义项统计句处理:语法搭配、句型、句式,五、汉字的信息处理(一)汉字与信息处理,笔、墨、纸、砚,甲、骨、金、木,打字机,电子计算机,汉 字,面 向人阅读笔画书写,人机互动、编码输入、自动识别,机械性质的整字书写,民族语言支持能力 NLS,(二)汉字输入,汉字输入,汉字键盘输入,语音识别,汉字识别,1、汉字识
18、别,电脑的汉字识别功能是指用计算机对印刷在纸上和手写在纸上汉字的自动辨识,它是中文信息处理中的一项重要功能。一个实用的汉字识别系统由扫描器,计算机主机,显示器,识别软件和字库等部分组成。工作过程:文稿,书刊等通过扫描器输入计算机,提取识别特征后与字库进行比较,并把识别结果显示出来。,印刷体:单体、多体,脱机手写,汉字识别,联机手写,2、语音识别,语音识别,特定人,非特定人,大词汇量,小词汇量,孤立发音,连续发音,特定人,非特定人,大词汇量,特定人,非特定人,思维惯式,快,解放了手,一些用户交换机、电话机、手机已经包含了语音识别拨号功能,还有语音记事本、语音智能玩具。人们可以通过电话网络用语音识
19、别口语对话系统查询有关的机票、旅游、银行信息,并且取得很好的结果。全球语音识别电话软件年销售收入达上亿美元。,汉字键盘输入(最广),汉字形码输入,汉字音码输入,音形码|形音码输入,汉字键盘输入,王码五笔字型郑码 T9笔画输入法,全拼,双拼,智能ABC,微软拼音,紫光拼音,搜狗,极点五笔五码智拼输入法大众形音输入法母字全能码,编码的优缺点(1),形码的优点 按字型编码,重码率低 无需顾及读音,对讲不好普通话的人适用;不认识的汉字照“样”可以输入。形码的缺点 要记忆的东西较多,难学难记;对字形不同人之间都会有不同的认识,易拆错。,音码的优缺点(2),音码的优点与人的语音思维一致,边进行文章的构思边
20、用音码输入音码的码键就在英文键盘上,不需要改造键盘。1958年以后出生的人,大多数学过汉语拼音,无需专门学音码。音码的缺点汉字同音字太多,重码率高,输入速度受限;不认识的汉字无法输入,甚至读不准也一样输入不了;比如:ji有109个同音字:几及急既即机鸡积记级极计挤己季寄纪系基激吉脊际汲肌嫉姬绩缉饥迹棘蓟技冀辑伎祭剂悸济籍寂期其奇忌齐妓继集给革击圾箕讥畸稽疾墼洎鲚屐齑戟鲫嵇矶稷戢虮诘笈暨笄剞叽蒺跻嵴掎跽霁唧畿荠瘠玑羁丌偈芨佶赍楫髻咭蕺觊麂骥殛岌亟犄乩芰哜,音形码|形音码的优缺点(3),以音形码为例:七 qz,动 dg,才 cf,大 dd,平 ps。这些字的第一位代码分别是其声母;这些字的第一画都
21、是“一”;这些字的第二画分别是“折、一、丨、丿、丶”;这些笔画的排列分别所对应的字符分别是“z,g,f,d,s,这种输入法介于形码和音码之间,有一定优势,与形码比她需要记忆的内容少了,与音码比她的重码率有了一定程度的控制。但与音码比她需要汉字知识,与形码比她需要一定的拼音知识,使用的人有限。,最终解决方式:以词为单位的音字转换高频先见,多用提前,新词自动记忆。,三、词语的信息处理,(一)自动分词的必要自动分词:让计算机把以字为单位的书面语流串变为以词为单位的形式就叫做自动分词。英语等西方语言的书面形式以空格作为词与词之间分隔标志,而汉语的书面形式却是连续的汉字串。自动分词是汉语自动分析中的一项
22、基础性工作。中文信息处理的各个领域,无论是在词频统计、情报检索、人机对话、机器翻译等方面,都是在词的基础上进行的。,为什么分词,文本检索 和服|务|于三日后裁制完毕,并呈送将军府中。王府饭店的设施|和|服务|是一流的。如果不分词或者“和服务”分词有误,都会导致荒谬的检索结果。文语转换 他们是来|查|金泰|撞人那件事的。(“查”读音为cha)行侠仗义的|查金泰|远近闻名。(“查”读音为zha),分词不当的例子:,在Google上输入“和服”搜索所有中文简体网页,总共结果507,000条,前20条结果中有14条与和服一点关系都没有。在第一页就有以下错误:“通信信息报:瑞星以技术和服务开拓网络安全市
23、场”“使用纯HTML的通用数据管理和服务-开发者-ZDNet.”“陈慧琳心口不一化妆和服装自己包办”“外交部:中国境外领事保护和服务指南(2003年版).”“产品和服务”,分词示例在2001年的中美黑客大战中8万中国黑客一起行动使中国红旗在美国白宫网站飘扬两个小时,在/2001/年/的/中/美/黑客/大/战/中/8/万/中国/黑客/一起/行动/使/中国/红旗/在/美国/白宫/网站/飘扬/两/个/小时,(二)自动分词的方法:机械切分、智能切分、统计切分。1、机械切分:运用简单的模式匹配技术的无条件切分。(1)正向最大匹配法:机器中存在一个词表,其中词长的最大值是N;根据从前到后的顺序,首先选取一
24、个连续的文本中的前N个字符作匹配字段,如果词表中有这个词,那么,就把文本中的这前N个字符作为一个词处理,如果没有,那么匹配文本中的前N-1个字符作为匹配字段如此下去,直到匹配成功。(右)例子:“我们应该开展计算语言学的研究”。词长是7的切分。,正向最大匹配法的缺点:a、词表设计困难:目前对什么是词还没有一个定论分词系统仍然没有一个统一的具有权威性的分词词表作为分词依据。b、如果N设计的过大,就会影响效率。c、如果N设计的过小,就会影响正确性。d、有些歧义不能解决。如:有意见分歧:正向最大匹配法的分词结果是:有意/见/分歧/e:未登录词无法解决。,(2)逆向最大匹配法(去掉最左):一般说来,逆向
25、匹配的切分精度略高于正向匹配,遇到的歧义现象也较少。统计结果表明,单纯使用正向最大匹配的错误率为1/169,单纯使用逆向最大匹配的错误率为1/245。逆向最大匹配法的分词结果是:有/意见/分歧/但是还是有些词是两种方法都不能解决:结合成分子时,2、智能切分:模拟人的思维,采用词法、句法、语义、语用等各种知识的有条件切分。它通常包括三个部分:分词子系统、句法语义子系统、总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。由于汉语语言知识的笼统、复杂性,难以将各种语言信息组织成机
26、器可直接读取的形式,因此目前基于理解的分词系统还处在试验阶段。,利用前趋字串和后继字串在词法、句法、语义、语用三方面的信息排除歧义利用词法信息湖上有几只美丽的白天鹅加入规则:“如果交段与其后继字串组成名词,则将该歧义词首字单切,否则,确认该歧义词为词”,利用语义信息例:学生会兴奋得手舞足蹈学生/会/兴奋/得/手舞足蹈学生会/兴奋/得/手舞足蹈加入规则“如果歧义切分字段后继动词的义项中含有动作发出者为“人”这个义素,则歧义字段的尾字单切,否则该歧义字段成词”,利用语用信息日本保留和尚使用的古代庙宇已经不多了乒乓球拍卖完了美国会通过对台售武法案,3、基于统计的分词方法:通过对大规模真实文本的统计,
27、让计算机自己判断什么是词,这样就产生了基于统计的分词方法,又称为无词典分词。这类方法分词的依据和主要思想是:词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。但是也有缺陷,如:了解答题的方法、他想出了解答的办法。,(三)、自动分词的问题:1、歧义字段(1)交集型歧义字段:汉字串AJB被称作交集型切分歧义,如果满足AJ,JB同时为词(A,J,B分别为汉字串)。此时汉字串J被称作交集串。例“结合成”:结合/成,结/合成让位移等于50厘米(让位移:让位/移、让/位移)这种歧义字段占全部歧义字段的以上。,交集型歧义字段的消解:伪歧义:虽然有歧义的可能,但是在真实的文
28、本中只有一种切分结果,如:挨/批评;爱/国家。这一种占约92.6。准歧义:通常只有一种切分结果:其/实质、解除/了。占5.5。真歧义:经常有两种切分结果:应用于;从小学。占1.9%。因此可以把伪歧义的切分结果预先放到一张表中,其歧义消解可以通过直接查找实现。,(2)组合型歧义字段:汉字串AB被称作多义组合型切分歧义,如果满足A,B,AB同时为词。他/站/起/身/来/。他/明天/起身/去/北京/。我一看他的/穿着/就知道他不是等闲之辈。她今天是穿/着/一身礼服出去的。你们/后天/再来吧到/家/后/天/就黑了。,2、未登录词的处理:未登录词:词典中未列入的词汇。包括固有名词、数词、时间词、专业及文
29、化新词等。吴立德在他的书上讲:一个经过人工分词的、含有15,000个词的法律语料库,其中竟然有30%的词没有登录在含70,000个词条的词典里,这个比例远远高于各种歧义字段在全文所占的比例1/110。因此在文本在计算机处理时,把汉语未登录词从文本中摘出来可能比一般的分词问题更重要。,固有名词主要的是人名,地名,单位公司名。对西方语言来说,头一个字母是大写的,比较容易识别,但是对于汉语就不容易。例如:“时间很快就过去了。”。这里的“时间”可以是人名!他姓“时”,名为“间”。当然也可以是表示“光阴”的那个时间,如何区别相当困难。地名,一般都不会是词典中的词。如沈阳、沟帮子、新民、苏家屯等。也可以出
30、现在词典里,如著名城市北京、上海。至于单位、公司名,那就复杂了,很难识别。我们只能通过局部自动识别方法来处理。例如选取未等录词的特征、前后缀标志、出现的频度、前后搭配的统计。,未登录词的识别:人名如果不予处理,将导致为数可观的分词错误。刘清楚楚动人.(例2)利用从左向右扫描的最大匹配法进行切分:刘清楚楚动人.,七、机器翻译,(一)、机器翻译在国外的发展1、草创时期:(1)、20世纪30年代的机械翻译 法国的阿尔尼楚和前苏联的特洛扬斯基(2)、20世纪50年代计算机翻译1949韦弗正式提出1964美国乔治敦大学和IBM公司进行了世界上第一次机器翻译实验(3)、20世纪60年代的ALPAC报告后的
31、萧条Automatic Language Processing Advisory Committee 语言自动处理咨询委员会,2、恢复期:20世纪70年代:开始注意句法和语义的研究3、繁荣期:20世纪70年代末至今:开始商业化。TAUMMETEO SYSTRAN机器翻译的繁荣期是以年加拿大蒙特利尔大学与加拿大联邦政府翻译局联合开发的实用性机器翻译系统TAUMMETEO正式提供天气预报服务为标志的。这个机器翻译系统投入实用之后,每小时可以翻译万万个词,每天可以翻译篇天气预报的资料,并能够通过电视、报纸立即公布。TAUMMETEO系统是机器翻译发展史上一个里程碑,它标志着机器翻译由复苏走向了繁荣。
32、,美国在乔治敦大学机器翻译系统的基础上,进一步开发了大型的机器翻译系统SYSTRAN,已提供试用。例如,提供给美国空军的SYSTRAN系统,词典有万千个词干形式和万千个词组,可进行俄英机器翻译,每小时可翻译万词;提供给美国拉特塞克(Latsec)公司的SYSTRAN系统,可进行俄英、英俄、德英、汉法、汉英机器翻译,每小时可译万万个词。SYSTRAN是目前应用最为广泛、所开发的语种最为丰富的一个实用化机器翻译系统。,(二)、机器翻译在中国的发展我国是继美国、苏联、英国、之后第四个开展机器翻译的国家。我国的机器翻译可以分作四个时期:1、草创时期:19561966:主要是俄汉翻译2、停滞时期:196
33、61975:,3、复苏时期:19751987:1975年11月,在中国科学技术情报研究所设立了一个由情报所、语言所和计算所等单位的工作人员组成的机器翻译协作研究组,并和大学合作。19801985年,中国社会科学院语言所与军事科学院合作开发了JFY翻译系统,这是全国第一套全文翻译系统,主要用于军事科学用语的翻译。,4、繁荣时期:1987至今这一时期是以“译星1号”的问世为标志的,它是我国第一个商品化的机器翻译产品。中科院软件所的“863”成果智能型英汉机器翻译系统(即快译通)以470万美元的价格卖给了香港权智集团。两次市场运作的成功对于国产软件商品化具有开拓性的意义,它们极大地刺激了整个国内软件
34、市场,也为日后机器翻译形成行业起了很大的推进作用。,(三)、机器翻译存在的问题:计算机、互联网在国内的逐渐普及,给机器翻译的发展创造了条件。但是由于无法逾越语法、语义障碍这个瓶颈,翻译的准确性离专业翻译用户的需求还相差很远,实用性远远不够,所以专业翻译软件的发展一直处于徘徊不前的状态。,目前机器翻译主要有两种形式,MT和TM。MT(machine translation)就是我们常见的基于规则的机器翻译软件,如金山快译、东方快车等,其主要用途是为了帮助英文不好的用户提供翻译参考,但准确性不高。研究人员发现MT遇到的瓶颈,便决定在人工智能技术不会有重大突破的前提下,绕过技术上的难题,另辟蹊径,利
35、用其他手段发展机器翻译,这就是TM(Translation Memory,翻译记忆),TM绕开了语言学的瓶颈,其原理是基于数据库,将翻译过的所有材料以句子为单位存入数据库。翻译时系统会自动对电子文档进行分析,100%匹配的句子可以自动替换,部分匹配的句子可根据匹配度提出翻译建议,新句子则通过系统提供的翻译建议进行人工翻译,而每次翻译又为以后积累句子。,补充:计算语言学之为用,饭馆咨询服务:目前,世界上已经出现不少使用自然语言的口语向计算机咨询饭馆服务情况的系统。例如,前往美国Massachusetts州Cambridge访问的一个访问者用口语问计算机在什么地方可以吃饭。系统查询了一个关于当地饭
36、馆的数据库之后,给出有关信息用自然语言做出回答。,图象到语音的自动转换:给计算机装上图象识别系统,它就可以观看一段足球比赛的录像,并且用自然语言实时地向足球爱好者报告比赛的情况。,残疾人增强交际:对于有言语或交际障碍的残疾人,计算机能预见到在说话过程中下面将要出现的词语,给他们做出提示,或者帮助他们说话时在词语方面进行扩充,使残疾人能完整地说出简洁的话语。,旅行咨询服务:例如,美国的Amtrak旅行社、美国联合航空公司以及其他的一些旅行社可以与智能会话代理(intelligent conversation agent)进行交互,在智能会话代理的指导下,他们能够自动地处理关于旅行中的订票、到达、
37、离开等方面的信息。,语音地理导航:汽车制造公司可以给汽车驾驶员提供语音识别和文本语音转换系统,使得他们可以通过语音来控制他们的环境、娱乐以及导航系统,从而自由地使用他们的双手操纵汽车。在国际空间站的宇航员也可以使用简单的口语对话系统来帮助他们的工作。语音合成系统还可以作为全球定位系统(GlobalPositioning System,简称GPS)的语音导航,使用自动合成的语音来报告地理情况,保证驾驶员用双手操纵汽车。目前使用语音导航的GPS经逐渐普及,给汽车驾驶员提供了极大的方便。,语音资料搜索:一些视频搜索公司使用语音识别技术,可以在网络上提供多达数百万小时的视频资料的搜索服务,并且在语音资
38、料中搜索到与之相应的单词。,跨语言信息检索和翻译:Google(谷歌)在网上提供跨语言信息检索和40多个语言对的自动翻译服务,用户可以使用他们自己的母语来提问,以便搜索其他语言中的有关信息。Google还可以对用户提出的问题进行自动翻译,找出与所提出的问题最相关的网页,然后自动地把它们翻译成用户的母语。,作文自动评分 在美国,像Pearson(培生公司)这样的大型出版社和像ETS(English Testervice)这样的测试服务公司使用自动系统来分析数千篇学生的英语作文,对于这些作文进行自动打分、自动排序和自动评价,而且计算机的打分结果与人的打分结果几乎毫无二致,难以分辨。,自动阅读家庭教师 让计算机充当自动阅读家庭教师,帮助改善阅读能力,它能教小孩阅读故事。当阅读人要求阅读或者出现阅读错误时,计算机能使用语音识别器来进行干预。具有生动活泼的动画特征的交互式虚拟智能代理可以充当教员来教儿童学习如何阅读。,个性化市场服务 文本分析公司根据用户在互联网论坛和用户群体组织中表现出来的意见、偏好、态度的自动测试结果,对用户提供智能化、个性化的服务,帮助用户在市场上挑选到符合他们要求的商品。,