【大学】双语语料库段落重组对齐方法研究.ppt

上传人:sccc 文档编号:6028440 上传时间:2023-09-16 格式:PPT 页数:32 大小:453.51KB
返回 下载 相关 举报
【大学】双语语料库段落重组对齐方法研究.ppt_第1页
第1页 / 共32页
【大学】双语语料库段落重组对齐方法研究.ppt_第2页
第2页 / 共32页
【大学】双语语料库段落重组对齐方法研究.ppt_第3页
第3页 / 共32页
【大学】双语语料库段落重组对齐方法研究.ppt_第4页
第4页 / 共32页
【大学】双语语料库段落重组对齐方法研究.ppt_第5页
第5页 / 共32页
点击查看更多>>
资源描述

《【大学】双语语料库段落重组对齐方法研究.ppt》由会员分享,可在线阅读,更多相关《【大学】双语语料库段落重组对齐方法研究.ppt(32页珍藏版)》请在三一办公上搜索。

1、双语语料库段落重组对齐方法研究,http:/,主要内容,引言方法结果讨论,http:/,构建双语语料库,机器翻译和跨语言检索解决人类的不同语言之间的障碍双语资源给机器翻译和跨语言检索提供了有力的支持,尤其是双语语料库构建双语语料库(英汉双语语料库)是一项十分有意义的工作,http:/,真实双语文本的特征,网络资源丰富篇章级对齐内容分散格式复杂风格各异,http:/,目前的问题,不同的对齐精度段落、句子、词和短语的对齐上一级的对齐是下一级对齐的基础经过统计发现90%以上的电子文本中的段落并不对应或者没有明显的段落标记,http:/,段落对齐和段落重组对齐,段落对齐是进行对齐加工的第一步对段落对齐

2、研究的很少段落对齐的目的是句子对齐段落重组对齐是打破原有的段落标记,对篇章进行重新分段,仅仅在形式上对篇章进行对齐,http:/,句子对齐,基于长度的句子对齐长句对应的译文长,短句对应译文短根据长度的不同单词个数-Brown et al.(1991c)字符的个数-Gale and Church(1993)基于词典的句子对齐,http:/,段落重组对齐(1),自动分段对齐研究(中科院计算所)将原有的段落合并通过汉英词汇对之间的特征比较,包括词的出现频率、字节偏移量、出现间隔向量找到可以用于分段的锚点词汇对通过锚点词所在句子的匹配获得锚点句子进行分段,http:/,段落重组对齐(2),适合含有较多

3、高频固定词的双语文本适合于术语提取数据稀疏(较少高频固定词)需要分词等预处理,http:/,主要内容,引言方法结果讨论,http:/,几个概念,锚点 句珠二分图(完全二分图)匹配 最优对齐匹配,http:/,锚点和句珠,锚点(anchor)Brown在对Hansard语料库进行对齐时,引入了锚点的概念,认为锚点的作用就是将整个语料库分成一些小的对齐片断句珠(Sentence bead)每一对相对应的句子称作句珠,http:/,二分图,设G为无向图,G=,结点集V有两个子集V1,V2满足V1 V2V,V1V2,使G的每一条边eE时,e=vi,vj,viV1,vjV2,即同一子集Vi(il,2)中

4、的任何两个结点都不邻接,称这样的图为二分图。,http:/,完全二分图,G记为G=V1,E,V2。对于二分图G中,若V1的每个结点与V2的每个结点相邻接,反之亦然。则称G为完全二分图,若|V1|m,|V2|n,则简记为Km,n,如图所示,http:/,匹配(Matching),设G是二分图,如E的一个子集M中的边无公共端点,即任两边均不邻接,则M为G的一个匹配。最优对齐匹配,http:/,最优对齐匹配,M为完全二分图G=的一个最优对齐匹配,满足以下条件:二分图中所有的节点是有序的 若|S|=m,|T|=n则首先默认sm,tnE;M中若存在一条边e=si,tj满足d(si,tj)j或ki且rj成

5、立;采用贪心算法依次在完全二分图G中选取权值最小的边,直到M中边数达到饱和。,http:/,最优对齐匹配(图示),http:/,T1,T2,T3,T4,T5,T6,T7 Tn-2,Tn-1,Tn,段落对齐问题和模型的关系,S(s1,s2,s3,si,sj,sm)V1T(t1,t2,t3,ti,tj,tn)V2(1:1)型句珠(si,tj)的集合Km,n默认文本中最后一句对齐sm,tnE 双语段落重组对齐 寻找最优对齐匹配,http:/,段落重组对齐的锚点选择,(1:1)型正确对齐句珠在文本中的分布情况(1:1)的句对在全篇的比例均超过85%,并且有着良好的分布规律,http:/,段落重组对齐总

6、体思想,篇章定位句长搭配词典校对,http:/,形式对齐评价函数,Pi,j=a(Pui,j-P0)+(Pli,j-P0)+a(Pdi,j-P0)P0为对应文本长度之比;Pui,j为对应上文部分长度之比;Pli,j为对应句长度之比;Pdi,j对应下文部分长度之比;a为加权系数,http:/,http:/,重组段落对齐思想,P0,锚点句对,Pui,j,Pli,j,Pdi,j,锚点句对的校验,词典检验 L|表示全部元素的字符长度和;Match(S)表示译文出现在汉语句中英语单词;Match(T)表示成为英文单词译文的汉语单词;,http:/,主要内容,引言方法结果讨论,http:/,试验结果(1),

7、召回率=(返回段落总数 错误段落总数)/双语文本中(1:1)型正确句珠总数;准确率=(返回段落总数 错误段落总数)/返回段落总数;,http:/,试验结果(2),http:/,重组分段的结果一般每一段落的句子数在10句以内。,重组分段的实例(1)-original,Around 30 people have staged a naked protest against GM food.The protesters spelled out no GM with their bodies in a meadow at Forest Row,East Sussex.Organiser Mike Gr

8、enville said he hoped it would send a message to the Government of peoples concern,particularly over commercial planting of GM crops.Mr Grenville,51,a self-employed business consultant from Forest Row,said:I think people were very pleased to have the opportunity to express how we feel,how frustrated

9、 we are about what seems to be the foregone conclusion,and the question many people are saying is What do we do next?.We hope others will follow our lead and find other ways to express how we feel.We do not want GM crops planted in the country at all.,http:/,约30名人士在英国苏塞克斯郡东部的福利斯劳的一处牧场裸体组成“反对基因改良作物”的

10、字样。组织者迈克-格伦威利,希望通过这次行动向政府传达人们反对商业化种植基因改良作物的意愿。51岁的格伦威利是福利斯劳一名自雇的商业顾问,他说:“当人们得知种植基因改良作物似乎不可避免时,他们感到十分沮丧。许多人都提出这样的问题,接下来我们该做什么?。令人欣慰的是,人们有机会表达内心的感受。希望其他人加入我们,跟我们一起找到其他表达内心感受的方法。我们根本不希望在这个国家里种植基因改良作物。,重组分段的实例(2)-Merged,http:/,Around 30 people have staged a naked protest against GM food.The protesters s

11、pelled out no GM with their bodies in a meadow at Forest Row,East Sussex.Organiser Mike Grenville said he hoped it would send a message to the Government of peoples concern,particularly over commercial planting of GM crops.Mr Grenville,51,a self-employed business consultant from Forest Row,said:I th

12、ink people were very pleased to have the opportunity to express how we feel,how frustrated we are about what seems to be the foregone conclusion,and the question many people are saying is What do we do next?.We hope others will follow our lead and find other ways to express how we feel.We do not wan

13、t GM crops planted in the country at all.,约30名人士在英国苏塞克斯郡东部的福利斯劳的一处牧场裸体组成“反对基因改良作物”的字样。组织者迈克-格伦威利,希望通过这次行动向政府传达人们反对商业化种植基因改良作物的意愿。51岁的格伦威利是福利斯劳一名自雇的商业顾问,他说:“当人们得知种植基因改良作物似乎不可避免时,他们感到十分沮丧。许多人都提出这样的问题,接下来我们该做什么?。令人欣慰的是,人们有机会表达内心的感受。希望其他人加入我们,跟我们一起找到其他表达内心感受的方法。我们根本不希望在这个国家里种植基因改良作物。,重组分段的实例(3)-ReAlign,

14、http:/,Around 30 people have staged a naked protest against GM food.The protesters spelled out“no GM”with their bodies in a meadow at Forest Row,East Sussex.Organiser Mike Grenville said he hoped it would send a message to the Government of peoples concern,particularly over commercial planting of GM

15、 crops.Mr Grenville,51,a self-employed business consultant from Forest Row,said:I think people were very pleased to have the opportunity to express how we feel,how frustrated we are about what seems to be the foregone conclusion,and the question many people are saying is What do we do next?.We hope

16、others will follow our lead and find other ways to express how we feel.We do not want GM crops planted in the country at all.,约30名人士在英国苏塞克斯郡东部的福利斯劳的一处牧场裸体组成“反对基因改良作物”的字样。组织者迈克-格伦威利,希望通过这次行动向政府传达人们反对商业化种植基因改良作物的意愿。51岁的格伦威利是福利斯劳一名自雇的商业顾问,他说:“当人们得知种植基因改良作物似乎不可避免时,他们感到十分沮丧。许多人都提出这样的问题,接下来我们该做什么?。令人欣慰的是,人们有机会表达内心的感受。希望其他人加入我们,跟我们一起找到其他表达内心感受的方法。我们根本不希望在这个国家里种植基因改良作物。,主要内容,引言方法结果讨论,http:/,讨论,有效的抑制了错误蔓延该算法有很强的鲁棒性在进行词典检验时,无需对汉语分词,实现简单,代价较小适合各种形式的语料,http:/,Thanks!,http:/,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 建筑/施工/环境 > 农业报告


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号