自然语言理解LP.ppt

上传人:小飞机 文档编号:6339238 上传时间:2023-10-18 格式:PPT 页数:78 大小:585KB
返回 下载 相关 举报
自然语言理解LP.ppt_第1页
第1页 / 共78页
自然语言理解LP.ppt_第2页
第2页 / 共78页
自然语言理解LP.ppt_第3页
第3页 / 共78页
自然语言理解LP.ppt_第4页
第4页 / 共78页
自然语言理解LP.ppt_第5页
第5页 / 共78页
点击查看更多>>
资源描述

《自然语言理解LP.ppt》由会员分享,可在线阅读,更多相关《自然语言理解LP.ppt(78页珍藏版)》请在三一办公上搜索。

1、自然语言理解,李鹏,内容大纲,一、概述二、形式语法三、概率语法,一、概述,自然语言指人类使用的语言,如汉语、英语等。自然语言处理(natural language processing,NLP)或称自然语言理解(natural language understanding,NLU),就是以计算机为工具对人类特有的书面形式和口头形式的自然语言的信息进行各种类型处理和加工的技术。,一、概述,“自然语言处理可以定义为研究在人与人交际中,以及在人与计算机交际中的语言问题的一门学科。自然语言处理要研制表示语言能力(linguistic competence)和语言应用(linguistic perfor

2、mance)的模型,建立计算框架来实现这样的语言模型,提出相应的方法来不断地完善这样的语言模型,根据这样的语言模型设计各种实用系统,并探讨这些实用系统的评测技术。”B.Manaris,Natural language processing in the view of man-machine interchange,in Advances in Computer,Volume 47,1999.,NLP vs NLU,NLP:对自然语言所进行的任何有意义的操作。NLU:为了理解自然语言而进行的各种操作。NLP 是实现NLU的手段,NLU是进行NLP的目的。,1.1 自然语言理解研究的内容,机器翻

3、译(Machine translation,MT)信息检索(Information retrieval,IR)自动文摘(Automatic abstracting)文档分类(Document categorization)问答系统(Question-answering system)信息过滤(Information filtering)语言教学(Language teaching)等,1.1 自然语言理解研究的内容,建立一种语言结构到另一种结构的映射字符串到隐状态序列名字实体抽取,词性标签等问题一种字符串到另一种字符串机器翻译字符串到解析树语言解析字符串到关系型数据库信息抽取,1.2 自然语言

4、的发展历史,早在计算机出现以前,英国数学家A.M.Turing(图灵)就预见到未来的计算机将会对自然语言研究提出新的问题。他在1950 年发表的机器能思维吗一文中指出:“我们可以期待,总有一天机器会同人在一切的智能领域里竞争起来。但是,以哪一点作为竞争的出发点呢?这是一个很难决定的问题。许多人以为可以把下棋之类的极为抽象的活动作为最好的出发点,不过,我更倾向于支持另一种主张,这种主张认为,最好的出发点是制造出一种具有智能的、可用钱买到的机器,然后,教这种机器理解英语并且说英语。这个过程可以仿效小孩子说话的那种办法来进行。”Turing提出,检验计算机智能高低的最好办法是让计算机来讲英语和理解英

5、语。他天才地预见到计算机和自然语言将会结下不解之缘。,1.2 自然语言的发展历史,从20 世纪40 年代到50 年代末,这个时期是自然语言处理的萌芽期。A.M.Turing 算法计算模型的研究N.Chomsky 关于形式语言理论的研究C.E.Shannon 概率和信息论模型的研究自然语言处理萌芽期的这些出色的基础性研究,为自然语言处理的理论和技术奠定了坚实的基础。,1.2 自然语言的发展历史,20 世纪60 年代中期到80 年代末期是自然语言处理的发展期。主要表现在:机器翻译的发展统计方法在语音识别算法的研制中取得成功逻辑方法在自然语言处理中取得了很好的成绩,1.2 自然语言的发展历史,从20

6、 世纪90 年代开始,自然语言处理进入了繁荣期。这个新纪元的重要标志是在基于规则的技术中引入了语料库方法,其中包括统计方法、基于实例的方法、通过语料加工手段使语料库转化为语言知识库的方法。,什么是语料库,语料库,英文为Corpus存储语言材料的仓库现代的语料库是指存放在计算机里的原始语料文本或经过加工后带有语言学信息标注的语料文本,关于语料库的三点基本认识,语料库中存放的是在语言的实际使用中真实出现过的语言材料;语料库是以电子计算机为载体承载语言知识的基础资源;真实语料需要经过加工(分析和处理),才能成为有用的资源;,语料库示例,北京大学计算语言所富士通人民日报标注语料库样例:历史/n 将/d

7、 铭记/v 这个/r 坐标/n:/w 北纬/b/m 度/q、/w 东经/b/m 度/q;/w 人们/n 将/d 铭记/v 这/r 一/m 时刻/n:/w 年/t 月/t 日/t 时/t 分/t。/w 中国/ns 政府/n nt 顺利/ad 恢复/v 对/p 香港/ns 行使/v 主权/n,/w 并/c 按照/p“/w 一国两制/j”/w、/w“/w 港人治港/l”/w、/w 高度/d 自治/v 的/u 方针/n 保持/v 香港/ns 的/u 繁荣/an 稳定/an。/w,语料库的分类,生语料库/熟语料库生语料库就是未经加工的,没有任何切分,标注标记的原始语料库熟语料库就是指经过加工,带有切分,

8、标注标记的语料库系统型语料库/专用型语料库系统型语料库就是依据事先确定的选材原则和比例选取语料的语料库专用型语料库就是指专门服务于某个特定目的的语料库单语种语料库/多语种语料库,1.3自然语言理解研究的基本问题,语音(Phonetics)学问题:研究词及其语音的关联。形态学(Morphology)问题:研究词是如何由意义的基本单位“词素”(morphemes)构成的。语法学(Syntax)问题:研究句子结构成分之间的相互关系和组成句子序列的规则。,1.3自然语言理解研究的基本问题,语义学(Semantics)问题:研究如何从一个语句中词的意义,及这些词在该语句的句法结构中的作用来推导出该语句的

9、意义。语用学(Pragmatics)问题:研究在不同上下文中语句的应用,以及上下文对语句理解所产生的影响。,1.4 自然语言理解研究的基本方法,理性主义(规则方法)1960 1980中期基本信念:有限语言规则覆盖无限语言现象。然而:(1)语言现象无限丰富和动态开放,“规则有限性和封闭性”受到质疑(2)随着规则数量增多,可能经常产生规则之间的矛盾冲突(3)人工提取规则费时费事,机器提取规则的质量还难以保证,1.4 自然语言理解研究的基本方法,经验主义(统计方法)1920-1950,1980中期-基本信念:多者为真。然而,(1)统计特性的假设(符号独立或Markov阶数固定)在实际语言现象中难以成

10、立(2)即使语料库的规模很大,往往也难以保证语料统计结构的遍历性(数据稀疏)(3)统计方法本身的“统计平均性质”,不保证实际结果的正确性,解决办法:理性主义方法与经验主义方法的融合。符号智能 计算智能理性主义研究方法 符号处理系统经验主义研究方法 基于语言数据的计算方法理性主义与经验主义的合谋 融合方法,二、形式语法,2.1 概述形式语法理论的目的是试图用精确的数学模型(形式语言)来刻画自然语言。与统计语言模型不同的是,对于一个形式语法体系来说,一个句子是否属于一种语言,只存在“是”“否”两种答案,不存在中间状态(概率),形式语法体系的目标准确:能够产生语言中所有的句子,而不产生语言中不存在的

11、句子简洁:尽可能用比较少的规则来描述一种语言高效:分析的计算复杂度越低越好,语法理论的几个里程碑:1950 Chomsky提出了4类形式语法1980 Chomsky提出管辖与约束理论(GB)随后研究者们提出了词汇功能语法(LFG)树连接语法(TAG)链语法(Link Grammar)等等,2.2 GB理论,语法构成管辖约束理论(Government and Binding theory,GB)认为语法由两大系统构成:规则系统,原则系统。,2.2.1 X理论,以CFG为基本骨架。该理论认为:无论哪种词组,其结构均以中心语加上补语,或者中心语加上标志语方式构成。形式上为:Xn-1 Xn-2 COM

12、PXn SPEC Xn-1其中,SPEC 为标志语;COMP 为补语;Xi(i n,n-1,n-2)为中心语。,2.2.2 格理论,格理论属于句法结构的范围。它表示句中各成分之间的关系,以及这种关系实现的形式手段。确定在怎样的结构条件下和在句子生成的哪个阶段,一些词(如动词、介词)可以赋格,哪些词必须取得格。这里的格既包括可见格,如俄语中的六个格,也包括隐性格,如汉语和英语中的格。因此,格理论研究的是一种抽象格。格理论对词组位移后留下的语迹是否能取得格也做了相应的规定。,2.2.3 管辖理论,从结构上定义哪些成分可以管辖,哪些成分可以把格赋给另外一些成分。可以赋格的成分称之为主管成分,如:动词

13、,介词等;受其管辖的成分称之为受管成分,如:名词,形容词等;这种关系称之为管辖关系。管辖理论研究成为主管、受管成分的条件;研究代词、空语类以及它们与先行词之间的管辖关系等。,2.2.4 提元理论,题元理论研究各词项之间的题元关系,即传统语法中用施事、受事、工具等术语表示的概念范畴之间的关系。题元理论以动词为中心,认为每一个题元角色都是由动词分配的。题元准则:每个论元(argument)必须且只许充当一个题元角色(-role);每个题元角色必须且只许由一个论元充当。,kill有“施事”和“受事”两个题元,run只有一个“施事”题元。不同的动词有不同数目的题元,这是动词的词汇特征,由词库规定。Th

14、ey go John.是不合法的句子,因为John处于“受事”题元角色的位置,而动词go却没有分配“受事”题元角色。汉语动词“开了”的主语位置可以是施事,也可以是受事,而宾语位置只能是受事。而“推”的主语位置只能是施事。,2.2.5 约束理论,研究名词词组之间的指称关系,在怎样的结构范围(辖域)内,代词(如:你、我、他、它等)、反身代词(如:自己)、指称语、空语类等,可以受到先行词的约束,与先行词同指。例如:水边草地上,一头牛啃着嫩草,放牛娃背对着 它在吹笛子。,2.2.6 控制理论,控制理论研究的对象是PRO,研究PRO怎样受先行词的控制。PRO是一个空语类,它有一个先行词,同时又具有代词的

15、性质。如:老王叫儿子PRO去买点酒来。这里PRO和“儿子”同指,而不是和“老王”同指。,管辖理论、格理论讨论管辖范围、管辖对象;格理论、提元理论则在结构和语义两个层次上讨论同一个对象;约束理论和控制理论都是研究名词性词组之间的同指问题。几种理论相互补充、相互交互、相互限制,以解释各种语言现象。,2.3 功能合一文法,功能合一文法(Function Unification Grammar,FUG)是1985年Martin Kay(Stanford University)提出的。提出起因Chomsky 短语结构语法生成能力太强,产生许多不符合语法或有歧义的句子;标记十分简单,分析能力有限,难以反映

16、自然语言的复杂特性。,FUG对短语结构语法的改进,采用复杂特征集来描述词、句法规则、语义信息,以及句子的结构功能。试图以单一形式的结构模式来描述特征组合、功能分配、词条和组成成分的顺序,以达到对句子的完全功能描述。采用合一运算对复杂特征集进行运算。,2.3.1 复杂特征集,复杂特征集功能描述的定义设为一个功能描述FD(Functional Description),当且仅当可以表示为:f1=v1 f2=v2 n 1 其中,fi表示特征 名,fn=vn vi表示特征值,(1)特征名fi 为原子,特征值vi 为原子或另一个功能描述;(2)(fi)=vi(i=1,n),读作:复杂特征集中,特征fi的

17、值等于vi。,如何用复杂特征集描述词汇,在词典中单词的特征可以包括词类、形态、句法和语义等多方面的信息,如:Cat Verb is:per=3 num=singular Tense=present Lex=be,如何用复杂特征集描述规则,S NP+Verb Cat=S Subject=Cat=NP Cat=Verb Predicator=Number=Person=,如何用复杂特征集描述句子,句子:We helped her.,复杂特征集的特点,允许利用多个语言特征描述同一个语言单位从结构上看,复杂特征集是一种嵌套结构,可以有效地表示复杂词组或句子结构;特征名的定义及其相互关系具有明显的层次性

18、,而所有自然语言的结构都是层次性的,复杂特征集的这一特点显然对语言的层次分析有益复杂特征集便于运算,两个复杂特征集通过合一运算可以产生另一个复杂特征集,这与句法分析中词组和句子的产生是一致的。,2.3.2 合一运算,复杂特征集相容的定义若、均为复杂特征集,则、是相容当且仅当:(1)如果(f)=a、(f)=b,且a、b都是原子,那么、是相容的,当且仅当ab;(2)如果(f)、(f)均为复杂特征集,、是相容的,当且仅当(f)、(f)相容。,合一运算的递归定义,(1)在a、b都是原子的情况下,如果ab,那么 a U b=a,否则a U b=;(2)如果、均为复杂特征集,则(a)若(f)=v,但(f)

19、的值未经定义,则f=v 属于U;(b)若(f)=v,但(f)的值未经定义,则f=v 属于U;(c)若(f)=v1,但(f)=v2,且v1与v2 相容(不相抵触),则f=(v1 U v2)属于U,否则U=。,例1:,例2:,合一运算的作用,(1)合并原有的特征信息,构造新的特征结构;(2)检查特征的相容性和规则执行的前提条件是否满足,如果参与合一的特征相冲突,就立即宣布合一失败。,2.4 词汇功能语法,词汇功能语法(Lexical Functional Grammar,LFG)于上个世纪70年代末期由R.Kaplan and J.Bresnan 在美国MIT提出。基本观点句子由两个相对独立的层次

20、来描述:(1)成分结构层次:描述句子成分的结构关系(2)功能结构层次:描述句子主语、谓语、宾语等之间的关系,词汇功能语法的特点,以短语结构语法来构造句法树(成分结构,即c-结构),不使用转换规则和深层结构的概念;以特征结构(功能结构,即f-结构)作为表达语法信息的主要手段;以合一作为运算的基本方式;以词汇中的信息作为语法信息的主要的来源。,词汇功能语法的规则,词汇功能语法的两种结构,词汇功能文法句子的合法性,以动词为中心进行检查:一个论元只允许有一个值(唯一性);每个论元都应该有值(完备性);不该有的论元不应该有值(一致性);不满足这三个条件的句子为不合法的句子例如假设句子的中心动词为love

21、s,其PRED特征的值为:(PRED)=love 那么该句子的特征结构中必须有且只有SUBJ和OBJ这两个论元具有特征值,2.5 中心词驱动的短语结构语法(HPSG),HPSG是现在西方很流行的一种理论。由Pollard and Sag(1987)提出的原型,1994年对其进行了改进,形成了一个完整的句法理论。HPSG的理论主张:是基于约束的词汇主义Surface Oriented(面向表层)Constraint-Based(基于约束)Strict Lexicalism(严格的词汇主义)特征结构(Feature Structure)是描述语法信息的一种手段,HPSG 广泛采用复杂特征结构来描述

22、词语或短语信息。复杂特征结构是 HPSG 实现其“词汇主义”的主要手段,是 HPSG 理论的重要组成部分,例如,关于动词give的描写:,基本特点强调中心词在短语结构规则中的作用中心语补足语规则(Head-Complement Rule)中心语指示语规则(Head-SpecifierRule)中心语修饰语规则(Head-Modifier Rule)产生式规则特征结构合一运算基于中心词的属性特征传递(Head Feature Principle,)以同样的形式化方式表达句法知识和语义知识,2.6 树邻接语法,树连接语法(Tree Adjoining Grammar,TAG)1975年由美国学者J

23、oshi提出。提出的动机是试图弥补上下无关文法过于简单、不能限制一些不合法语言现象的弱点。TAG是介于上下文无关和上下文有关文法之间的一种语法表示形式。,TAG的形式化定义,G=VN:非终结符集合VT:终结符集合S:起始符T0:初始树集(initial trees)Ta:附属树集(auxiliary trees),TAG中的两种操作,替换(substitution)把一个树的根结点与另一个初始树中标为替换的非终结符叶结点合并,生成一棵新的树。根结点和替换结点必须具有相同的标识。,附加(adjunction)把一个附属树嫁接(graft)到一个初始树的任意非终结结点上。,2.7 链文法,链接文法

24、是根据单词的连接要求来分析句子和判断句子合法性的文法。链接文法中的句子由一个单词序列构成,每个单词均有连接要求(用连接因子表示)。链语法是一种“词汇主义”的语法体系,不使用规则,所有语法信息都由词语来承载。链语法的表达能力等价于上下文无关语法。,每个单词的连接要求如图表示每个单词的连接要求在句子中被满足,连接因子:描述单词连接要求的字符串。由至少一个大写字母开头,紧跟若干个(或零个)小写字母,最后是后缀“+”“-”。连接因子有方向性,两个连接因子所含字符串相同且方向相反,则匹配。,单词的连接要求有两种表达方式:标准式(如前示)、分离式标准式:分离式:,对于一个合法的句子,要求句子中所有的单词的

25、链接条件都被满足,并且所有的链接符合下面4条元规则(Meta Rule)的要求:平面性(Planarity)连通性(Connectivity)顺序性(Ordering)排它性(Exclusion)一个合法的句子中所有的链接称为一个链接集(linkage),链接集就是链语法分析句子的结果。,三、概率语法,大规模语料库的出现为自然语言统计处理方法的实现提供了可能,统计方法的成功使用推动了语料库语言学的发展。语言模型:P(W=w1w2wn)统计语言模型实际上就是一个概率分布,它给出了一种语言中所有可能的句子的出现概率。,基于大规模语料库和统计方法,我们可以发现语言使用的普遍规律进行机器学习、自动获取

26、语言知识对未知语言现象进行推测概率语法通常指n 阶马尔柯夫链语言模型(n元文法)隐马尔柯夫模型(HMM)概率上下文无关文法(probabilistic CFG,PCFG)概率链接语法(probabilistic link grammar)等,3.1 N-元文法,N元语法(N-gram)假设:单词wi出现的概率只与其前面的N-1个单词有关,举例,N=1时:一元语法,相当于词频表,给出所有词出现的频率N=2时:二元语法,相当于一个转移矩阵,给出每一个词后面出现另一个词的概率N=3时:三元语法,相当于一个三维转移矩阵,给出每一个词对儿后面出现另一个词的概率在自然语言处理中,N元语法可以在汉字层面,也

27、可以在单词层面,还可以在概念层面,二元语法图示,P(t-i-p)=P(X1=t)P(X2=i|X1=t)P(X3=p|X2=i)=1.00.30.6=0.18,应用,代码识别问题音字转换问题汉语分词问题 等,N元语法的参数估计,得:对于n-gram,参数 可由最大似然估计求得:用实际样本中事件出现的频率来估计该事件的概率,例如,给定训练语料:“John read Moby Dick”,“Mary read a different book”,“She read a book by Cher”根据二元文法求句子John read a book.的概率?,John read a book.,数据平

28、滑,数据稀疏问题如果f(w1wn)0,那么出现零概率,导致整个文本的出现概率为零基本思想调整最大似然估计的概率值,使零概率增值,使非零概率下调,“劫富济贫”,消除零概率,改进模型的整体正确率。基本约束:,加一法Good-turing 法绝对减值法线性减值法回退法删除插值法,3.2 隐马尔柯夫模型,该模型是一个双重随机过程,我们不知道具体的状态序列,只知道状态转移的概率,即模型的状态转换过程是不可观察的(隐蔽的),而可观察的事件的随机过程是隐蔽的状态转换过程的随机函数。,模型定义,(HMM)是一个五元组:(x,o,A,B,)其中:x=q1,.qN:状态的有限集合o=v1,.,vM:观察值的有限集合A=aij,aij=p(Xt+1=qj|Xt=qi):转移概率B=bik,bik=p(Ot=vk|Xt=qi):输出概率=i,i=p(X1=qi):初始状态分布,模型中的三个问题,=A,B,为给定HMM的参数,令=O1,.,OT 为观察值序列隐马尔可夫模型(HMM)的三个基本问题:1.评估问题:对于给定模型,求某个观察值序列的概率p(|);2.解码问题:对于给定模型和观察值序列,求可能性最大的状态序列;3.学习问题:对于给定的一个观察值序列,调整参数,使得观察值出现的概率p(|)最大。,谢谢!,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号