《人工智能导论课件第11章第3节.pptx》由会员分享,可在线阅读,更多相关《人工智能导论课件第11章第3节.pptx(18页珍藏版)》请在三一办公上搜索。
1、,1,基础期,第3节,1基础期2符号与随机方法3四种范式4经验主义和有限状态模型第,最早的自然语言理解方面的研究工作是机器翻译。1949年,美国人威弗首先提出了机器翻译设计方案,此后,自然语言处理历史大致分为6个时期。表11-1 NLP的6个时期,11.3 自然语言处理的历史最早的自然语言理解方面的研究工,自然语言处理的历史可追溯到以图灵的计算算法模型为基础的计算机科学发展之初。在奠定了初步基础后,该领域出现了许多子领域,每个子领域都为计算机进一步的研究提供了沃土。图灵的工作导致了其他计算模型的产生,如McCulloch-Pitts神经元,它是对人类神经元进行建模,具有多个输入,并且只有组合输
2、入超过阈值时才产生输出。之后是史蒂芬科尔克莱尼在有限自动机和正则表达式方面的工作,它们在计算语言学和理论计算机科学中发挥了重要作用。,11.3.1 基础期(20世纪40年代和50年代)自然语言,香农在有限自动机中引入了概率,使得这些模型在语言模糊表示方面变得更加强大。这些具有概率的有限自动机基于数学中的马尔可夫模型,它们在自然语言处理的下一个重大发展中起着至关重要的作用。采纳了Shannon的观点,诺姆乔姆斯基对形式语法的工作产生主要影响,建立了计算语言学。Chomsky使用有限自动机描述形式语法,他按照生成语言的语法定义了语言。基于形式语言理论,语言可以被视为一组字符串,并且每个字符串可以被
3、视为由有限自动机产生的符号序列。,11.3.1 基础期(20世纪40年代和50年代)香农在有,在构建这个领域的过程中,Shannon与Chomsky对自然语言处理的早期工作产生了另一个重大的影响。特别是Shannon的噪声通道模型,对语言处理中概率算法的发展至关重要。在噪声通道模型中,假设输入由于噪声变得模糊不清,则必须从噪声输入中恢复原始词。在概念上,Shannon对待输入就好像输入已经通过了一个嘈杂的通信通道。基于该模型,Shannon使用概率方法找出输入和可能词之间的最佳匹配。,11.3.1 基础期(20世纪40年代和50年代)在构建这,从早期思想中,自然语言处理显然可以从两个不同的角度
4、考虑,即符号和随机。Chomsky的形式语言理论体现了符号的方法。基于这种观点,语言包含了一系列的符号,这些符号序列必须遵循其生成语法的句法规则。这种观点将语言结构简化为一组明确规定的规则,允许将每个句子和单词分解成结构组分。人们发展了解析算法,将输入分解成更小的意义单元和结构单元,带来了几种不同的策略,如自上而下的解析和自下而上的解析。泽里格哈里斯发展了转换和话语分析项目,后来的解析算法工作使用动态规划的概念,将中间结果存储在表中,构建最佳可能的解析。,11.3.2 符号与随机方法(19571970)从早期思,因此,符号方法强调了语言结构以及对输入的解析,使输入的语句转换成结构单元。另一个主
5、要方法是随机方法,这种方法更关注使用概率来表示语言中的模糊性。来自数学领域的贝叶斯方法用于表示条件概率。这种方法的早期应用包括光学字符识别以及布菜索和布朗尼建立的早期文本识别系统。给定一个字典,通过将字母序列中所包含的每个字母的似然值进行相乘,我们可以计算得到字母序列的似然值。,11.3.2 符号与随机方法(19571970)因此,符,这一时期由4种范式主导:(1)随机方法。在语音识别和解码方面,随机方法被应用到了噪声通道模型的早期工作,马尔可夫模型被修改成为隐马尔可夫模型(HMM),进一步表示模糊性和不确定性。在语音识别的发展中,AT&T的贝尔实验室、IBM的托马斯 J. 华盛顿研究中心和普
6、林斯顿大学的国防分析研究所都发挥了关键作用。这一时期,随机方法开始占据主导地位。,11.3.3 4种范式(19701983)这一时期由4种,(2)符号方法做出了重要贡献,自然语言处理是继经典符号方法后的另一个发展方向。这个研究领域可以追溯到甚至是1956年的“人工智能”达特茅斯大会。在所建立的系统中,AI研究人员开始强调所使用的基本推理和逻辑,例如纽厄尔和西蒙的逻辑理论家系统和一般求解器系统。为了使这些系统“合理化”它们的方式,给出解决方案,系统必须通过语言来“理解”问题。因此,在这些AI系统中,自然语言处理成为一个应用,这样就可以允许这些系统通过识别输入问题中的文本模式回答问题。,11.3.
7、3 4种范式(19701983)(2)符号方法,(3)基于逻辑的系统。使用形式逻辑来表示语言处理中所涉及的计算。主要的贡献包括Colmerauer及其同事在变形语法方面的工作,佩雷拉和沃伦在确定子句语法方面的工作,凯(Kay)在功能语法方面的工作,以及布鲁斯南和卡普兰在词汇功能语法方面的工作。,11.3.3 4种范式(19701983)(3)基于逻辑,20世纪70年代,随着威诺格拉德的SHRDLU系统的诞生,自然语言处理迎来了它最具有生产力的时期。SHRDLU系统是一个仿真系统,在该系统中,机器人将积木块移动到不同的位置。机器人响应来自用户的命令,将适合的积木块移动到彼此的顶部。例如,如果用户
8、要求机器人将蓝色块移动到较大的红色块顶上,那么机器人将成功地理解并遵循该命令。这个系统将自然语言处理推至一个新的复杂程度,指向更高级的解析使用方式。解析不是简单地关注语法,而是在意义和话语的层面上使用,这样才能允许系统更成功地解释命令。,11.3.3 4种范式(19701983)20世纪70年,同样,耶鲁大学的Roger Schank及其同事在系统中建立了更多有关意义的概念知识。Schank使用诸如脚本和框架这样的模型来组织系统可用的信息。例如,如果系统应该回答有关餐厅订单的问题,那么应该将与餐馆相关联的一般信息提供给系统。脚本可以捕获与己知场景相关联的典型细节信息,系统将使用这些关联回答关于
9、这些场景的问题。其他系统,如LUNAR(用于回答关于月亮岩石的问题),将自然语言理解与基于逻辑的方法相结合,使用谓词逻辑作为语义表达式。因此,这些系统结合了更多的语义知识,扩展了符号方法的能力,使其从语法规则扩展到语义理解。,11.3.3 4种范式(19701983)同样,耶鲁大学,(4)在格罗兹的工作中,最有特色的是话语建模范式,她和同事引入并集中研究话语和话语焦点的子结构上,而西德纳引入了首语重复法。霍布斯等研究者也在这一领域做出了贡献。,11.3.3 4种范式(19701983)(4)在格罗兹,20世纪80年代和90年代初,随着早期想法的再次流行,有限状态模型等符号方法得以继续发展。Ka
10、plan和Kay在有限状态语音学和词法学方面的研究以及丘奇在有限状态语法模型方面的研究,带来了它们的复兴。在这一时期,人们将第二个趋势称为“经验主义的回归”。这种方法受到IBM的Thomas J. Watson研究中心工作的高度影响,这个研究中心在语音和语言处理中采用概率模型。与数据驱动方法相结合的概率模型,将研究的重点转移到了对词性标注、解析、附加模糊度和语义学的研究。经验方法也带来了模型评估的新焦点,为评估开发了量化指标。其重点是与先前所发表的研究进行性能方面的比较。,11.3.4 经验主义和有限状态模型(19831993),这一时期的变化表明,概率和数据驱动的方法在语音研究的各个方面(包
11、括解析、词性标注、参考解析和话语处理的算法)成了NLP研究的标准。它融合了概率,并采用从语音识别和信息检索中借鉴来的评估方法。这一切都似乎与计算机速度和内存的快速增长相契合,计算机速度和内存的增长让人们可以在商业中利用各种语音和语言处理子领域的发展,特别是包括带有拼写和语法校正的语音识别子区域。同样重要的是,Web的兴起强调了基于语言的检索和基于语言的信息提取的可能性和需求。,11.3.5 大融合(19941999)这一时期的变化表,进入20世纪,标志着一个重要的发展:语言数据联盟(LDC)之类的组织提供了大量可用的书面和口头材料。如Penn Treebank这样的集合注释了具有句法和语义信息
12、的书面材料。在开发新的语言处理系统时,这种资源的价值立刻得以显现。通过比较系统化的解析和注释,新系统可以得到训练。监督机器学习成为解决诸如解析和语义分析等传统问题的主要部分。,11.3.6 机器学习的兴起(20002008)进入20,随着计算机的速度和内存的不断增加,可用的高性能计算系统加速了这一发展。随着大量用户可用更多的计算能力,语音和语言处理技术可以应用于商业领域。特别是在各种环境中,具有拼写/语法校正工具的语音识别变得更加常用。由于信息检索和信息提取成了Web应用的关键部分,因此Web是这些应用的另一个主要推动力。近年来,无人监督的统计方法开始重新得到关注。这些方法有效地应用到了对单独、未注释的数据进行机器翻译。开发可靠、已注释的语料库的成本成了监督学习方法使用的限制因素。,11.3.6 机器学习的兴起(20002008)随着计算,人工智能导论,Introduction to artificial intelligence,人工智能导论Introduction to artifici,