《全信息自然语言理解方法论课件.ppt》由会员分享,可在线阅读,更多相关《全信息自然语言理解方法论课件.ppt(20页珍藏版)》请在三一办公上搜索。
1、自然语言理解与全信息理论方法论的探讨及应用,钟义信北京邮电大学智能研究中心yxzhongieee.org,NLP-NLU,NLP:对自然语言所进行的任何有意义的操作。NLU:为了理解自然语言而进行的各种操作。,NLP 是实现NLU的手段,NLU是进行NLP的目的。,为何要特别关注NLU问题?,社会全球化:人-人多语言沟通,先进生产力:人-机自然语言沟通,NLP/NLU:方法论的困惑(1),理性主义(规则方法)基本信念:“有限语言规则覆盖无限语言现象”。然而,(1)语言现象无限丰富和动态开放,“规则有限性和 封闭性”受到质疑;有限性与可实现性(2)随着规则数量增多,可能经常产生规则之间的 矛盾冲
2、突(3)人工提取规则费时费事,机器提取规则的质量 还难以保证,NLP-NLU:方法论的困惑(2),经验主义(统计方法):基本信念:“多者为真”然而,(1)统计特性的假设(符号独立或Markov阶数固定)在实际语言现象中难以成立,先天不足(2)何谓“足够大”?即使语料库的规模很大,往往也 难以保证语料统计结构的遍历性(数据稀疏)(3)统计方法本身的“统计平均性质”,不保证实际结 果的正确性;“多者为真”信念受到挑战,出路:优势互补,理想的东西都不现实;现实的东西都不理想。理性主义和经验主义虽然在理想条件下都有无穷的威力,但都受到实际条件的限制,不可能包打天下 理性主义和经验主义恰具互补特性,于是
3、出路只有互相结合,实现优势互补。问题:怎样互补?语言学规则框架,统计学处理手段;底层统计,高层理解;多层嵌套,互动互补。,科学方法论的变迁,全信息:主体关于“事物运动状态及其变化方式”的表述,包括“状态-方式”的形式、内容和价值的表述。,现代科学:信息科学、系统科学、认知科学、智能科学,现代科学方法论特点:(1)信号与信息,(2)形式与内容(3)客观与主观,(4)确定与不定(4)分解与综合,(6)局部与整体,现代科学方法论意义:二元科学 三元科学;物质结构能量转换 信息机制 分解分析方法 分合互动方法,系统:相互作用的要素的有机整体;整体大于部分和,自然语言是认识论信息(而不是本体论信息)的载
4、体。因此,对自然语言的理解应是对它所载荷的认识论信息的理解。认识论信息是形式-内容-价值三位一体。因此,理解信息需要利用全信息理论。(Comprehensive Information Theory)Shannon信息论是全信息理论的特例,它主要适用于通信等场合。,自然语言理解与全信息,Shannon信息的概念,Shannon信息论(Mathematical Theory of Communication),Y,X,D,信息论的信息概念:消除随机波形不定型的东西。是随机型的语法信息,信息论在解决通信问题方面是完美的(Perfect)理论;但在解决智能问题方面却无能为力(Problematic)
5、。,语法信息、语义信息、语用信息的三位一体。,符号,主体,客体,含义,效用,语义信息,语法信息,语用信息,形式,详见信息科学原理,第三版,2002年.,全信息的基本概念,语义信息与语用信息,语义信息涉及事物和公共主体,语用信息才关注效用主体,语义信息不能代替语用信息,语法信息只涉及事物本身,语法信息参量:Certainty(C),语义信息参量:Logic Truth(T),语用信息参量:Utility(U),全信息的表示,X x1 x2 xn xNC c1 c2 cn cNT t1 t2 tn tNU u1 u2 un uN,状态矢量,肯定度,真实度,效用度,全信息的度量,I(T;X)=log
6、 2+t log t+(1-t)log(1-t)1/N,n=1,N,n,n,n,n,I(U;X)=log 2+u log u+(1-u)log(1-u)1/N,n=1,N,n,n,n,n,I(C;X)=log N+c log c,n,n,n=1,N,=log 2+(1/N),N,n=1,c log c+(1-c)log(1-c),n,n,n,n,if X is random/Incidental;,If X is fuzzy in nature.,自然语言理解的层次,理解语法信息(理解结构):浅层次,理解语法-语义信息(理解结构-内容):中层次,理解语法-语义-语用信息(理解结构-内容-价值)
7、:深层次,理解全信息的最小单位是语句;准确的理解往往要涉及更大的范围:语段,语篇。,全信息自然语言理解方法论模型,预处理,语用分析,语义分析,语法分析,全信息库,合法?,有用?,真实?,+,+,+,Y,Y,Y,N,N,N,人工建构,机器学习,后处理,模型说明,宏观框架的完备性:理性主义-语法信息分析-语义信息分析-语用信息分析,微观实现的灵活性:经验主义/理性主义-可用统计学方法(如VSM)-可用规则推理方法-可用混合方法,理性主义与经验主义:优势互补,三位一体,需要注意的问题,根据问题确定理解深度,全信息与特征矢量,全信息辞典与Ontology,应用举例:信息内容安全监控(CICS),预处理,后处理,语用分析,语义分析,语法分析,全信息库,合法句?,要过滤?,相关类?,+,+,+,Y,Y,Y,N,N,N,人工创建,机器学习,应用举例,Internet,搜索引擎,摘要,分类,安全分析,对话,翻译,检索,全信息自然语言理解方法论,信息-知识-智能转换理论,知识管理,谢 谢!,