《中文信息处理与汉语研究现状和发展.ppt》由会员分享,可在线阅读,更多相关《中文信息处理与汉语研究现状和发展.ppt(24页珍藏版)》请在三一办公上搜索。
1、1,中文信息处理与汉语研究 现状和发展,詹卫东北京大学中文系北京大学汉语语言学研究中心北京,100871http:/,全国语言文字信息化工作会议 湖南 长沙 2003.10.5-10.6,2,提 纲,中文信息处理研究的格局中文信息处理的现状和发展趋势语言知识资源的建设面向中文信息处理的汉语研究,3,一 中文信息处理研究的格局,信息的两个层次:符号层 中文/汉语/汉字内容层 符号所承载的意义中文信息处理的两个层次:字符处理(输入、存储、输出等)内容处理(词语切分,词性标注,结构分析,意义理解,推理,翻译等等),(信号 vs.信息),4,符号层的信息处理,拼音文字:小字符集 比较容易非拼音文字:大
2、字符集 难度很大,汉字是一个大字符集说文解字(东汉):9353字玉篇(南朝)收录16,917字广韵(宋代)收字26,194字字汇(明朝)收录33,197字康熙字典(清朝)收录47,043字汉语大字典(1992年)5.6万中华字海(1994年)8.6万,拉丁字母只有26个符号 斯拉夫字母只有33个符号 阿尔明尼亚字母只有38个符号 泰米尔字母只有36个符号 缅甸字母只有52个符号 泰文字母只有44个符号 老挝字母只有27个符号 藏文字母只有35个符号 韩文字母只有24个符号 日文假名只有48个符号,5,符号层的信息处理,汉字输入,自动输入,键盘输入,字形识别,声音识别,手写体识别,印刷体识别,在
3、线手写,脱机手写,整字键盘,通用键盘,主辅式,感应式,形码,音码,形音结合码,1,2,3,4,5,6,7,8,9,6,内容层的信息处理,形态丰富的语言(inflecting language):处理难形态不丰富的语言(analytic language):处理更难,7,内容层的信息处理,机器翻译全过程,8,内容层处理对符号层处理的反作用,9,内容层处理对符号层处理的反作用,10,内容层处理对符号层处理的反作用,11,内容层处理对符号层处理的反作用,12,二 中文信息处理的现状和发展趋势,现状符号层的处理成果已经得到广泛应用;中文输入/字库/字处理软件/排版/内容层的处理目前在词语识别和词性标注
4、方面已经取得重要进展,句子结构分析和语义分析方面仍有待探索,13,系统演示,北京大学现代汉语分词/词性标注/句法分析系统(孙斌、刘群、常宝宝、詹卫东等)(北大计算语言所网上分词、标注、注音系统),14,中文信息处理的发展趋势,发展趋势信息产品的多样化网络的迅速发展积累更多基础资源,开发更多应用系统。内容层的处理将受到越来越多的重视,信息家电,内容计算,,15,三 语言知识资源的建设,现代汉语语法信息词典基于配价理论的现代汉语语义词典现代汉语短语结构信息库2700万字现代汉语分词与词性标注语料库句子对齐的汉英双语语料库现代汉语树库现代汉语短语结构规则库,16,资源演示,现代汉语语义词典(詹卫东、
5、王惠等)http:/汉英平行语料库(常宝宝、柏晓静等)现代汉语树库(詹卫东、常宝宝等),17,四 面向中文信息处理的语言学研究,充分重视各个层次上的语言歧义研究拓展语言现象的研究面强调研究结果的可操作性,推动语言知识的形式化、系统化和规模化,加强语言知识库的工程建设,为中文信息处理(内容层的处理)积累更多基础资源,18,歧义示例,张 店 区 大 学 生 不 看 重 大 城 市 户 口,19,歧义示例(续),有 三 百 多 种 树,20,歧义示例(续),请 转告 李宇明 司长 下午 三点 出发,v v n n t t v,21,要让计算机“理解”一个句子,实际上要解决下面两个核心问题:(1)一个
6、句子的结构和意义是什么?(2)如何得到一个句子的结构和意义?第一个问题是“What”的问题,这是理论语言学关心的问题;第二个问题是“How”的问题,这是计算语言学关心的问题,也就是面向中文信息处理的语言研究需要关心的问题。,结 语,22,参考文献,慈林林 鲁元魁,1999,中文信息处理新技术展望,计算机世界1999年第44期“产品与技术”版“专题报道”。刘梦松,1998,中文信息处理软件概述,计算机世界1998年第26期“技术专题”版。许嘉璐,2002,现状和设想 试论中文信息处理与现代汉语研究,中国语文2000年第6期。俞士汶,朱学锋,2002,关于汉语信息处理的认识及其研究方略,语言文字应
7、用2002年第3期。俞士汶,朱学锋,王惠,2001,的新进展,中文信息学报2001年第1期。詹卫东,常宝宝,俞士汶,2002,机器翻译与语言研究,语言科学2002年第1期(创刊号)。詹卫东,2000,80年代以来汉语信息处理研究述评,当代语言学 2000年第2期。张华平,2003,中文信息处理技术发展简史,(中文信息处理开放平台网站),23,国内外重要的语言知识资源举例,WordNet,http:/www.cogsci.princeton.edu/wn/FrameNet,http:/www.icsi.berkeley.edu/framenet/HowNet,台湾中研院词库、现代汉语平衡语料库,24,谢 谢请大家批评指正欢迎访问http:/,