《知网-中文信息结构.ppt》由会员分享,可在线阅读,更多相关《知网-中文信息结构.ppt(46页珍藏版)》请在三一办公上搜索。
1、知网-中文信息结构,董振东 董强中科院计算机语言信息工程研究中心语言知识研究室e-mail:http:/Tel:(8610)6287-5641 Tel:(8610)6676-8816,提纲,前言 什么是中文信息结构 为什么要研究中文信息结构 怎样研究中文信息结构 中文信息结构库 中文信息结构库的应用,前言,知网是不依赖于特定语言的;信息结构是依赖于特定语言的。不同的语言可表达相同的信息,但有着不同的信息结构。知网中文信息结构库的研究与建设,是知网这一知识系统向中文研究延伸的具体体现。,概况,1996年知网-中文信息结构的理论研究 1998年国家语委97YY001课题支持 1999年香港大学教育
2、资助委员会基金 项目HKUST6149支持 词 词语 语义结构 信息结构 结构模式 建库,什么是中文信息结构,由两个或两个以上的字、词或短语构成的、句法和语义合理的、并传达特定信息的结构,该结构内不含有介词、助词、连词、标点,该结构内部允许呈递归形态。,中文语言结构及其类型,结构的特性 规定性 稳定性 递归性 词、短语、句的共同性 结构的类型 语音结构 句法结构 语义结构 信息结构,1 语音结构,基本单元:字、词 规定性表现:音节约束 发音变化,2 句法结构,基本单元:词语词类 规定性表现:句法关系管辖,3 语义结构,基本单元:词语义类 规定性表现:显性角色关系管辖,4 信息结构,基本单元:词
3、语义类及语义属性 规定性表现:显性角色关系管辖 道-路,花-草,树-叶,草-地,河-虾,晨-曦,逃-犯,走私-犯,毒品-走私-犯,境外-毒品-走私-集团,现代-汉语-词典,不锈钢-汽油-桶,高-跟-鞋,独-臂-英雄,走私-香烟,香烟-走私,走私-香烟,隐性角色关系管辖 花园-洋房,饺子-馆,韭菜-炒-鸡蛋,陈-方-安生,,为什么要研究中文信息结构,缺乏形态标志 缺乏功能词 管辖范围(range governed)未登录词语(见下面一些有趣的例子!),加强社会治安 北京发动群众今年北京市将尝试从出租车司机、保洁工人中聘任一批带有行业特点的治安信息员,以拓宽社会治安群防群治力量的来源。去年北京市严
4、重暴力案件仍呈上升趋势,街头盗、抢等八类案件同比增加,城乡结合部地区的治安问题仍比较突出。出租车司机、保洁工人的工作地点主要在街头,工作流动性大,掌握街头违法犯罪活动线索的机会也比较多,聘任他们做治安信息员有助于公安机关及时掌握街头案件的情况,迅速出警、破案。(2001.3.1 赵孟轶文)总字数:202 句数:4 标点:15 功能词:9 最长词语结构字数:25(词语数:12),President George W.Bush on Thursday expressed his regret over a Chinese fighter pilot missing after a collisio
5、n with a US spyplane off southern China,as Beijing also softened its stance.It was the first time the president had expressed regret first voiced on Wednesday by Colin Powell,his secretary of State.While his comments fell short of the apology China demanded,Mr Bush also made an effort to respond to
6、Chinese concerns by mentioning the pilot and his family.He said:“I regret that a Chinese pilot is missing and I regret that one of their airplanes is lost.Our prayers go out to the pilot,family.”(www.altavista)总字数:109 句数:5 标点:12 功能词:31 最长词语结构字数:6,未登录词语处理的一些实例(1),保洁工人:maintains cleanliness in the wor
7、ker keep a public place clean worker insure clean worker 工作流动性大:the job flows the sex is big the work fluidity is mainly big,未登录词语处理的一些实例(2),由暗补改为明补:(1)by darkly will make up changes to Ming Bu(2)will from dark mend alter is clear mend(3)visible subsidy are switched over to by invisible subsidy 逐步做到
8、分户计量:(1)gradually achieves the the minute household measurement(2)accomplish minute step by step household measure(3)accomplishes the measure at 分 family step by step,怎样研究中文信息结构,义原的确定 动态角色(概念间)的确定 关系方式的确定 模板描述和组织,义原的确定,理念汉字义项的封闭性中文词语结构规律性 方法选取常用5000汉字列出全部义项并同类合并整理,知网采用的义原 1503,实体 1 万物(物质、精神、事情、组织)13
9、4 部分(部件、配件)3 时间 1 空间(方向、位置)3 事件(关系/状态、动作)813 属性值(外观、量度、特性、关系、状况)316 数量值 13属性 117 数量 3专项特征(如:领域等)99,动态角色(概念间)的确定,方法 为813类“事件”确定必要角色框架 注意:什么是“必要”保持语义纯洁结果 动态角色:69(根据具体系统允许增减),关系方式的确定,显性角色关系管辖 隐性角色关系管辖,模板的描述,SEM_S=(事件,行动)-工具(人工物,体)例子:饭-盒,火柴-盒,鞋-盒,冰-盒,礼品-盒,调料-瓶,书-架,货-架,血-库,燃料-库,,模板的组织,以词语的义类为准 万物 部分 属性/数
10、量 属性值 数量值 事件 时间 空间 以结构样式为准 合成 并列 限定 功能 否定,中文信息结构库-总论,本库的基础是知网。本库的信息结构的描述对象是:由中文词语所表述的、由知网所规定的最基本的运算单元,它们是:万物、部件、属性、属性值、事件、时间和空间等。本库的信息结构的描述内容是:中文词语的各个组成部分之间的、由知网所规定的动态角色关系或属性。通过对信息结构的揭示,我们可以认识到中文是如何描述诸如万物、部件、属性等等概念的。本库揭示了中文的语言结构的规律。,中文信息结构库 规模,现在我们公布的中文信息结构库包含:A.信息结构模式:271个 B.句法分布式:48个 C.句法结构式:58个 D
11、.实例:11,000词语 E.总字数:100,000字,中文信息结构库 组织,由三部分组成:目录 信息结构模式及例子 信息结构模式的句法结构索引,关于“目录”,目录一信息结构模式及例子(限于篇幅,以下仅列出主目录)1 万物与部件2 属性 3 属性值 4 数量 5.事件 6 时间 7 空间 8 各种角色的否定二信息结构模式的句法结构索引,关于“句法分布式”,由词性代表的词语基本单元的排列,如:“餐馆”:N1+N2“走私集团”:V+N这里仅仅反映排列顺序,而不涉及管辖关系。同一个句法分布式可能有多种不同的管辖关系,因此它可能是结构歧义的。,关于“句法结构式”,由词性代表的词语基本单元的排列以及它们
12、之间的管辖关系,如:“餐馆”:N1-处所(组织/场所)“花园洋房”:(万物)领属物-(万物),信息结构模式描述的构成,(a)SYN_S=表示相应的句法结构式(b)SEM_S=表示信息结构模式(c)Query:表示该信息结构模式传达的真正信息 并由此可产生的问(d)Answer:表示该信息结构模式传达的真正信息 并由此可产生的答(e)例子:给出符合该信息结构模式的真实语料的 实例,实例讲解(1),SYN_S=N-N-NSEM_S=(地方,专)限定-(人,职位)修饰-(人,专/专/姓)Query1:谁?/哪一位?/什么人?Answer1:N1+N2+N3Query2:N3是做(干)什么(工作)的?
13、/N3的职务?/(你说的是)哪个N3?Answer2:N1+N2例子:中华人民共和国-主席-江泽民,中国-总理-朱鎔基,美国-总统-克林顿,英国-首相-克莱尔,俄罗斯-总统-普京,日本-首相-竹下登,澳门-特首-何厚铧,北京-市长-贾庆林,,实例讲解(2),SYN_S=N-N-V-NSEM_S=(地方/位置)处所-(万物)受事/成品受事/范围/内容/对象/领属物-(事件,行动)-施事(人/组织/部件,%组织)Query1:谁?Answer1:N1+N2+V+N3 Query2:那是哪儿的N3?Answer2:N1Query3:他(她)是做(干)什么的?Answer3:V+N2“的”例子:境外-
14、毒品-走私-犯,境内-毒品-走私-犯,台湾-毒品-走私-犯,哥伦比亚-毒品-走私-犯,中国-房地产-开发-商,港台-玩具-制造-商,台湾-废弃物-处理-业者,海外-房地产-投资-公司,机场-动植物-检疫-站,,实例讲解(3),SYN_S=N-V-NSEM_S=(万物)内容/领属物-(事件,状态)-经验者(人/组织/部件,%组织)Query1:谁?Answer1:N1+V+N2 Query2:他(她/它)怎么了?Answer2:V+N1“了”例子:心脏病-患-者,白内障-患-者,结核病-患-者,糖尿病-患-者,小儿麻痹症-患-者,综合症-患-者,病毒-携带-者,艾滋病-带菌-者,诺贝尔奖-得-主
15、,金牌-得-主,银牌-得-主,银像奖-获得-者,,实例讲解(4),SYN_S=A-N-NSEM_S=(属性值)/(数量值)/(事件,状态)修饰-(部件)-整体(物质)Query1:什么?Answer1:A+N1+N2Query2:什么样的N2?Answer2:N1“是”A“的”例子:白-毛-女,金-发-女郎,白-胡子-老头,尖-下巴-男子,大-屋顶-建筑,白-脸-狼,扁-口-鱼,阔-叶-林,长-统-袜,圆-领-衫,长-把儿-铁锹,高-脚-杯,独-眼-龙,独-臂-英雄,双-座-赛车,独-轮-车,单-缸-洗衣机,双-引擎-飞机,四-眼-炉灶,双-眼-炉灶,,实例讲解(5),SYN_S=N-V-NS
16、EM_S=(万物)受事/内容/对象/领属物-(事件,行动)范围-(属性)Query1:什么特性?/什么属性Answer1:N1+V+N2 例子:酒精-含-量,技术-含-量,蛋白质-含-量,焦油-含-量,尼古丁-含-量,废气-排放-量,污水-排放-量,污水-处理-量,微量元素-摄取-量,氧气-消耗-量,自我-发展-能力,自我-约束-能力,新式武器-测试-能力,(试增加:“年-污水-处理-量”模式:A-N-V-N),实例讲解(6),SYN_S=A-NSEM_S=(属性值)-范围(属性)Query1:什么样的?Answer1:A+N例子:大-型,高-价,彩-色,高-龄,高-额,高-水平,高-危,高-
17、性能,高-出生率,高-劳动强度,高-劳动生产率,高-死亡率,高-清晰度,高-星级,高-品格,高-品质,高-智商,高-中奖额,高-预测能力,低-面值,低-死亡率,好-人缘,低-出生率,平-价,零-利率,高-利率,广-谱,速-效,特-效,黑-种,高-分娩死亡率,,实例讲解(7),SYN_S=N-VSEM_S=(万物/部件/时间)受事-(事件,行动)Query1:做什么?/什么活动?Answer1:N+V 例子:货-运,蔬-食,客-运,水-污染,自-荐,自-救,自-律,自-杀,自-尽,自-裁,文物-走私,汽车-走私,香烟-走私,货物-运输,自然语言-处理,武器装备-更新,弹道导弹-防御,设备-更新换
18、代,矛盾纠纷-排查处理,,实例讲解(8),SYN_S=N-VSEM_S=(时间)时间-(事件)Query1:做什么?什么活动?Answer1:N+V Query2:什么时间的V?Answer2:N“时”例子:春-播,春-游,夏-锄,秋-收,冬-训,冬-眠,午-休,午-睡,晨-运,春-捂,秋-冻,冬-泳,日-用,工间-操,假日-旅游,假日-消费,课外-阅读,课外-教育,冬季-长跑,节日-联欢,暑期-补习,期末-考试,春节-运输,售后-服务,今日-抵埠,七月五日-完成,1999年12月9日星期四-发生严重泄漏,,信息结构模式的句法结构索引(1),(24)V+N 1SYN_S=V-N(共计21个模式
19、)SEM_S=(事件,行动)施事(人/拟人)猎-人,SEM_S=(事件,行动/状态)施事(兽/植物/部件,%兽/植物/天然物)飞-禽,SEM_S=(事件,状态/关系)经验者(人/国家/兽/植物/部件,%兽/植物)患-者,SEM_S=(事件,行动)受事/成品受事/内容/对象/领属物(万物)雇-员,SEM_S=(事件,行动)施事(组织/部件,%组织)住-家,,信息结构模式的句法结构索引(2),SEM_S=(事件,行动)处所(组织/场所)医-院,SEM_S=(事件,行动)工具(人工物)用-品,SEM_S=(事件,行动)代价(费用/资金)邮-费,SEM_S=(事件,行动)方法/手段(方法/权利/义务/
20、规矩)办-法,SEM_S=(事件,行动)限定(事情/事务)贪污-罪,SEM_S=(事件,行动/状态)内容(读物/知识/信息/规划/目的)游-记,,信息结构模式的句法结构索引(3),(24)V+N 2SYN_S=V-N(共计27个模式)SEM_S=(事件,“防”/“耐”/“驱”)合成-(物质)防-尘,SEM_S=(事件)-受事(万物/部件/属性/时间)喝-水,SEM_S=(事件)-领属物(万物/部件)取-款,SEM_S=(事件)-内容(万物/部件)违-规,,中文信息结构库的应用,结构排歧 语义排歧 未登录词语辨识 人机接口 术语抽取 文本分析和理解,举例,中美军机Center the Unite
21、d States military machine擦撞事件scratches the collision event防御网Defends the net可以发射拦截导弹Can be launched and intercept guided missiles,A.结构排歧 Structure disambiguation,条件:语境中出现歧义性句法分布方法:遍历查找知网-中文信息结构库;对未能直接查获的,进行语义距离比较所需资源:知识词典 知网-中文信息结构库 事件主要特征 实体主要特征注意:务必把音节因素考虑在内,A1.V+N1+的+N2(一),例:提高/药品/的/质量可能的结构歧义类型有:
22、V+N1+的+N2 V+N1+的+N2(如关押犯人的地方等)用V+N2(“提高”-“质量”)查知网-中文信息结构库,得到两组词语:提高-工资;提高-产量,提高-觉悟,提高-价格,提高-能力,提高-档次,提高-品质,提高-速度,提高-效率,提高-温度,提高-水平,提高-声誉,提高-规格,提高-单位面积产量,提高-工作效率,提高-经济效益,提高-劳动生产率,提高-产品质量,提高-生活水平,提高-知名度,提高-免疫力,,A1.V+N1+的+N2(二),计算“质量”与两组词语中的“-X(如:-工资;-产量、-觉悟、-价格)”的语义距离,便不难得出:该结构应为:。当然还有其它的方法,如可以用:N1+N2(“药品”-“质量”)查知网-中文信息结构库,如无直接匹配,再进行语义距离计算。,欢迎提问和批评,