文字信息国际标准进展问题与思考.ppt

上传人:sccc 文档编号:5392105 上传时间:2023-07-02 格式:PPT 页数:63 大小:1.46MB
返回 下载 相关 举报
文字信息国际标准进展问题与思考.ppt_第1页
第1页 / 共63页
文字信息国际标准进展问题与思考.ppt_第2页
第2页 / 共63页
文字信息国际标准进展问题与思考.ppt_第3页
第3页 / 共63页
文字信息国际标准进展问题与思考.ppt_第4页
第4页 / 共63页
文字信息国际标准进展问题与思考.ppt_第5页
第5页 / 共63页
点击查看更多>>
资源描述

《文字信息国际标准进展问题与思考.ppt》由会员分享,可在线阅读,更多相关《文字信息国际标准进展问题与思考.ppt(63页珍藏版)》请在三一办公上搜索。

1、文字信息国际标准进展,问题与思考,张轴材 语言文字应用研究所 客座研究员ISO/IEC IRG 汉字组 召集人书同文数字化技术有限公司 CEOJ,2003-11-05 长沙 全国语言文字信息化工作会议,为什么此处只谈文字信息化?,对语言信息化标准的进展缺乏了解 个人充其量只有一些“数量文字学”的概念 字词语,字是基础;文字信息化是语言信息化的基础,文字信息化的最基本的任务,建立传统的真实世界的文字(古今中外)与计算机世界(虚拟世界)的联系:编码汉字-汉字编码 Character Encoding IME 编码汉字是文字在计算机内最基本的表达形式,文字编码特点,按文字编码,而不是按语言、国度、地

2、域编码;CJK汉字统一编码。按抽象字形编码,而不是按字音、字义编码,也不是按具体造型编码。体系结构与过去ISO 2022迥然不同 在基本多文种平面,16比特全编码,ISO 2022 vs.UCS 16-Bit Full Encoding 编码结构,UCS/Unicode 完全不同于 Code Page!,文字信息标准化的集中体现ISO/IEC 10646&Unicode,80 年代末启动 ISO/IEC 10646-1:1993=GB 13000 ISO/IEC 10646-1:2000+CJK_A,蒙,藏,彝,朝 ISO/IEC 10646-2:2001+CJK_B,Tai Le,Yijin

3、g ISO/IEC 10646-2003=Unicode 4.0 Amendment 1 to 10646-2003 开始,Amendment Now?未出版就开始作补编?,Yes!好像 IT 的特点。文字的信息技术标准像软件一样,版本不断更新。(e-Publishing的驱动力)标志着文字的信息化步伐加快,正向深度和广度进军。对此要有足够的认识。不能拘泥于旧式的老套套、老本本。,广 度-文种的扩充,古波斯文 古希腊文 古希腊音乐符 巴斯巴文 西双版纳傣文 国际音标IPA 扩充 古汉字:隶,篆,甲骨,,深 度,文字属性(Characteristics)的扩充 SC2 职能的扩大(SC20 Ch

4、aracter Ordering 纳入SC2)UCA:Unicode 4.0 Collation Algorithm 理序算法,深 度,国际基本汉字子集 International Basic CJK Ideograph Subset,结合国家规范汉字表定义之。(IRG#21)WG2 决议:SuperCJK Database 纳入字典指针:康熙字典、汉语大字典、大汉和、大字源。Signifying/Signified 能指/所指明晰化。例:U+082B8 signifies 艺,芸,藝。指向了最主要的形音义属性。,深 度,从汉字的“水平认同”走向“垂直关联”简繁异体汉字的关联(有方向性、耦合强

5、度、时间性、合法性等问题,略)中文域名的简繁异关联已经提上日程 清华大学=清華大學=淸蕐大學,深 度,Variant Selector 异体字选择符 USI=Unique Sequence Identifier 具有特异性的序列标识符,亟待研究,问 题,全球化步伐加快,我体制跟不上 美国-微软-Unicode形成强势难敌 我缺乏有效参与:Tai Lue,Phags-Pa 与IT界结合不紧密,未形成合力 长“坐而论”,偶“起而行”。,思 考,一个文字发源于、应用于一个国家,但是它并不只属于这个国家。这个文字信息的标准化步伐并不完全以我们的意志为转移。只有积极地参与、介入国际标准的开发,才能处于主

6、导的地位。,思 考,国家信息化,电子政务、电子政务、电子商务、数字图书馆、电子出版、电子教育,语言文字信息化是先行官,文字信息标准化是基础。紧紧把握文字标准化的要点,做好高层协调、多方协作;掌握文字信息的核心资源、推动文字技术的核心技术开发。,思 考,高度重视汉字属性-知识库的建设(Attributes-Characteristics)发掘汉字的深层内涵,引导语文信息化发展。文字信息标准化工作从IT界为主应当尽快转向文字工作者为主;对以藏文为代表的民族文字信息化的走向做出果断的、正确的决策。,最主要的建议,期望国家语委真正担当起语言文字信息标准化的领导者的角色。抓大放小,有所不为,保证重点。组

7、织落实、任务落实、项目落实、经费落实。,谢谢!问题?,IRG:www.cse.cukh.edu.hkirgUniHan:Email:,CJK汉字,CJKA,CJK B,CJK C,CJK D,汉字,形,n-Gram,音,义,码,频,序,简,繁,异,n-Gram属性,词,语,词属性:音频义,同反义,语属性:音频义,同反义,国家语言文字资源建设汉字属性数据库 HADB,属性Characteristics,语词字,汉字属性数据库HADB vs.汉字知识平台HKP,HADB 是HKP的基础:Hanzi Knowledge Platform 语言工作的编纂平台 HADB 是链接传统字书、辞书的纽带HAD

8、B是挂接语料库的桥梁,汉字知识平台HKP-Authoring Tool,Operating System&Data Base Manager,HADB汉字属性库,Full Text RetrievalEngine,OCR Engine,E-字书集DictBank,语料库 CorpusSet,例证提取询经问典,ISO/IEC 10646 GB 13000 GB 13000 GB 18030 GB 18030=GBK 再扩充,文字定义(ScriptLanguage),Script:A set of graphic characters used for the written form of on

9、e or more languages 用于一种或多种书面形式的语言的图形字符的集合,CJK Unification中日韩汉字统一编码,CJK Unification中日韩汉字统一编码,CJK Unification中日韩汉字统一编码,CJK Unification中日韩汉字统一编码,CJK Unification中日韩汉字 统一编码,CJK Unification中日韩汉字 统一编码简繁不认同,CJK Unification中日韩汉字统一编码结构不同不认同,CJK Unification源字集分离者不认同,CJK Unification 源字集分离者不认同,CJK Unification R

10、ule中日韩汉字认同规则,汉 字,编码的+未编码的 以CJK+CJK_A为基础 以国际基本汉字子集BIIS 国家规范汉字为重点 加入CJK_B 以后加入CJK_C 古汉字 汉字系其他字,形 字形,字种及其代表,典型字样 中日韩、大陆港澳台特征 部首0+(部首1)康熙部首 汉语大字典 200部首 部首外笔画数 总笔画数 笔顺序列,音,汉语拼音+调(+n 多音)注音BoPoMoFo+调(+n 多音)反切 CTS:Character To Speech 单字发声引擎 Katakana 日文发音,义,现代字义 古代字义 主要/次要字义 在主要字典中的义项 摩登新义:“酷”,“靓”港台变义 日文字义,码

11、,ISO/IEC 10646 Code=Unicode GB 2312 GBK Big5 CNS 11643 ShiftJIS JIS HKSAR Code 电报码 K,V,频,平衡语料中字频 古籍语料中字频 现代社会生活“当今字频”,古籍字频书同文公司八亿古籍语料统计,古籍字频,古籍字频,古籍字频,古籍字频,古籍字频统计 样张,古籍字频-中日韩标准对古籍的覆盖率,古籍字频-随机查询、关联查询,国家语委十五科技攻关重点项目之一书同文公司开发辅助软件古籍字频查询示例,例:查询前若干个高频字,例:关联字字频查询,序 Ordering&Collating,在指定集合中 以总笔划为序,横竖撇点折 以拼

12、音为序 综合理序(一二三四五怎么排序?),简繁异-单字关联,关联属性:简繁?正异?新旧?古今?通假?中日?正讹?避讳?耦合强度 转换方向-对应方向:语境相关 语词背景 Context 代码转换vs.简繁转换,大量的异体字相互关联 VariantsInherently Associated Each Other,簡體-繁體關係:简/簡 正體-異體關係:修/俢 兔/兎 刃/刄正字-訛(譌)字:久/乆 派/泒 叐/犮通假-被通假:詳/佯古今字:镸/長新舊字形:青/靑 說/説 媪/媼中日:売/卖 図/图 单/単形近異義字:义/叉 刺/剌 諫/諌避諱字:弘/玄/燁/胤/禛/,异体字存在于多个代码页,Ma

13、ny Code Pages-Before,團団 JIS,团GB,團Big5,團KSC,异体字被归纳在一个统一的体系内,Many Code Pages-Before Single Code Set Now!,团-團-団 Unicode/CJK,例:文字关联帮助读者检索,說,説文,说,再例:文字关联帮助读者检索,渕,小渊,淵,词、语,现代词库 10万?古汉语词库20万?新词(按揭,丁克,Kiosk)同义词库(不一定符合传统语言学,孙中山=孙逸仙=孙文,OpenType=Open Type)专业词库,nGram,不一定具有语言学的意义,但对信息技术有利。例:Bigram“子曰”的高频度,有利于排除“子日”,“于曰”,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 建筑/施工/环境 > 农业报告


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号