信息的分类与编码陈庄.ppt

上传人:小飞机 文档编号:5230096 上传时间:2023-06-16 格式:PPT 页数:41 大小:323.50KB
返回 下载 相关 举报
信息的分类与编码陈庄.ppt_第1页
第1页 / 共41页
信息的分类与编码陈庄.ppt_第2页
第2页 / 共41页
信息的分类与编码陈庄.ppt_第3页
第3页 / 共41页
信息的分类与编码陈庄.ppt_第4页
第4页 / 共41页
信息的分类与编码陈庄.ppt_第5页
第5页 / 共41页
点击查看更多>>
资源描述

《信息的分类与编码陈庄.ppt》由会员分享,可在线阅读,更多相关《信息的分类与编码陈庄.ppt(41页珍藏版)》请在三一办公上搜索。

1、信息的分类与编码,信息资源组织与管理之第2讲,陈庄 博士 教授重庆市经委企业信息化专家组专家重庆市科委制造业信息化专家组专家重庆市软件协会理事;,2005/02/22开讲,2023/6/16,重庆工学院计算机学院陈庄,2,内容提要(1/2),2.0 基本概念(重点)2.0.1 信息分类与编码的概念2.0.2 对信息进行分类与编码的重要意义2.1 信息元素的涵义(重点:信息分类与编码的最小单位)2.1.1 信息元素的概念2.1.2 信息元素的命名原则2.1.3 信息元素的标识2.1.4 信息元素的一致性2.2 信息分类的方法(重点)2.2.1 信息分类的基本原则2.2.2 信息分类的常用方法2.

2、2.2.1 线分类法2.2.2.2 面分类法2.2.2.3 混合分类法,2023/6/16,重庆工学院计算机学院陈庄,3,内容提要(2/2),2.3 信息编码的方法(重点)2.3.1 信息编码与信息代码的关系2.3.2 信息编码的原则2.3.3 信息编码的方法2.3.3.1 信息编码方法体系表 2.3.3.2 符号编码法2.3.3.3 符号含义编码法2.3.4 信息编码的校验2.3.4.1 信息编码错误归类及其解决方法2.3.4.2 信息编码错误的校验常用方法2.3.4.3 信息编码错误的校验步骤2.3.4.4 校验案例 2.4 作业(.),2023/6/16,重庆工学院计算机学院陈庄,4,2

3、.0.1 信息分类与编码的概念,1、信息分类的概念信息分类就是将具有某种共同特性或特征的信息归并在起,把不具有上述共性的信息区分开来的过程。2、信息编码的概念信息编码是将表示信息的某种符号体系(如文字、图像)转换成便于计算机识别和处理的另一种符号体系的过程。,2023/6/16,重庆工学院计算机学院陈庄,5,2.0.2 对信息进行分类与编码的重要意义,社会经济、科学技术的发展 人们可利用的信息量急剧增长 提高这些信息资源的综合利用水平成为人们社会生活中亟待解决的问题?上述问题中必须首先解决的关键问题就是:如何识别、组织这些信息资源?而对信息进行科学的分类与编码是解决这一问题的前提与关键:信息的

4、效用在于交流。进行信息交流的各方只有对表示信息的符号体系有统一的理解,这种交流才有意义,信息才能得到有效的利用。信息按科学的原则进行分类与编码,并依次作为一定范围内(如国际、国家、地区、行业、企业)共同遵守的准则和进行信息交换的共同语言(即标准)。,2023/6/16,重庆工学院计算机学院陈庄,6,2.1.1 信息元素的概念,信息元素(又称数据元素或数据项)是最小的不可再分的信息单位,是一类信息的总称。例如:船舶资料中的船名“天河轮”、“冀海轮”等,可以抽象出“船舶名称”这个数据元素;每一条船都有一个编号,可以概括出“船舶编号”这个数据元素。通常职工档案中的“简历”、“受奖情况”等,不是信息元

5、素。因为“简历”至少包括时间、地点等信息,是可以继续分解的信息;“受奖情况”也是可以继续分解的信息。(注意:“信息元素”可以视为数据库中的“字段”),2023/6/16,重庆工学院计算机学院陈庄,7,2.1.2 信息元素的命名原则(1/2),1、命名原则信息元素命名的原则就是用一简明的词组来描述一个信息元素的意义和用途。2、词组的一般结构类别词和基本词都只有个,修饰词可以有一个或多个;类别词是信息元素命名中的个最重要的名词,用来识别和描述信息元素的一般用途或功能,一般不具有行业持征,条目较少。如数量(AMOUNT)、名称(NAME)、编号(NUMBER)、代码(CODE)等。基本词是类别词的最

6、重要的修饰词,它对一大类信息对象进一步分类(反映一小类信息对象),一般具有行业特征,条目较多。如会计(ACCOUNTING)、预算(BUDGET)、顾客(CUSTOMER)等。,修饰词一基本词一类别词,2023/6/16,重庆工学院计算机学院陈庄,8,2.1.2 信息元素的命名原则(2/2),3、信息元素命名案例社会保险编码 社会(修饰词)、保险(基本词)、编号(类别词)学校学生学号、九龙学院学生学号学校贵重设备名称学校(修饰词)、贵重(修饰词)、设备(基本词)、名称(类别词),2023/6/16,重庆工学院计算机学院陈庄,9,2.1.3 信息元素的标识,1、信息元素标识的含义又称信息元编码是

7、计算机和管理人员共同使用的标识。2、信息元素标识的方法用限定长度的大写字母字符串表达,字母字符可按信息元素名称的汉语拼音抽取首音字字母,也可按英文词首字母或缩写规则得出。3、案例:,2023/6/16,重庆工学院计算机学院陈庄,10,2.1.4 信息元素的一致性,信息元素命名和信息元素标识要在组织(政府部门或企事业单位)中保持一致。不允许有“同名异义”的信息元素。也不允许有“同义异名”的信息元素。这里的”名”是指信息元素的标识;“义”是指信息元素的命名或定义。,2023/6/16,重庆工学院计算机学院陈庄,11,2.2.1 信息分类的基本原则(1/2),1、科学性使类别的划分符合信息的内涵、性

8、质及使用与管理要求;选择信息的本质属性和特征作为分类的依据,使分类体系结构具有稳定性,以供人们方便地使用。2、系统性分类结构中各类信息按照他们之间的相互联系排成一定的顺序,形成一个系统,既便于人们区分信息、识别信息,又便于人们从整体上去把握信息之间的关系。3、可扩展性随着科学技术的进步和社会经济的发展,人们可利用的信息量急剧增长,信息的类别和分类体系结构也应适应这种变化的需要,这就要求:分类体系结构在原有的基础上有扩展的余地,其中包括新的类别的增补和在原有类别的基础上进行分解、细化。,2023/6/16,重庆工学院计算机学院陈庄,12,2.2.1 信息分类的基本原则(2/2),4、兼容性信息的

9、分类是一个庞大而复杂的系统,这个大系统中存在着若干层分系统与子系统,一些子系统之间存在着相互联系和信息共享问题:如生产类信息和人事类信息中都包含工人这一类信息。生产类信息在对工人这一信息的定义和再分类时就要和人事类信息兼容。5、实用性由于信息的属性与特征的多样性,在实际生活中选择何种属性与特征进行分类还要考虑到人们实际应用的需要。例如:某企业在开发新产品时,管理部门、设计部门与制造部门从各自的应用目的出发,对信息的分类会提出不同的要求。管理部门从企业的经营管理目标出发,希望信息的分类要便于生产的计划与控制,并能反映成本和市场需求方面的情况;设计部门则从设计需要出发,希望信息的分类体系体现新产品

10、开发组合化(模块化)、标准化、序列化的趋势;制造工艺部门则从实现产品的小批量、多品种成组生产,以提高生产效率和质量的目的出发,希望信息的分类体系能反映产品的量、部件的几何特征与工艺特性。因此,在制订企业信息分类体系时,要从企业的总体目标出发,充分考虑到各部门的合理要求,进行企业信息分类体系的整体优化。,2023/6/16,重庆工学院计算机学院陈庄,13,2.2.2.1 线分类法(1/3),1、线分类法的基本思想线分类法(又称等级分类法或层级分类法)是将初始的分类对象(即被划分的事物或概念)按所选定的若干个属性/特征作为分类的划分基础,逐次地分解成若干个层级类目,并编排成一个逐级展开、有层次的分

11、类体系。同层级类目之间存在着并列关系,称为同位类。一个层级类目经分解形成的下层类目,称为下位类;相应的被分解的类目称为上位类;上位类与下位类的关系是隶属关系。同层级类目互不重复,不同层级的类目互不交叉。每个下位层的类目只对应于一个上位层,,2023/6/16,重庆工学院计算机学院陈庄,14,2.2.2.1 线分类法(2/3),2、线分类法的典型案例国家标准有中华人民共和国行政区划代码(GBT 22601999)(以下为河北省部分案例)其他案例:国民经济行业分类与代码(GBT 47541994)和职业分类与代码(GBT 65651999),2023/6/16,重庆工学院计算机学院陈庄,15,2.

12、2.2.1 线分类法(3/3),3、线分类法的优缺点优点:容量大。可容纳较多类目的信息。结构清晰。采用树形结构能较好反映类目之间的逻辑关系。使用方便。既符合手工处理信息的思维习惯,又便于计算机处理。缺点:结构弹性较差。分类结构一经确定,不易改动。效率较低。当分类层次较多时,编码的位数较长,影响数据处理速度。,2023/6/16,重庆工学院计算机学院陈庄,16,2.2.2.2 面分类法(1/3),1、面分类法的基本思想面分类法是按分类对象多个方面的属性与特征的异同来建立分类体系的。面分类法将给定的分类对象按选定的若干属性或特征分成彼此没有隶属关系的若干方面(简称属性面或面),每个面包含了这个属性

13、面的若干不同的属性值或特征值。从选定的面中每面取一次作为描述的事物的属性值,以构成面分类法的分类体系中的一个类目。使用时:将按顺序将各个“面”的代码进行组合,即为某对象代码。,2023/6/16,重庆工学院计算机学院陈庄,17,2.2.2.2 面分类法(2/3),2、面分类法的典型案例某高校教师分类编码,2023/6/16,重庆工学院计算机学院陈庄,18,2.2.2.2 面分类法(3/3),3、面分类法的优缺点优点:具有较大的弹性。一个面内的属性内容与数量的调整不会影响其他的面。适应性强。可根据需要组成任何类目,也便于机器处理。易于增、删、改。缺点:不能充分利用信息。在面分类法形成的分类体系中

14、,可组成的类目很多,但有时实际应用的类别不多。用手工来组成信息类目比较困难。,2023/6/16,重庆工学院计算机学院陈庄,19,2.2.2.3 混合分类法,1、混合分类法的基本思想用线分类法为主形成的分类体系中有些部分需要采用面分类法;用面分类法为主形成的分类体系中也存在部分用线分类法定义的类目。这种分类方法称为混合分类法。2、案例:上述教师的面分类体系中的从事专业,又可以分为学科门类(如管理学、工学等),学科门类下设若干一级学科,每个一级学科一般设有若干二级学科。这样,从事专业这一面可按线分类法分成学科门类、一级学科、二级学科三个层次,如表2.3所示。其中,一级学科用三位数字表示,二级学科

15、用两位数字表示;一、二级学科之间用点隔开。,2023/6/16,重庆工学院计算机学院陈庄,20,2.3.1 信息编码与信息代码的关系(1/2),1、信息编码、代码的概念信息编码是要将表示信息的符号体系转换成便于计算机和人识别与处理的另一种符号体系的过程。转换后的符号体系叫做代码或码。即:代码是一个或一组有序的易于计算机和人识别与处理的符号。这种符号可以是文字、字母、数字、图形、图像、一组颜色等。在识别与利用信息的过程中,人与人之间、人与机器之间以及机器与机器之间需要交换信息,共享信息资源,必须对具有相同内容的信息有统一的识别标准(代码)。2、信息编码(代码)的主要功能识别功能信息编码是识别某个

16、实体或属性的唯一标识。分类功能当按编码对象的某种属性分类并赋予不同的分类代码时,代码可以作为不同类型对象的标识。,2023/6/16,重庆工学院计算机学院陈庄,21,2.3.1 信息编码与信息代码的关系(2/2),2、代码的主要功能排序功能当按编码对象的某种顺序关系分类,并赋予不同的顺序代码时,代码可以作为不同类别对象的某种顺序标识。统计功能利用代码对编码对象不同分类、不同属性的描述,可以根据代码方便地进行各种统计。特定含义在设计代码时采用一些专用字符或对某些字符做出一些特殊规定,使其具有特定的含义。特定含义的代码有利于信息安全。(如:军事电文),2023/6/16,重庆工学院计算机学院陈庄,

17、22,2.3.2 信息编码的原则(1/2),1、唯一性。尽管编码对象可能有不同的名称、不同的描述,但对应于此对象的代码必须唯一,即代码与相应的编码对象一一对应。2、合理性代码的结构与形式要与编码对象的分类体系相适应,可以从代码上来识别一个编码对象在其分类体系中的位置。3、可扩展性代码的结构必须适应编码对象的发展与变化,为新的编码对象留有足够的备用代码。4、简洁性在满足应用要求和可扩展性的前提下,代码的结构应当简洁,代码位数尽可能短,以节省计算机的处理时间和存储空间,降低差错率。,2023/6/16,重庆工学院计算机学院陈庄,23,2.3.2 信息编码的原则(2/2),5、可识别性代码从结构上应

18、尽可能多地反映编码对象的属性与特征,便于人们和计算机识别。有些代码的设计还要考虑到便于机器或人工检验可能出现的差错。6、稳定性在应用环境与需求发生变化时,代码的结构应当保持相对稳定,具有适应变化和容纳变化的能力。在实际应用中,代码结构的变化要消耗人、财、物等资源,因此,凡已形成各级(国际、国家、地方、行业、企业)特征的代码结构需要调整时,必须由相应的标准化组织机构来进行。注意:企业代码由技术监督局、工商管理局负责给定;人口代码(身份证)由公安局给定,2023/6/16,重庆工学院计算机学院陈庄,24,2.3.3.1 信息编码(代码)方法体系表,2023/6/16,重庆工学院计算机学院陈庄,25

19、,2.3.3.2 符号编码法(1/3),1、数字型代码定义:数字型代码或称数字码是用一个或多个阿拉伯数字表示分类对象的代码。特点:优点:结构简单,使用方便,特别是排序很容易,易于向国内外推广,缺点:但对于分类对象属性与特征描述不直观。案例:我国国家标准人的性别代码国民经济行业企业和代码中华人民共和国行政区划代码。,2023/6/16,重庆工学院计算机学院陈庄,26,2.3.3.2 符号编码法(2/3),2、字母型代码定义:字母型代码或称字母码是用一个或多个字母表示分类对象的代码。优点及案例:(1)字母型代码与数字型代码相比,同样位数的代码比数字型的容量大得多。案例:用一位英文字母型代码最多可以

20、表示26个(A-Z)类目,而一位数字型代码最多只能表示10个类目,2位字母型代码最多可表示2626676个类目。(2)字母型代码由于其拼音字母的特点,还便于人们认识代码所表示的类目的内容,方便人们的记忆。案例:用CN表示中国(China),BJ表示北京(Beijing)等 缺点:对象数量较多时,或增补、修改代码频繁时,用字母型代码容易出现重复与冲突现象,2023/6/16,重庆工学院计算机学院陈庄,27,2.3.3.2 符号编码法(3/3),3、混合型代码定义:混合型代码或称混合码是由数字、字母或数字、字母、专用字符组合表示分类对象的代码。优点及案例:兼有上述数字型代码和字母型代码的优点,具有

21、良好的直观性与表达性。案例:火车时刻表上的T15表示北京至广州的某一特别快车。表示263网络集团在互联网上的域名编码。缺点:混合型代码组成复杂,造成计算机输入不方便,录入效率低、错误率高,2023/6/16,重庆工学院计算机学院陈庄,28,2.3.3.3 符号含义编码法(1/8),符号含义编码法包括:无含义代码(2种):顺序码、无序码有含义代码(6种):系列顺序码、数字化字母顺序码、层次码、特征组合码、矩阵码、复合码。1、无含义代码:指组成代码的字符本身无实际含义的代码,代码只作为编码对象的唯一标识符。(1)顺序码定义:顺序码是将具有顺序的数字或字母赋予编码对象。顺序码是一种最简单和常用的无含

22、义代码。优点及案例:代码简短、使用方便、易于增补 案例:国家标准人的性别代码(GBT22611980)中,男性的代码是1,女性的代码是2;学生学号编码缺点:代码本身不包含编码对象任何其他信息,不便于标识。,2023/6/16,重庆工学院计算机学院陈庄,29,2.3.3.3 符号含义编码法(2/8),(2)无序码定义:将无序的数字或字母赋予编码对象的代码。特点:代码无任何编写规律,通常靠机器产生的随机数赋予。此种代码仅表示编码对象是某约定的分类体系中的一个类目。案例:手机网上“自助服务”的有关密码:一号通吗、二次校验码,2023/6/16,重庆工学院计算机学院陈庄,30,2.3.3.3 符号含义

23、编码法(3/8),2、有含义代码:指不仅作为编码对象的唯一标识,起着代替编码对象名称的作用,而且提供编码对象的分类,排序与逻辑意义等信息的代码。(1)系列顺序码定义:这是一种特殊的顺序码。它是将顺序代码分成若干段(系列),并与编码对象的分类一 一对应,给每段的编码对象赋予一定的顺序。特点:优点是能表示一定的信息属性或特征,易于添加;缺点是空码较多,不便于机器处理,不适应于复杂的分类体系。案例:国务院各部委局及其他机构名称代码(GBT 46571984)就采用了这种代码,其中三位数字码的第一位数字表示类别标识,第二、三位数字表示该机构在此类别中的数字代码。300399为国务院各部。400499表

24、示国务院各局办公机构和直属于国务院各部委的国家局级机构以及国务院咨询机构和国家机关。700799表示全国性人民团体。,2023/6/16,重庆工学院计算机学院陈庄,31,2.3.3.3 符号含义编码法(4/8),(2)数字化字母顺序码定义:数字化字母顺序码是将编码对象按其名称的首字母顺序排列,然后按此顺序赋以递增的数字代码。特点:优点:容易归类,便于检索,适合于根据人名、机关名、事业、企业单位名称以及地名来检索信息。缺点:新增代码调整困难,使用时间较短。案例(水果编码)01 Apples(苹果)02 Bananas(香蕉)03 Chenies(樱桃)04 Dates(枣),2023/6/16,

25、重庆工学院计算机学院陈庄,32,2.3.3.3 符号含义编码法(5/8),(3)层次码定义:层次码常用于线分类法,它是按编码对象的从属层次关系为排列顺序的一种代码。利用层次码进行编码时,将代码分成若干层级,并与分类对象的分类层级相对应。代码自左至右,表示的层级由高至低,每个层级的代码可采用顺序码或系列顺序码。特点:优点:能明确表明编码对象的类别,有严格的隶属关系。代码结构简单,容量大,便于计算机汇总。缺点:当层次较多时,所用代码位数较多,弹性较差。案例:(国家标准国民经济行业分类和代码(GB/T 47541994)编码)采用三层四位数字的层级码,2023/6/16,重庆工学院计算机学院陈庄,3

26、3,2.3.3.3 符号含义编码法(6/8),(4)特征组合码定义:特征组合码常用于面分类体系。它是将编码对象按其属性或特征分成若干个面。每个面内的诸项属性或特征按其规律分别进行编码,面与面之间的代码没有层次关系与从属关系。使用时,按预先确定顺序,根据需要可将不同的面中代码组合起来以表示所代表的类目。特点(雷同于面分类法)优点:具有较大的弹性,一个面内的属性内容与数量的调整不会影响其他的面;适应性强,可根据需要组成任何类目,也便于机器处理;易于增、删、改。缺点:不能充分利用信息;用手工来组成信息类目比较困难。案例:机制螺钉分类由上表可知:代码2342表示黄铜1.5方形镀铬螺钉。,2023/6/

27、16,重庆工学院计算机学院陈庄,34,2.3.3.3 符号含义编码法(7/8),(5)矩阵码定义坐标的代码定义:矩阵码是一种建立在多维空间坐标位置基础上的代码,代码的值是通过赋予多维空间坐标的代码组合而成,或是通过赋予多维空间位置的序号而构成。例如:两维矩阵吗,是通过赋予x、y坐标的数值(序号)确定代码的值。特点:优点:逻辑关系明确,也容易解释其含义。缺点:编制代码时较困难,需要考虑建立一定的逻辑关系。案例:国际标准ISO271173顺序日期表示法行:月份;列:日期矩阵的序号排列(逻辑关系):从下至上、从左到右依次赋予001(1月1日)至365(12月31日)(若为闰年则为366),2023/

28、6/16,重庆工学院计算机学院陈庄,35,2.3.3.3 符号含义编码法(8/8),(6)复合码定义:复合码是由两个或两个以上完整、独立的代码组合而成。特点:优点:使用灵活、应用面较广的代码类型,可以表示具有复杂分类和标识体系的事物。缺点:代码总长度较长。案例:美国的物资编目代码结构图(采用13位数字的复合码),2023/6/16,重庆工学院计算机学院陈庄,36,2.3.4.1 信息编码错误归类及其解决方法,1、在录入代码时的可能错误:识别错误:1/7,0/O,Z/2,D/O,S/5,易位错误:12345/13245,双易位错误:12345/13254,随机错误:上述两种或两种以上的错误出现2

29、、避免代码录入出现错误的办法增加校验位:在设计好的代码后,再增加一位(最低位),作为代码的组成部分。增加的一位,即为校验位。使用中,没有特别意义。使用方法:使用时,应录入包括校验位在内的完整代码,代码进入系统后,系统将取该代码校验位前的各位,按照确定代码校验位的算法进行计算,并与录入代码的最后一位(校验位)进行比较,如果相等,则录入代码正确,否则录入代码错误,进行重新录入。,2023/6/16,重庆工学院计算机学院陈庄,37,2.3.4.2 信息编码错误的校验方法(1/2),三种方法:算术级数法、几何级数法、质数法 1、算术级数法,2023/6/16,重庆工学院计算机学院陈庄,38,2.3.4

30、.2 信息编码错误的校验方法(2/2),2、几何级数法3、质数法,2023/6/16,重庆工学院计算机学院陈庄,39,2.3.4.3 信息编码错误的校验步骤,设有一组代码为:C1C2C3C4Ci第一步:为设计好的代码的每一位Ci确定一个权数Pi(权数可为算术级数等差数列、几何级数等比数列、或质数)。第二步:求代码每一位Ci与其对应的权数Pi的成绩之和S S=C1*P1+C2*P2+Ci*Pi(i=1,2,n)n=Ci*Pi(i=1,2,n)i=1第三步:确定模M第四步:取余R=MOD(M)第五步:校验位Ci+1=R最终代码为:C1C2C3C4CiCi+1使用时:C1C2C3C4CiCi+1,2

31、023/6/16,重庆工学院计算机学院陈庄,40,2.3.4.4 校验案例,原设计的一组代码为五位,如32456,确定权数为7,6,5,4,3(算数级数)求代码每一位Ci与其对应的权数Pi的成绩之和S S=C1*P1+C2*P2+Ci*Pi(i=1,2,n)=3*7+2*6+4*5+5*4+6*3=21+12+20+20+18=91确定模M,M=11取余R,R=SMOD(M)=91MOD(11)=3校验位Ci+1=R=3最终代码为:C1 C2 C3 C4CiCi+1,即324563使用时为:324563该组代码中的其他代码按此算法,分别求得校验位,构成新的代码。其它案例:教材P52,2023/6/16,重庆工学院计算机学院陈庄,41,2.4 作业,P52:1,2,3,4,5,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号