应用汉字识别.ppt_三一办公31ppt.com

资源描述

《应用汉字识别.ppt》由会员分享，可在线阅读，更多相关《应用汉字识别.ppt（80页珍藏版）》请在三一办公上搜索。

1、第六章模式识别的应用汉字识别,1、文字识别问题,1）汉字识别2）汉字OCR技术发展历史3）国内主要研究机构,1）汉字识别,汉字识别属于文字识别(OCR)的范畴，文字识别是模式识别的重要应用领域。汉字识别技术涉及到模式识别、图像处理、人工智能、模糊数学、组合论、信息论、计算机等多个学科，也涉及到语言文字学、心理学等学科，是一门综合性的技术。,根据应用情况的不同汉字识别具体又分为印刷体汉字识别和手写体汉字识别。,手写体汉字识别又分为两种：在线手写体识别和离线手写体识别。,本章主要讨论印刷体汉字识别问题,印刷体汉字识别，从识别字体上可分为单体（一般为宋体）印刷汉字识别和多媒体汉字识别；从识别文字

2、品质上可分为高品质印刷汉字识别和低品质印刷汉字识别；从应用范围上可分为专用印刷汉字识别和通用印刷汉字识别。,汉字识别难度,印刷体识别最容易已经有了大量实际应用，图书馆数字化,脱机手写体识别最难脱机手写体数字的识别已有实际应用外，比如邮政编码的自动识别汉字等文字的脱机手写体识别还处在实验室阶段,联机手写体识别相对容易，PDA等的推广，大量应用,不同字体的同一汉字的结构约80%相同,但书写风格，笔划粗细形状，笔划装饰等有一定的差异。不同印刷体汉字字形差别主要有：,（1）笔划装饰及方向角度不同。,（2）笔划长短、位置有变化。,（3）笔划形态变化：如黑体笔划粗而平直，宽度一致；宋体横细竖粗，有装饰角

3、；楷体笔划有较大曲率，其中撇、捺弯曲程度更大，各个文字大小相差较大；仿宋体横笔划略向上倾斜。,（4）笔划关系变化：如左偏旁口，黑体为正方形，其他体左竖笔较长。,（5）偏旁部首占方块字的比例、位置、形态方面，不同字体也有差异。,2）汉字OCR技术发展历史,西文OCR技术研究始于50年代Optical Character Recognition(OCR)几乎所有的早期模式识别研究者都进行过字符识别的研究。随后的 30 多年来，字符识别一直是模式识别的重要内容之一,汉字OCR技术印刷体汉字的识别最早可以追溯到60年代1966年，IBM公司的Casey和Nagy发表了第一篇关于印刷体汉字识别的论文，在

4、这篇论文中他们利用简单的模板匹配法识别了1，000个印刷体汉字,2）汉字OCR技术发展历史,70年代以来，日本人做了许多工作日本的常用汉字有2000个左右1977年东芝综合研究所研制了可以识别2000个汉字的单体印刷汉字识别系统80年代初期，日本武藏野电气研究所研制的可以识别2300个多体汉字的印刷体汉字识别系统，代表了当时汉字识别的最高水平日本的三洋、松下、理光和富士等公司也有其研制的印刷汉字识别系统简评这些系统在方法上，大都采用基于KL数字变换的匹配方案，使用了大量专用硬件，其设备有的相当于小型机甚至大型机，价格极其昂贵，没有得到广泛应用,2）汉字OCR技术发展历史,我国自70年代后期开始

5、字符识别方面的研究,80年代以后,台湾和香港发展的也很快70年代末期到80年代末期算法和方案探索：单体汉字识别90年代初期由实验室走向市场，初步实用90年代后期混排多语言混排文本：如中英文多字体混排文本：如：宋，楷体，）多字号混排文本：不同大小,当前进展状态,2000年代后识别率、鲁棒性的提高单纯OCR文档分析多语混排，多字号，多字体版面分析文本的结构表格，图像（如插图），公式摄像设备（非扫描仪）名片手机摄像通讯录,3）国内主要研究机构,汉王科技中科院自动化所1985年刘迎建开发出国内第一个联机手写汉字识别系统，并获国家发明专利。1993年初，在中科院自动化研究所的支持下创办了中国汉王科技公司

6、，出任总经理中科院计算所智能计算机研究中心,国内主要研究机构/人物,其他清华大学电子系图像所丁晓青教授北京信息工程学院沈阳自动化研究所,2、汉字识别系统,1）系统构成2）OCR技术流程3）预处理-归一化,1）系统构成,信号采集方式,脱机识别扫描仪或者摄像设备数字图像信号联机手写识别手写屏，手写输入板运动轨迹电信号，记录了笔划和笔顺信息电磁式或压电式，在书写时，笔在板上的运动轨迹（在板上的坐标）被转化为一系列的电信号，电信号可以串行地进入到计算机中，从这些电信号我们可以比较容易地抽取笔划和笔顺的信息.,2）OCR技术一般流程,流程简介,1)图像获取将文本转换为图象点阵扫描仪(Scanner)其它

7、光电扫描设备如传真机，摄象机不同获取设备的差异扫描仪：最优摄像机：识别难度大,流程简介,2）图像预处理滤除干扰噪声倾斜校正各种滤波处理3）版面分析完成对于文本图象的总体分析区分出文本段落及排版顺序，图象、表格的区域对于文本区域将进行识别处理对于表格区域进行专用的表格分析及识别处理对于图象区域进行压缩或简单存储。,流程简介,4）行字切分将大幅的图象先切割为行从图象行中分离出单个字符5）特征提取模式表示问题整个环节中最重要的一环，提取的特征的稳定性及有效性，直接决定了识别的性能从单个字符图象上提取统计特征或结构特征包括细化(Thinning)，归一化(大小等)等步骤,流程简介,6）文字识别模式识别

8、研究范畴从学习得到的特征库中找到与待识字符相似度最高的字符类7）后处理利用词义、词频、语法规则或语料库等语言先验知识对识别结果进行校正的过程,3）归一化,为了消除汉字点阵位置上的偏差，需要把整个汉字点阵图形移动到规定的位置上，这个过程被称做位置归一化。,有两种简单的位置归一化方法。一种是基于质心的位置归一化方法；另一种是基于文字外边框的位置归一化。,基于质心的位置归一化方法需要首先计算文字的质心，然后再把质心移动到指定的位置上来。,基于文字外边框的位置归一化需要首先计算文字的外边框，并找出中心，然后把文字中心移动到指定的位置上来。,上图给出了两种方法的示例，从中不难看出，基于质心的位置归一化方

9、法抗干扰力更强。,3）归一化,常用的大小归一化方法也有两种。一种是将文字的外边框按比例线性放大或缩小成为规定尺寸的文字。另一种是根据水平和垂直两个方向文字黑像素的分布进行大小归一化。,对不同大小的文字做变换，使之成为同一尺寸大小的文字，这个过程称做大小归一化。通过大小归一化，许多特征就能够用于识别不同字号混排的文字。,对于后一种归一化方法，先计算文字的:,c(i,j)意义如下c(i,j)=1 表示该像素点为文字黑像素；c(i,j)=0 表示该像素点为背景。A,B,L,R分别文字的上下左右边界。,记,则质心GI和GJ为,下面计算水平和垂直方向的散度I 和 J：,最后按比例将文字线性放大或缩小成

10、规定散度的点阵。,3、汉字的结构特性分析,周边特征分析游程统计特征及分析笔划特征及分析字根统计特征及分析,汉字的图像点阵,如“大”字,汉字的图像点阵可用一个离散的二元函数来表示,周边特征分析,每一个汉字用3232点阵表示,分别从左、右、上、下四个方面顺次扫描汉字点阵。用PL(n,l)，PR(n,l)，PU(n,l)，PD(n,l)，分别表示按上述四个方向扫描汉字点阵时在第n条扫描线第l个点位置上第一次遇到笔划黑像素的概率。,周边特征分析,每一个汉字用3232点阵表示，分别从左、右、上、下四个方面顺次扫描汉字点阵。用PLn(l)，PRn(l)，PUn(l)，PDn(l)，n=1,32，分别表示按

11、上述四个方向扫描汉字点阵时，在第n个扫描线、第l列点阵位置上第一次遇到笔划黑像素的概率。因此l表示在第n次扫描行上在周边上第一次遇到黑像素前白像素的个数，它称为空程长度。这样在四个方向上空程长度l的概率分布函数，可以较好的说明汉字周边结构特征的分布。,下面定义周边扫描空程长度熵，它们是四边结构特征所包含信息量的度量：,左周边熵：,上周边熵,下周边熵,根据熵的理论，PL(n,l)为等概率分布时，其信息量（熵）为最大,右周边熵,对于其他三个周边熵也同样如此。,左图给出了四种周边熵的分布，从图中可见：（1）周边熵是较高。熵值一般均大于2；2）角部位置区域的熵值最大。说明这些部位扫描线空程的长度变化多

12、，这些部分结构开头多，所以提取周边特征和角部特征或选取角部结构作为部首的特征是合理的。,游程统计特性及分析,印刷体汉字的游程统计分布可以反映汉字内部笔划结构的分布情况，对汉字特征选择和汉字压缩编码都具有一定参考意义。,游程(Running Length)是指在同一方向上，宽度为一个像素的扫描线条上亮度相同的连续像素的个数。由笔划像素组成的黑游程长度记为BRL，由背景像素组成的白游程长度记为WRL。,为了对汉字游程分布有一个大概的了解，对八个离散方向（00,200,450,700,900,1100,1350,1600）4040点阵的汉字进行了游程分布统计。不同角度的平均黑游程长度见下表。,笔划特

13、性及分析,每种笔划在汉字中出现的频率是不同的。据统计，横为28%，竖为18%，撇为15%，点、捺为13%，折为7%，其他为19%。,但是，要使用图像处理技术自动把汉字中的每种笔划都准确地提取出来，目前还有很大困难。但是提取横、竖、撇、捺笔划是可能的。,上图是笔划的数目分布图,NS，NH，NV，NL和NR分别表示一个字的笔划总数、横笔划总数、竖笔划总数、撇笔划总数和捺笔划总数。,左图是笔划的长度分布图,LH，LV，LL和LR分别表示横笔划长度、竖笔划长度、撇笔划长度和捺笔划长度（以像素为单位）。,字根统计特性及分析,汉字有很多字根，这些字根简繁不一。下表统计了几种字根在6763个汉字中出现的频率

14、。,以上是对汉字的一些统计结果。在汉字识别研究中可以根据设计需要对汉字的其他特征和特性做统计，从而使得识别系统更有效，更可靠。,4、印刷体汉字的特征描述,1）复杂指数 2）四边码 3）粗外围特征 4）粗网格特征 5）笔划密度特征 6）汉字特征点,1）复杂指数,文字x方向和y方向的复杂指数被定义为：,式中，cx和cy分别为x方向和y方向的复杂指数。Lx和Ly分别为x方向和y方向黑像素的总数。而x和y分别为x方向和y方向质心二次矩的平方根：,式中，GI和GJ分别为文字质心位置的i和j坐标值，N和M是文字点阵的长和宽。,从文字四周边框开始，向内取适当宽度，以此宽度分割出文字四周的四个部分。根据每一个

15、部分中含有文字黑像素的多少分为四级编码（0，1，2，3）。,2）四边码,文字四边码举例,一次粗外围特征反映了文字轮廓特征，二次粗外围特征在某种程度上反映了文字内部结构。,3）粗外围特征,粗外围特征抽取的过程为：首先求出文字的外边框，再把pq点阵文字分割成nn份，n通常取8。,再将第二次与文字线相碰的非文字部分面积和全部文字面积之比作为二次粗外围特征P2 i(i=1,4n2),形成8n2维的特征向量p。,从文字四边框各向对边扫描，计算最初与文字笔划相碰的非文字部分的面积和全部面积之比作为一次粗外围特征P1 i(i=1,4n 2),4）粗网格特征,把加框pq点阵文字分割成nn份，n通常取8，取每份

16、中黑像素数对整个文字黑像素数的比例，将所有nn值排成一列而形成n2维特征向量。,粗网格特征体现了文字整体形状的分布，但该特征抗笔划位置干扰的能力差。,5）笔划密度特征,这种从文字四个方向抽取的笔划密度特征叫做四方向笔划密度特征。它不但对印刷体汉字分类有较好的效果，对手写印刷体汉字分类也具有价值。,在加框的pq点阵中，向不同的方向投影，对文字黑像素的个数做累加计算，形成笔划密度直方图。通常取水平、垂直、450、和1350四个扫描方向，每个方向取n(通常取n=16)个值作为特征，形成4n维特征向量。,6）汉字特征点,一个汉字的笔划上和背景中的关键点是汉字结构的一种本质字形特征。,汉字基本由直线笔划

17、构成，是一种直线型文字。在一幅二值化图像中，汉字信息绝大部分集中在汉字骨架上，而汉字骨架信息又大多数集中在若干特征点（称为笔划特征点）上.,一个汉字图形的背景部分，也包含了区别于其他汉字的丰富信息。在背景部分选取关键点，也可以有效地区分其他汉字。对笔划少的汉字，选取关键背景点尤其重要。,汉字笔划特征点可以取端点、折点、歧点和交点。端点是笔划的起（或终）点且不与别的笔划相接；折点是笔划方向出现显著变化的点；歧点是三叉点，要求其中两个笔段分支方向相同：交点是四叉点且有两对相等的对顶角。见下图所示。,汉字笔划特征点集中了主要的汉字结构信息。端、折点决定了一个汉字的笔划位置和形状；歧点、交点决定了不同

18、笔划间的相互连接关系。当然还可以定义汉字关键背景点以弥补难以区别相似笔划特征点汉字的不足。,由于汉字特征点是由汉字结构本质所决定的，所以无论是北方印刷汉字还是南方印刷汉字；无论是书版还是报纸版；无论是宋体印刷汉字还是其他体印刷汉字，甚至是书写规整的手写印刷体汉字，同一汉字的特征点很少变动。其中折点、交点更稳定。因而使用汉字特征点，原理上就能很好识别多体印刷汉字，甚至可以识别手写体汉字，把印刷体汉字和手写规整的汉字识别的方法统于一个系统中。,汉字特征点反映了汉字结构特征。和统计特征相比，汉字中非结构信息（如笔划粗细、字形位置变动、少量旋转等）的不稳定性，从理论上讲，对汉字特征点的提取无影响。所以

19、，用特征点来识别汉字，可以增加抗噪声能力，提高实用性。,通常情况下，要提取笔划的特征点，首先要对文字图像处理，将文字的笔划变细，这个过程叫做细化。因此该方法对图像处理技术提出了较高的要求。如果文字图像处理得不够理想，会影响到该方法的效果。,5、汉字识别方法,1）相似性度量方法2）句法模式识别方法3）统计模式识别方法4）分类策略,1）相似性度量方法,在选取了特征之后，需要选择或寻找适当的判别准则，从而判断出待识别的文字的特征与哪一个类别的特征最近。,设x,G表示待识别文字的特征向量和标准类别特征矢量。常用的距离度量准则如下：,（4）复合相似度,其中：,（5）混合相似度,式中：是常数，,Gg是和x

20、极相似的标准文字特征向量（平均值）,2)句法模式识别方法,早期汉字识别研究的主要方法特点：注意汉字的组成结构汉字图形结构复杂，但规律性强，含丰富的结构信息从汉字的构成上分析.笔划(横竖撇点折)偏旁部首字.由这些基元及其相互关系完全可以精确地对汉字加以描述.类比类比文章结构单字词短语句子篇章，按语法规律组成.识别过程：编译理论中的句法分析.,2)句法模式识别方法,训练过程建立所有汉字的解析图描述基本单元基本单元之间的拓扑结构,汉字的解析图表示示例,2)句法模式识别方法,识别过程图像获取，预处理，二值化，西化基元提取基本笔画提取偏旁部首提取解析图表示,2)句法模式识别方法,句法分析过程Top-do

21、wn相似度计算方法拓扑相似性节点相似性,2)句法模式识别方法,优点理论上是比较恰当的，对字体变化的适应性强，区分相似字能力强缺点描述复杂，匹配过程复杂度也高抗干扰能力差，结构基元提取困难，导致推理过程难以进行实用中文本图象中存在着各种干扰，如倾斜，扭曲，断裂，粘连，纸张上的污点，对比度差等等纯结构模式识别方法已经逐渐衰落,3）统计模式识别方法,基本思路将字符点阵看作一个整体，其所用的特征是从这个整体上经过大量的统计而得到的.缺点细分能力较弱，区分相似字的能力差一些.优点抗干扰性强，尤其适用于有污染的数据.匹配与分类的算法简单，易于实现.,3）统计模式识别方法,直接图像特征变换特征投影直方图

22、矩特征几何描绘子笔划密度特征外围特征,直接图像特征,实际上并不需要特征提取过程，字符的图象直接作为特征与字典中的模板相比，相似度最高的模板类即为识别结果优点简单易行，可以并行处理缺点不同大小、不同字体需要大量模板对于倾斜、笔划变粗变细均无良好的适应能力,变换特征,字符图象进行某种数学变换二值类变换，如Walsh,Hardama变换更复杂的变换，如KL,Fourier变换,余弦变换(DCT)优点变换后的特征的维数通常会降低，更紧凑，利于分类缺点多数变换不是旋转不变的，因此对于倾斜变形字符的识别会有较大的偏差有些最优变换特征的运算复杂度较高，如：K-L变换在最小均方误差意义下是最优的变换，但

23、是运算量大,变换特征：矩特征,在线性变换下保持不变的矩：不变矩但往往很难保证线性变换这一前提条件,中心矩,变换特征:投影直方图,利用字符图象在特定方向的投影作为特征通常使用水平及垂直方向,垂直方向投影,水平方向投影,变换特征:投影直方图,该方法对倾斜旋转非常敏感，细分能力差。,变换特征：几何描绘子,几何描绘子样条曲线近似在轮廓上找到曲率大的折点，利用Spline曲线来近似相邻折点之间的轮廓线，并用Spline曲线参数作为特征。傅立叶描绘子利用傅立叶函数模拟封闭的轮廓线，将傅立叶函数的各个系数作为特征。对于轮廓线不封闭的字符图象不适用，难用于笔划断裂的字,汉字识别通常都采用层次化的分类结构，即

24、对汉字字库做多级分类，然后再细分判别，从而大大提高识别效率。,一般把最后一级分类称为细分类，而前面的分类称为粗分类。一般来说，对汉字的粗分类有如下要求。,4）分类策略：多级分类,在汉字识别中，一般是采用在一个线性表逐一匹配的方法，由于汉字数量大，如果不对汉字字库分类而直接识别，一方面识别效果不会好，另一方面计算量往往会很大。,（2）粗分类的速度要快。这要求分类的算法简单，同时要求分在各个类别中的汉字的数目比较平均，从而提高分类的效率。,（3）粗分类的特征要简单，分类字典小，节约存储空间。,（4）粗分类方法要和细分类方法相协调。,4）分类策略：多级分类,（1）粗分类的正确分类率和分类稳定性要高。

25、文字识别是先粗分类，然后再细分类。粗分类的正确与否会影响到后面的识别。这里的分类率是在噪声干扰下能够正确分类。,树分类具有效率高的特点，近年来在汉字识别中得到运用。但是汉字字数多造成分类树结构庞大，错分率累加，使得分类不够稳定。,右图给出的是一个树形粗分类示意图。该图中“3”所代表的文字不仅在类别 A 中，在噪声情况下，也可能出现在 C 中。因此这是一种考虑了噪声干扰等因素的特殊的分类方法。,所以要求细分判别 C 类中的文字时考虑到“3”所代表的文字的存在。,粗分类方法：包含配选法,许多汉字具有相同的偏旁部首，包含配选法就是利用这一特点对汉字分类。分类用的摸板是汉字偏旁部首的骨架图形。分类时，

26、将输入文字和各标准模板做“与”运算。显然，只有和输入未知文字的偏旁。部首相同的标准模板相“与”的结果才和标准模板本身的图形一致。所以，根据未知输入文字图像和分类用标准模板图像“与”的结果是否相同于该标准图像，可以判别出未知文字属于哪一类。,在没有和标准图像相“与”匹配前，先把未知文字图像横线加粗成大于等于3个像素宽，以利于包含相匹配的模板，但是也加大了包含其他标准模板的概率，因而误识率会增加。为避免文字笔划绝对位置移动带来的干扰，需要把图像沿上下左右四个方向平移一个像素，然后分别与标准模板相匹配。只要有一次匹配成功，就判断该文字属于标准模板图像的类别。由此可见，包含匹配法实际上就是模板匹配法。

27、,当识别字数增多时，由于偏旁部首的标准模板增加很少，其分类速度比粗外围和粗网络法容易提高，而存储量要求较少。,细分类方法：基于小笔段特征的层次结构,汉字的笔划特征受字体、字号等影响较小，是识别汉字的很好的特征。但是汉字笔划特征对实际文本来说很难提取。用基于小笔段特征的汉字层次结构，能较好地解决以上问题。,若干小笔段首尾相连构成了汉字笔划，如右图所示。用小笔段作为基元一方面易于提取；另一方面它又保留了汉字基本的笔划结构信息，且在字体变化或噪声干扰条件下，仍能保持笔划结构的绝大部分信息。,小笔段组成了部件，部件又组成了汉字。由小笔段到部件，再到汉字的层次结构描述，反映了汉字结构不同层次的约束关系。

28、,汉字字体改变和干扰影响会使得小笔段特征向量有变化。因此，用层次结构法对未知汉字匹配判别时，采用精确匹配方法往往不能奏效。较好的办法时采用由汉字小笔段相关系数（相关系数反映了相互约束关系）约束的松弛匹配算法。这种算法能有效地吸收同一汉字不同字体的变化，而所能容许的变化范围由小笔段间的相关系数所制约。实验证明，这种特征和算法可以有效地解决多体印刷汉字识别的问题。,细分类方法：差笔划,粗分类后，通常每类中含有许多形状相似的文字，采用差笔划方法，可以较好地区分这些形状相似的文字。差笔划细分的算法如下：设粗分类后，类中只有两个文字A和B。,（1）预先根据文字A、B特征点（如端点、折点等）坐标作成A、B

29、的骨架图形SA，SB，如下图。,（3）把SA，SB在33网格区域内移动位置，作成如上图所示的笔划宽度为3个像素的粗图形WA,WB。,（4）同样由SB，WA求出差笔划gB。gA，gB可能同时存在，也可能仅有一个。（例？）,若粗分类后，式中文字大于两个时，则先取两个来进行上述算法的判别，以后反复取两个作判别，来决定输入文字属于的类别。,（6）若两个差笔划gA 和gB都存在，在33网格中把输入文字x图形和gA，gB进行位置匹配，求出各自的最大一致度A，B。若A B 2,且A1则 xA；若B A 2,且B1 则 xB。其中1和2为常数。,选用N种具有互补特性特征作为类特征。在学习阶段，对训练样本进行N次互不相关的分类，然后组合N次分类结果，完成特征空间的划分。分类时，根据待分字的特征进行N次分类，组合分类结果求得子类。组合的形式有两种：,1）,2）,其中SN表示第N次分类的子类。,因为N次分类不相关，所以可以平行进行。但是字数多时，每种特征要在字数多的情况下分类，这显然是不太合适的。,4）分类策略：多特征融合,其他策略：多分类器融合、,

展开阅读全文