《毕业论文印刷体汉字识别方法的研究41297.doc》由会员分享,可在线阅读,更多相关《毕业论文印刷体汉字识别方法的研究41297.doc(37页珍藏版)》请在三一办公上搜索。
1、 毕 业 论 文印刷体汉字识别方法的研究 作 者 姓 名 xx 专 业 电子信息工程 指导教师姓名 王导 专业技术职务 目 录摘 要1 第一章 绪论31.1汉字识别研究的意义31.2印刷体汉字识别研究的背景3 第二章 汉字识别技术42.1汉字识别概述42.2汉字识别的原理42.3汉字识别的一般方法52.4 印刷体汉字识别问题与困难6 第三章 印刷体汉字识别的研究73.1 印刷体汉字识别技术的发展历程73.2 印刷体汉字识别的原理分析及算法研究83.2.1 预处理93.2.2 汉字特征提取113.2.3 汉字的分类识别133.2.4 后处理153.3 印刷体汉字识别技术分析163.3.1 结构模
2、式识别方法163.3.2 统计模式识别方法173.4 印刷体汉字识别的分类19 第四章 系统的实现与仿真194.1系统的实现194.2系统的仿真20 第五章 总结与展望235.1 总结235.2 展望23参考文献25附 录26致 谢34摘 要汉字识别技术是一种高速、自动的信息录入手段,成为未来计算机的重要职能接口,还可以作为办公自动化、新闻出版、机器翻译等领域的理想输入方式,有着广泛的应用前景。汉字识别的最终目的是使中文信息能更自然,更方便地输入计算机,以便于进一步处理实际生活中,大量的书信、报纸、杂志内容需要输入计算机,这就是印刷体汉字识别要解决的问题。本文首先就汉字识别研究的意义及背景作了
3、综述。第二章介绍了汉字识别的基本过程以及印刷体汉字识别研究存在的问题与困难。第三章对印刷体汉字识别作了详细阐述,论述了印刷体汉字识别的原理和预处理、特征抽取与分析、后处理过程;着重分析了统计模式识别方法、 结构模式识别方法以及匹配识别;第四章用Matlab对系统进行了仿真;最后阐明了汉字识别技术研究今后发展的方向。关键词:印刷体汉字识别 特征提取 匹配识别 统计模式识别 Matlab仿真ABSTRACTChinese character recognition technology is a kind of automatic high-speed, information input met
4、hod, become the important functions of the computer interface, still can as office automation, the press and publishing, machine translation, etc, the ideal input has wide application prospects. The aim of Chinese character recognition is to make the Chinese input more natural and convenient so that
5、 the computer could process Chinese information more easily. In practice, large volume of letters, newspaper, magazines need to be covered into a coded representation of the input characters. Thats what printed Chinese character recognition can do. Firstly, this thesis gives what is the significance
6、 of research and background of Chinese character recognition. In chapter 2, the basic procedure of Chinese character recognition and defects and difficulties of printed Chinese character recognition is introduced. Every step of recognition is elaborated in details. In chapter 3, we describe printed
7、Chinese character recognition system in details, discussing the print character recognition technology, and looks forward to the development trend of Chinese character recognition technology. Discusses the principles and printed character recognition, feature extraction and analysis, the post-proces
8、sing process, Emphatically analyses the statistical pattern recognition method, structural pattern recognition method and matching recognition. In chapter 4, giving an simulation for the system. Expounded characters identification technology research directions of future development.Key words: Print
9、ed Chinese character recognition; feature extraction; Matching recognition; Statistical pattern recognition; Matlab Simulation 第一章 绪论1.1汉字识别研究的意义 汉字已有数千年的历史,是中华民族文化的重要结晶,闪烁着中国人民智慧的光芒。同时也是世界上使用人数最多和数量最多的文字之一。现如今,汉字印刷材料的数量大大增加,一些专业单位如新闻社、图书馆、古籍出版社、档案馆等所接触的印刷材料更是浩如烟海,信息量均是爆炸性增长,毕竟阅读印刷材料更为符合人的自然阅读习惯。然而,
10、汉字是非字母化、非拼音化的文字,因此,如何将汉字快速高效地输入计算机,是信息处理的一个关键问题1,也是关系到计算机技术能否在我国真正普及的关键问题,更是传播与弘扬中华民族悠久历史文化的关键问题。但人工键入速度不仅慢而且劳动强度大,一般的使用者每分钟只能输入4050个汉字。这种方法不适用于需要处理大量文字资料的办公自动化、文档管理、图书情报管理等场合。而且随着劳动力价格的升高,利用人工方法进行汉字输入也将面临经济效益的挑战。因此,对于大量已有的文档资料,汉字自动识别输入就成为了最佳的选择。因此,汉字识别技术也越来越受到人们的重视。汉字识别技术已经呈现出了广泛的应用前景,它主要应用在中文信息处理、
11、办公室自动化、机器翻译、人工智能等高技术领域。汉字识别是模式识别的重要应用领域,也是光学字符识别OCR(Optical Character Recognition)的重要组成部分2。汉字识别是一门多学科综合的研究课题,它不仅与人工智能的研究有关,而且与数字信号处理、图像处理、信息论、计算机科学、几何学、统计学、语言学、生物学、模糊数学、决策论等都有着千丝万缕的联系。一方面各学科的发展给它的研究提供了工具;另一方面,它的研究与发展也必将促进各学科的发展。因而有着重要的实用价值和理论意义。1.2印刷体汉字识别研究的背景印刷体汉字识别是汉字识别研究中的一个重要课题。在以往的研究中,均十分重视印刷体汉
12、字特征点提取的工作。所谓特征点,是指反映汉字形体特征整体分布状况的关键点集,即构成汉字笔划骨架线的端点、折点、交点等。如图1-1所示汉字图像“大”:汉字图像“大”的特征点。圆圈标出的点为特征点表示图1-1 图像“大”特征点通常,对大多数结构稳定的汉字,一旦获得了正确的特征点集,就可能顺利地按照一定的策略和步骤(比如汉字的连接笔划、结构匹配等),将汉字形体划归为正确的字类,印刷体汉字识别的正确性就能够得到保证。当前,印刷体汉字特征点的识别效率还有进一步改进的空间。特征点提取方法属于句法结构模式识别方法之一。另一方面,随着数字图像处理技术的发展和实际应用的需求,许多问题不要求其输出结果是一幅完整图
13、像本身,而是将经过特定处理的图像,再分割和描述,提取有效的特征,进而加以判决分类。这种技术就是图像的模式识别。随着数字图像处理和模式识别技术的不断发展与广泛应用,图像的编码技术得到了飞速发展,并以其优良的特性在图像处理领域得到越来越多的运用。第二章 汉字识别技术2.1汉字识别概述汉字识别(CCR:Chinese Character Recognition)是用电子计算机自动辨识印刷在纸上和人写在纸(或者介质)上的汉字。汉字识别技术是计算机智能接口的一个重要组成部分。从学科上划分汉字识别属于模式识别和人工智能的范畴。它涉及到模式识别和图像处理、人工智能、形式语言学、模糊数学等众多学科,是一门综合
14、性的技术。2.2汉字识别的原理汉字识别的基本思想是匹配判别。汉字识别可简单的分为两个过程:学习(训练)过程和识别过程。学习过程就是让计算机通过样本学习或训练提取出每个汉字的特征并存储起来,作为标准特征库,即模板库。识别过程中,计算机首先按学习过程中的特征提取方法提取出输入模式的特征,然后再与标准特征库中的特征进行匹配,匹配程度最大的汉字即为识别结果。因此,如何确定表达待识别汉字模式的最佳特征(组合优化特征),如何进行特征匹配,从而进行高效、快速的识别,是汉字识别技术的关键所在。抽取代表未知汉字模式本质的表达形式(如汉字的各种特征)和预先存储在机器中的标准汉字模式表达形式的集合(称为字典)逐一匹
15、配,用一定的准则进行判别,在机器存储的标准汉字模式表达形式的集合中,找出最接近输入模式的表达形式,该表达模式对应的字就是识别结果。 图2-1 汉字识别原理框图汉字识别原理如图2-1所示:光电扫描器扫描纸上的文字,产生模拟电信号,经模数转器转换为由灰度值表达的数字信号,并送至预处理环节。预处理的内容和要求取决于识别方法,一般包括行、字切分,二值化,细化或抽取轮廓,平滑,规范化等等。经过预处理,汉字模式成为规范化的二值数字点阵信息,其中“l”部分反映了汉字笔划部分,“0”部分是文字的空白背景。对该二值化汉字点阵,抽取一定的表达形式后,和存储在字典中的已知标准汉字表达形式匹配判别,就可以识别出输入的
16、未知汉字。2.3汉字识别的一般方法汉字的模式表达形式有多种,每种形式又可以选择不同的特征。每种特征又有不同的抽取方法。这些就使得判别方法和准则有不同,乃至形成多种不同形式的汉字识别方法。这些方法可以归结为两类一般性处理方法统计决策的方法和句法结构的方法。1. 统计决策的方法(statistical decision method)在汉字识别中,每个字的特征不是一维,而是一个m维的特征向量;字典的每类标准模板也不是一个,而是一批;判别输入文字属于哪一类时,也不是只把它的特征向量和字典内标准特征向量逐一简单比较从而得到完全相同的结果才能分类识别,而是根据某种判别准则,相似到一定程度而且彼此又能区分
17、时就可以分类识别。这些就需要用统计决策的概念、理论、方法来指导,这就产生了汉字识别的统计决策方法。统计决策的方法分类判别时,常用的判别准则是距离和类似度,它们是分类识别的依据。2. 句法结构的方法(syntactic structure method)在汉字模式中,代表字形本质特征的结构信息很重要,研究这类结构信息丰富的模式时,可以用简单的子模式(sub pattern)(如笔划)构成多级结构来描述一个复杂模式(如整个汉字)。例如把“叶”字先分解为部件“口”和部件“十”,并知道“十”在“口”的右面,再把这两个部件分解为笔划“|”、“”、“一”和“一”、“|”,也知道部件内这些笔划之间相对位置和
18、连接关系,这样就可以把“叶”字表达成一维的符号串。若用(、)表示部件的界符,用、分别表示部件笔划间的上下、左右、交叉关系,则可以把“叶”字表示为符号串(|一)(一|)。汉字是一个模式,部件则是子模式,而笔划是一种最简单的子模式。组成一个模式的最简单的而且不再分割的子模式叫做基元(Pattern primitive)。上例中,各笔划以及、都是基元,基元根据一定规律组合成模式。这种对于一个模式。用层层更为简单的子模式,最后用基元来描述的方法,就是结构分析的方法。2.4 汉字识别问题与困难当今许多汉字识别技术研究者想提升汉字识别系统的识别效果都遇到了一些同样的问题3。这些问题包括汉字量大、汉字结构复
19、杂、字体字号多以及相似字多。这也使得汉字识别难度远远大于其它语言文字识别。由于汉字自身的特殊性,研究者也无法借鉴其它语言特别是西方发达国家的已有的技术来识别汉字。(1)汉字量特别大,类别繁多我国1980年公布的国家标准GB231280中第一级常用汉字共有3755个,第二级有3008个,两级共有6763个汉字。其中常用汉字有3000至4000个之多。第一级汉字使用频度为997,两级汉字总使用频度为9999。一个汉字识别系统至少要识别这些常用汉字才能满足需求,才具有实际应用价值。显然,汉字样本数量众多,这对一个系统来说是一种考验。大量的样本要占据更多的内存空间,更多的寻址时间,这对一个RTS(Re
20、al Time Systems)来说是致命的。为了提高识别速度而采取一些措施之后,又可能会导致识别率的降低。这也导致了汉字识别系统不得不在识别率和识别速度之间有个妥协。(2)汉字结构复杂印刷体汉字识别系统的特征提取和匹配识别研究汉字是世界上结构最为复杂的文字之一。它的构成方法主要有三种:象形法、会意法和形声法。不同的构成方法,具备不同的构字规律,这对采用统一标准处理如此大样本的汉字集来既是一大困难。笔画和部首的不同排列组合,构成了表达不同含义的结构异常复杂的汉字字符。非字母化,不同于拼字母文字,与世界上常用的其它民族的文字相比,汉字的结构是最为复杂的。(3)字体字号多我国印刷体汉字种类有超过一
21、百种之多,其中主要以宋体、黑体、楷体和仿宋体为主,其它多为这四种字体的衍生字体。另外,印刷体汉字同一个字的不同字体即使拓扑结构大致相同,但字形点阵还是有很大差别。笔画的粗细、长短、位置及姿态,都有一定的差别,各个部件(如偏旁、部首与主体)的大小比例与位置,也都有所变异。对于手写汉字,这种差别就更大。手写体有楷体、行书和草书三类,但其自由发挥度很大,以致识别难度更大。印刷体汉字的字号更是繁多,这给汉字归一化带来了一定的计算量,归一化后也有可能使得汉字信息损失一部分,这给汉字识别也带来了困难。(4)相似字多由于我国汉字种类繁多以及构成方法的原因,汉字集中包含了大量的相似字。这些相似字不仅在形状上、
22、构造上相似,而且在笔画上也相近。例如,“大”和“太”两个字只相差一个短捺,常用的特征提取算法根本无法区分这两个字的不同之处。这个相似字区分的问题往往出现在汉字识别系统的最后一级,也是至关重要的一级。第三章 印刷体汉字识别的研究3.1 印刷体汉字识别技术的发展历程计算机技术的快速发展和普及,为文字识别技术应运而生提供了必备条件。加上人们对信息社会发展的要求越来越高,文字识别技术的快速发展可想而知。印刷体文字的识别可以说很早就成为人们的梦想,早在1929年,Taushek就在德国获得了一项有关OCR的专利4。为了将多年以来印刷在纸上的浩如烟海、与日俱增的报刊杂志、文献资料和单据报表等文字材料输入计
23、算机进行信息处理,单靠人工击键输入,其速度利效率已远远不能满足要求,这就迫切需要研制以印刷体汉字识别为核心的光学汉字字符阅读器(Optical Chinese Character Reader,简称OCCR),使印刷体汉字可以高速自动地输入计算机。印刷体汉字的识别最早可以追溯到60年代。1966年,IBM公司的Casey和Nagy发表了第一篇关于印刷体汉字识别的论文5。在这篇论文中他们利用简单的模板匹配法识别了l.000个印刷体汉字。70年代以来,日本学者做了许多工作,其中有代表性的系统有1977年东芝综合研究所研制的可以识别2000个汉字的单体印刷汉字识别系统;80年代初期,日本武藏野电气研
24、究所研制的可以识别2300个多体汉字的印刷体汉字识别系统,代表了当时汉字识别的最高水平。此外,日本的三洋、松下、理光和富士等公司也有其研制的印刷体汉字识别系统。这些系统在方法上,大都采用基于数字变换的匹配方案,使用了大量专用硬件,其设备有的相当于小型机甚至大型机,价格极其昂贵,没有得到广泛应用。我国对印刷体汉字识别的研究始于70年代末80年代初。大致可以分为三大阶段6:(1)第一阶段从70年代末期到80年代末期,主要是算法和方案探索。研究人员提出了用于汉字识别的各种方法和特征,如特征点方法、汉字周边特征、汉字的结构元特征等,并在此基础上成功地研究出一批汉字识别系统。这一阶段是印刷汉字识别成果倍
25、出的时期。但是,这些成果还仅仅处于实验室阶段,没有转化为产品来实际解决印刷汉字的自动输入问题。(2)第二阶段是90年代初期,中文OCR由实验室走向市场,初步实用。在实际的汉字识别输入应用条件下,检验和考查这些研究成果。而一个汉字识别系统能否通过这一严峻的考验,并进一步发展,取决于三个重要因素:第一该系统能否根掘社会的发展,用户需求的变化,灵活地改进或者增加系统功能,以适应市场需求;第二该系统是否能在识别效率、识别速度和系统资源三者之间协调好关系;第三该系统是否具有足够高的抗噪性能,以适应各种各样的实际应用坏境。(3)第三阶段也就是目前,主要是印刷体汉字识别技术和系统性能的提高,包括汉英双语混排
26、识别率的提高和稳定性的增强。同国外相比,我国的印刷体汉字识别研究起步较晚。从80年代开始,汉字ORC的研究开发一直受到国家重视,经过科研人员十多年的辛勤努力,印刷体汉字识别技术的发展和应用,有了长足进步,从简单的单体识别发展到多种字体混排的多体识别,从中文印刷材料的识别发展到中英混排印刷材料的双语识别。各个系统可以支持简、繁体汉字的识别,解决了多体多字号混排文本的识别问题,对于简单的版面可以进行有效的定量分析。同时汉字识别率已达到了98以上。但印刷体汉字识别系统的研究还要解决好实用汉字识别系统所必须解决的一些问题,如版面的自动分析、行字切分、人机界面和良好的应用环境等等。3.2 印刷体汉字识别
27、的原理分析及算法研究汉字识别实质是解决文字的分类问题,一般通过特征辨别及特征匹配的方法来实现。目前汉字识别技术按照识别的汉字不同可以分为印刷体汉字识别和手写体汉字识别。印刷体汉字识别从识别字体上可分为单体印刷体汉字识别(printed character recognition)与多体印刷体汉字识别(multiple printed character recognition) ;手写体汉字识别根据实时性又可以分为联机手写体识别(on - line handwritten character recognition)和脱机手写体识别(off - line handwritten charact
28、er recognition)。印刷体汉字识别的流程7如图3-1所示:图3-1 汉字识别流程框图印刷在纸张上的汉字,通过用扫描仪扫描或者数码相机拍摄等光学方式输入后得到灰度图像(Grayscale image)或者二值图像(Binary image),然后利用各种模式识别算法对汉字图像进行分析,提取汉字的特征,与标准汉字进行匹配判别,从而达到识别汉字的目的。印刷体汉字识别技术主要包括预处理、特征提取、匹配识别和后处理等步骤。预处理是在所有识别处理之前进行的,它将从各种不同输入方式获得的汉字图像中的干扰因素降到最低。随着汉字识别技术的深入研究,汉字的特征提取的算法越来越多,如何选择特征和如何组合
29、优化特征已经成了研究的重要领域。匹配识别技术涉及到分类器的设计等重要问题,这也是非常重要的一个环节。汉字的后处理是出于获得最大化识别率考虑,它在前期已有识别水平上,通过调整参数或反馈处理获得更高的识别率。3.2.1 预处理由于用数码相机或扫描仪作为输入设备得到的数据不可避免地存在着各种外在的干扰,图像质量也有偏差,对识别效果有一定影响。因此,在对原始图像进行识别处理之前,尽可能将干扰因素影响降低,是非常有必要的,也就是要先对原始采样信号进行预处理。预处理8通常包括去除噪声、版面分析、二值化、倾斜校正、行列切分、平滑、归一化、细化等。(1)版面分析印刷体文字识别常遇到的识别主体不是一个文字段,而
30、是整个版面,所以版面分析是印刷体文字识别系统中的重要组成部分。它是指对印刷体文档图像进行分析,提取出文本、图像图形、表格等区域,并确定其逻辑关系,并将相应的文本块连接在一起。这一过程的自动完成算法还不是很完善,有些部分常由手工完成,最终的系统能够自动完成所有的版面分析。(2)二值化将一幅具有多种灰度值的图像变成白黑分布的二值图像的工作称为二值化处理,二值化的主要目的是将汉字从图像中分离出来。通常的方法为先确定像素的阈值,比较像素值和阈值的大小,从而确定为1或0,这个二值化阈值的选取较为关键。若阈值取的过大,则保留的信息过多,其中许多杂点无用信息造成了对以后处理的干扰;若阈值取得过小,则丢失的信
31、息过多,其中许多文字信息产生续断或丢失,造成最终文字提取分割的信息丢失。如何确定此阈值的过程也就成了研究二值化算法的重点。现如今,汉字图像二值化方法多种多样,但大多都有应用限制。研究一种适合各种文字图像的二值化方法也是预处理环节的重点。(3)倾斜校正通过输入设备获得的图像不可避免地会发生倾斜,这会给后面的行字分割、文字识别等图像处理与分析带来困难,因此,在汉字识别系统中,倾斜校正是图像预处理的重要部分。倾斜校正的核心在于如何检测出图像的倾斜角。目前,倾斜角检测的方法有许多种,主要可分为5类:基于Hough变换的方法;基于交叉相关性的方法;基于投影的方法;基于Fourier变换的方法和K-最近邻
32、簇方法。灵活运用倾斜角度检测算法将是倾斜校正环节的重要研究方向。(4)行字切分汉字切分的目的是利用字与字之间、行与行之间的空隙,将单个汉字从整个图像中分离出来。汉字的切分分为行切分和字切分9。行切分是利用行与行之间的直线型空隙来分辨行,将各行的行上界和行下界记录下来。典型的算法是,从上到下,对二值汉字点阵的每行像素值进行累加,若从某行开始的若干累加和均大于一个试验常数,则可认为该行是一汉字文本行的开始,即行上界。同理,当出现连续大约一个汉字高度的大累加和情况后突然出现一系列小累加和甚至零值时,判定为行下界。字切分是利用字与字之间的直线型空隙来分辨字,将各字的左边界和右边界记录下来。典型的算法是
33、,在确定这一行的行上界和行下界之后,从左到右搜索一行文字的左右边界,切分出单字或标点符号。从左边开始垂直方向的行距内像素单列累加和均大于一个试验常数,则可认为是该汉字的左边界。同理,当出现连续一个汉字宽度的大累加和情况后突然出现一系列小累加和甚至零值时,判定为该汉字的右边界。对文本汉字行来说,由于存在左右分离字,宽窄字,字间交连等,加上行间混有英文、数字、符号、和字间污点干扰,使得字切分比行切分困难得多。(5)归一化归一化也称规格化,它是把文字尺寸变换成统一大小,纠正文字位置(平移),文字笔画粗细变换等文字图像的规格化处理,并只对文字图像进行投影。汉字图像的归一化往往会带来两个问题:一是字符图
34、像的缩放可能会引入一些干扰;二是图像缩放本身的运算量较大。所以,必须采用恰当的归一化方法来消除尺度变化对特征值的影响。(6)平滑对数字图像进行平滑,目的是去处孤立的噪声干扰,以平滑笔画边缘。平滑在图像处理中实质是一幅文字图像通过一个低通滤波器,去除高频分量,保留低频分量,在实际应用中,采用WXW(一般采用3x3)的辅助矩阵对二值文字图像进行扫描。根据辅助矩阵中各像素0、1的分布,使处于矩阵中心的被平滑的像素X从“0”变成“1”或者从“1”变成“O”。(7)细化细化处理是在图像处理中相当重要和关键的一环,它是将二值化文字点阵逐层剥去轮廓边缘上的点,变成笔画宽度只有一个比特的文字骨架图形。细化处理
35、的目的是搜索图像的骨架,去除图像上多余的像素,从而在不改变图像主要特征的前提下,减少图像的信息量。细化处理结果的好坏,直接影响到识别的效果和质量。在细化处理过程中,一方面,去除的像素太少,则不能充分有效地减少图像的信息量;另一方面,去除的像素太多,特别是某些关键像素若被去除,则改变了原始图像的主要特征。因此,高质量的细化算法程序对图像识别有很大的实用价值。针对文字图像的细化算法已有很多,它的优劣对系统的识别效果影响很大。对细化的一般要求是保持原有笔画的连续性,不能由于细化造成笔画断开;细化成为单层像素线;保持文字原有特征,既不要增加,也不要丢失,保持笔画特征,最好细化掉笔锋:细化结果是原曲线的
36、中心线,保留曲线的端点,交叉部分中心线不畸变。针对各种不同的应用,国内外已发表了许多细化算法,如Hilditch经典细化算法10、Deutsch算法11等。然而,细化过程本身固有的弱点总是造成笔画骨架线的畸变,增加对识别的干扰,主要的畸变包括:交叉笔画畸变、转折处出现分叉笔画、失去短笔画和笔画合并等。可以说,这些问题依赖细化算法本身是无法克服的,需要在后续的处理中尽量消除这些畸变的干扰。3.2.2 汉字特征提取 预处理的最终目的是为了更加方便、准确地进行汉字的特征提取,从而提高汉字识别率。对于汉字,其特征大致分为两类,包括结构特征和统计特征,至今总数已经不下百种。但每种汉字特征的适用环境都有所
37、不同,有的特征在一些情况下有很强的鲁棒性,但在另外一些情况下却完全失去了效用。例如,汉字特征点特征算法本身是一种比较简单、完善的特征提取算法。在汉字图像满足清晰、无笔画连联、无断笔等细化要求时,是能够完全将汉字的各种特征点位置提取处理的;若汉字图像本身模糊不清,预处理工作也无法达到要求,这样再好的汉字特征点特征提取算法也无法提取正确的汉字特征点特征,已经获得的特征点特征一旦应用到汉字识别系统中去,将会极大地影响整个系统的实用性。针对不同的系统需求,应该选择不同的汉字特征,进行优化特征组合,这样才能达到系统最佳识别效果。所以选择哪种特征,如何组合特征将是汉字特征提取这一部分的重点研究领域。要做到
38、有的放矢,就需要研究已有的获得良好效果的各种汉字特征,分析它们的优点、缺点和适用环境。如下介绍并分析一下常用的一些的汉字结构特征和汉字统计特征。(1)结构特征抽取笔画法抽取笔画法是利用汉字由笔画所构成的特点进行识别,它利用汉字的结构信息来进行汉字的联机识别,在印刷体和脱机手写识别中,由于笔画提取的困难,结果不是很理想。松弛匹配法松弛匹配法是一种基于全局特征的匹配方法,它对输入汉字作多边近似,抽取边界线段,将这些边界线段组成临近线段表,然后用松弛匹配操作,完成边与边的匹配。这种方法利用弹性吸收汉字的变形,一个字只用一个样本。其缺点是操作速度较慢,计算量大。非线性匹配法非线性匹配法是由Tsukum
39、o等提出的,用以解决字形的位移、笔画的变形等现象。此方法试图克服从图形中正确抽取笔画的困难,以提高正确判别的能力。(2)统计特征笔画复杂性(Complexity Index) 笔画复杂性指数是指文字笔画的线段密度,其定义如下: (3-1) (3-2)式(3-1)和(3-2)中、一横向和纵向的笔画复杂性指数;、一横向和纵向的文字线段总长度;、一横向和纵向质心二次矩的平方根;、分别反应了横向和纵向的笔画复杂性,横多的大,竖多的大。笔画复杂性指数与汉字的位移无关,受字体和字号的影响较小,但易受笔画断裂和粘连的影响,且其分类能力较差,常与另一种粗分类方法“四边码”连用。四边码(Four-side Co
40、de)四边码是在汉字点阵图的四周各取一条带,计算其中的文字图像素点数,并将它分成四级,构成一个四元组。由于汉字边框不但含有丰富的结构信息,而且边框部分笔画一般较少,不易粘连,抗干扰能力强,但对汉字的位移和旋转比较敏感,与笔画复杂性指数正好形成互补。特征点特征点提取算法的主要思想是利用字符点阵中一些有代表性的黑点(笔画)、白点(背景)作为特征来区分不同的字符。特征点包括笔画骨架线的端点、折点、歧点和交点,汉字的背景也含有一定的区别于其它汉字的信息,选择若干背景点作为特征点,有利于提高系统的抗干扰能力。其特点是能够大大压缩特征库的容量,对于内部笔画粘连字符,其识别的适应性较强、直观性好,但不易表示
41、为矢量形式,匹配难度大,不适合作为粗分类的特征。笔段特征汉字是由笔画组成的,而笔画又由笔段组成,笔段可近似为一定方向、长度和宽度的矩形段。利用笔段与笔段之间的关系组成特征对汉字进行识别,受字体和字号的影响小,对于多体汉字的识别获得了良好效果。其缺点是笔段的提取会较为困难,匹配的难度大,抗内部笔画断裂或者粘连能力差。当然,汉字的特征多种多样,各有各的优点、短处和不同的适用范围。选择什么样的特征使得此单分类环节的识别效果达到最佳,选择哪些特征来优化组合来达到整个系统的识别效果达到最佳,这就是本文需要研究的问题。3.2.3 汉字的分类识别识别算法是整个识别过程的核心部分。原始图像经过预处理后,得到一
42、个较为理想的二值图像,然后就可以对这个处理后的二值图像进行识别。识别的过程包括根据识别算法选择和提取汉字的特征、与标准文字的特征进行匹配判别。 汉字的分类识别方法也是汉字识别系统的重要环节之一。诸多分类方法各自有其优缺点。(1)相关匹配这是一种统计识别方法,它通过在特征空间中计算输入特征向量与各模板向量之间的距离进行分类判决。距离度量的定义:设X,S分别为输入特征向量和模板特征向量,n为特征维数。 S阶Minkowski度量 (3-3) (3-4)其中最为常用的是一阶度量,又称为绝对距离。即: (3-5)欧氏距离S阶Minkowski度量中,令s=2,得到欧氏距离。 (3-6)加权距离考虑到输
43、入分量对模板的作用大小不同,故采用加权值来表示 (3-7)下标j表示不同的模板可以有不同的加权值。另一个描述输入向量与模板间关系的度量是相似度,最简单的相似度定义为二者方向夹角的余弦S,即: (3-8)与距离一样,相似度也可以加权,得到加权相似度: (3-9)其中,Wi为权值,且,当一个类别有多个模板时,还可以使用多重相似度: (3-10)其中,Si是S类中的一个模板。P(i)是该模板的概率。相关匹配是一种统计识别方法。统计方法的优点是特征提取和模板的建立都比较容易,抗干扰能力强,使局部噪声不敏感:缺点是分辨相似字的能力较弱,对书写风格的变化比较敏感。(2)文法分析文法分析的基本思想是将输入的
44、汉字看作是一个语句或符号串,将识别问题转化为判断输入的语句是否属于某种语言,即句子是否符合某种语言的语法约束条件,这种方法在汉字识别中也得到了应用。文法分析是典型的结构识别方法,由于其侧重点是在笔段形状、位置以及笔段之间相互关系的分析上,所以它的优点是分辨相似字的能力较强,对书写风格的变化不敏感:缺点是对局部噪声敏感,特征提取比较复杂。(3)松弛匹配无论是相关匹配还是文法分析,都要求输入特征向量和模板特征向量的各分量之间具有确切的对应关系,然而在结构分析中,往往事先难以确定两者各分量间的对应关系,此时可以采用松弛匹配法。松弛匹配法首先通过迭代运算,找出输入向量与模板向量各分量间的对应关系,然后
45、再根据这一对应关系进行匹配。迭代开始之前,首先根据输入向量各分量与模板向量各分量之间的相似度构成一个初始权值矩阵。矩阵中各元素的值为相应分量之间的初始匹配概率,然后通过迭代运算对各个权值进行修正,并将其中趋近于零的值置为零,直至权值的变化趋于稳定,此时,可以认为权值矩阵中非零元素所对应的分量之间只有对应关系,然后根据这一对应关系计算输入量与该模板问的距离,重复上述过程。求出输入量与每个模板间的距离,取其中距离最小的模板所代表的类别为识别结果。松弛匹配法兼具统计方法和结构方法的特长。由于它是根据总体的匹配程度来决定识别结果的,所以这一点它类似于统计方法,同时它在迭代中还把基元间位置关系等结构信息
46、考虑在内,这一点又很像结构方法。因此松弛匹配法在汉字识别中取得了很好的效果,它不仅可以用于特征点的匹配,而且还可以用于笔段、笔画和部件的匹配。其主要缺点是运算量较大,识别中往往需要增加预分类环节以减小运算量。另外,它吸收畸变的能力仍有不足。(4)人工神经网络汉字识别是一个非常活跃的分支,不断有新的方法涌现出来,为汉字识别的研究注入新的活力,其中基于人工神经网络的识别方法是非常引人注目的方向。目前神经网络理论的应用己经渗透到各个领域,并在模式识别、智能控制、计算机视觉、自适应滤波和信号处理、非线性优化、自动目标识别,连续语音识别、声纳信号的处理、知识处理、传感技术与机器人、生物等领域都有广泛地应用。3.2.4 后处理后处理就是利用相关算法对识别后的汉字文本或者初级识别结果做进一步的处理,纠正误识的汉字,给出拒识的汉字,确定模棱两可的汉字。汉字识别的后处理方法12,13从用户的参与程度来说,可分为三类:手工处理,交互式处理和计算机自动处理。以下对各种常用的后处理方法做简单的介绍。(1)简单的词匹配简单的词匹配就是利用文本中字的上下文匹配关系和词的使用频度,给识别后文本中的拒识字提供一个“最佳”的候选字,其关键是建立汉语词条数据库。该数据库应具印刷体汉字识别系统的特征提取和匹配识别研究有完善的词条存储、维修功能,应该能够反映不同词的使用频