《光学字符识别OCR.ppt》由会员分享,可在线阅读,更多相关《光学字符识别OCR.ppt(12页珍藏版)》请在三一办公上搜索。
1、光学字符识别OCR,OCR光学字符识别,OCR(Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。如何除错或利用辅助信息提高识别正确率,是OCR最重要的课题,ICR(Intelligent Character Recognition)的名词也因此而产生。衡量一个OCR系统性能好坏
2、的主要指标有:拒识率、误识率、识别速度、用户界面的友好性,产品的稳定性,易用性及可行性等。,OCR处理过程,图像预处理文字特征抽取对比识别字词后处理输出,图像预处理,1、二值化(灰度平局值值法、百分比阈值(P-Tile法)、基于谷底最小值的阈值、基于双峰平均值的阈值、迭代最佳阈值、OSTU大律法、一维最大熵、力矩保持法、基于模糊集理论的阈值、ISODATA(也叫做intermeans法)、Shanbhag 法、Yen法),图像的二值化,就是将图像上的像素点的灰度值设置为0或255,也就是将整个图像呈现出明显的只有黑和白的视觉效果。,图像预处理,2、去噪(中值滤波、均值滤波、Wiener维纳滤波
3、),椒盐噪声是黑白相间随机分布的亮暗点噪声,通常产生于图像传感器,传输信道,解码处理等情况中。噪声给图像处理带来诸多不便,对分割图像、提取特征、识别图像等都会带来负面影响。因此,对椒盐噪声去噪显得很有必要。,均值滤波,维纳滤波,3种滤波比较,图像预处理,3、倾斜校正处理(Hough 变换、Hough 变换、Hough 变换、Fourier 变换、最近临簇法、最近临簇法),由于拍摄的图片可能产生倾斜角度,对字符识别带来困扰,所以需将图片倾斜矫正处理。,文字特征抽取,一、版面分析,版面分析将图像切分为不同区域,再把其划分为不同的类型,如图片块、文本块和线条等。虽然名片图像的版面构造多种多样,仍能够
4、将它划分成三类图像组合:文字块:完全由字符构成,它包含中文、字母、数字以及各种标点符号等。线条块:有些名片图像中含有线条,用来醒目单位名称以及有关信息等,通常位于姓名与单位名称间或单位名称与地址之间。图形图片块:由各种线条构成的图案,如单位的标识等。有时,图片块中包含字符或线条,本文将其与图形块和线条分开处理,因为图片块中的信息是偶尔也是有用的。,1、方法自顶而下(投影二分法、循环x-y切分)自底而上(游程码平滑切分、K近邻聚类方法、连通域提取算法切分)综合法(基于组件的中文版面分析算法、基于背景空白的版面切分算法)基于膨胀算法的版面分析技术,文字特征抽取,二、字符切割提取(基于opencv)
5、,1.轮廓检测(只获取最外层的)2.遍历所有检测到的轮廓,用cvBoundingRect()得到每一个轮廓的外接矩形,找到的轮廓,抠它们出来,这步在上面的遍历中直接通过setROI方法进行提取。,文字特征抽取,三、特征提取,文字特征对 OCR 识别来说非常重要,文字特征区分一般为两类:其一 利用统计的特征,例如文字块的黑、白像素点的比例,通过将文字块几何的分成好几个小块时,形成特征向量,向量是通过每个单独划分的几何区域黑、白点数比例组合起来的,在匹配时,可以利用简单的距离公式或者相似度进行最优匹配。其二 从文字的结构入手,比如图片内的文字块通过细化算法细化后,计算交叉点之数量及位置,同时统计字
6、的笔划数量及位置,或配合模版的匹配方法,进行匹配。,CNN(卷积神经网络)卷积神经网络是人工神经网络的一种,已成为当前图像识别领域的主流模型.它通过 局部感知野 和 权值共享 方法,降低了网络模型的复杂度,减少了权值的数量,在网络结构上更类似于生物神经网络,这也预示着它必然具有更优秀的效果.事实上,我们选择卷积神经网络的主要原因有:1.对原始图像自动提取特征 卷积神经网络模型可以直接将原始图像进行输入,免除了传统模型的人工提取特征这一比较困难的核心部分;2.比传统模型更高的精度 比如在MNIST手写数字识别任务中,可以达到99%以上的精度,这远高于传统模型的精度;3.比传统模型更好的泛化能力
7、这意味着图像本身的形变(伸缩、旋转)以及图像上的噪音对识别的结果影响不明显,这正是一个良好的OCR系统所必需的。,文字特征抽取,三、特征提取,对比识别,样本库,训练,采集,Tesseract-OCR,网上下载字体库,识别:直观上,我们会有这样一个思路,就是这张待识别的图片,最像样本库中的某张图片,那么我们就将它当作那张图片,将它识别为样本库中那张图片事先指定的字符。在我们眼睛里,判断一张图片和另一张图片是否相似很简单,但对于电脑来说,就很难判断了。我们前面已经将图片数值化为一个个维度一样的矢量,电脑是怎样判断一个矢量与另一个矢量相似的呢?这里需要计算一个矢量与另一个矢量间的距离。这个距离越短,则认为这两个矢量越相似。有些字符变形很严重,有的字符连在一起互相交叉,有的字符被掩盖在一堆噪音海之中。对这类字符的识别需要用上特殊的手段。(1)切线距离(Tangent Distance):可用于处理字符的各种变形,OCR的核心技术之一。(2)霍夫变换(Hough Transform):对噪音极其不敏感,常用于从图片中提取各种形状。图像识别中最基本的方法之一。(3)形状上下文(Shape Context):将特征高维化,对形变不很敏感,对噪音也不很敏感。新世纪出现的新方法。,OCR后处理,