结合分块DCT系数及其统计特征的人脸识别.doc

资源描述

《结合分块DCT系数及其统计特征的人脸识别.doc》由会员分享，可在线阅读，更多相关《结合分块DCT系数及其统计特征的人脸识别.doc（5页珍藏版）》请在三一办公上搜索。

1、Computer Engineering and Applications 计算机工程与应用2012，48（30）193结合分块 DCT 系数及其统计特征的人脸识别刘凡秀，蔡茂国，陈章乐LIU Fanxiu, CAI Maoguo, CHEN Zhangle深圳大学计算机与软件学院，广东深圳 518060College of Computer and Software, Shenzhen University, Shenzhen, Guangdong 518060, ChinaLIU Fanxiu, CAI Maoguo, CHEN Zhangle. Combination of coef

2、ficient and statistical features of block DCTfor face recognition. Computer Engineering and Applications, 2012, 48（30）：193-196.Abstract：A face recognition algorithm based on coefficient and statistical features of block DCT is proposed. Theimage is partitioned into a set of blocks, choosing the DCT

3、coefficient of the low frequency part as its features. At the same time the DCT transform is performed on each block in order to decompose it into a low-pass filtered image and a reversed L-shape blocks containing the high frequency coefficients of the DCT; the statistical measures such as mean, var

4、iance, and entropy rate are then computed on the low-pass filtered image and a reversed L-shape blocks; SVM and the nearest neighbor classifier are selected to perform face classification. The experimental results on ORL and Yale face databases show that the algorithm based on statistical features o

5、f block DCT achieves high recognition rate.Key words：Discrete Cosine Transform（DCT）; Support Vector Machine（SVM）; nearest neighbor classifier; statis-tical features; face recognition摘要：提出了一种基于分块 DCT 系数及其统计特征的人脸识别算法。对图像进行分块，对每一块进行 DCT变换，选择低频部分的系数作为识别的特征，将每一块分解为一幅低通滤波图和一个包含 DCT 高频系数的反 L 型块；分别对这两块求其均值

6、、方差和熵这三个统计特征；利用支持向量机（SVM）和最近邻分类器对这些特征进行分类识别。在 ORL、Yale 人脸数据库上的仿真实验表明，使用基于分块 DCT 系数及其统计特征可达到较高的识别率。关键词：离散余弦变换（DCT）；支持向量机；最近邻分类器；统计特征；人脸识别文章编号：1002-8331（2012）30-0193-04文献标识码：A中图分类号：TP3911引言当今社会，随着信息化进程的深入和互联网的迅速发展，信息的安全性、隐蔽性越来越受到人们的重视。人脸识别技术也因其所具有的方便、友好、直接、易于为用户所接受等特点在近几十年来倍受研究人员的青睐，相关的方法也相继被提出。

7、根据对国内外大量文献的统计，主要可以分为基于整体的方法，典型的有 PCA 特征脸和 Fisher 脸方法等；基于局部的方法，如纯几何方法、弹性匹配方法等；基于融合的方法，即同时使用整体和局部信息来识别人脸。在文献1中，通过利用图像的积分投影方法，对图像进行裁剪并缩放到 30 30 的标准大小，然后再利用 PCA 的方法进行识别，由于人脸识别易受光照、姿势、遮挡、表情等影响，所以在利用积分投影方法对图像进行裁剪时，很难准确得到标准图像，且 PCA 法的一个不足是需要求解高维矩阵的特征分解问题，计算量较大，其次，当有新图像加入时，必须重新计算新图像与原库中的所有图像的协方差矩阵，不作者

8、简介：刘凡秀（1987），女，硕士，主要研究方向：多媒体信息处理、人脸识别；蔡茂国（1965），男，教授，硕士生导师，主要研究方向：多媒体信息处理、计算机网络；陈章乐（1987），男，硕士，主要研究方向：多媒体信息处理、人脸检测。E-mail：liufashion2010收稿日期：2011-06-15修回日期：2011-08-15CNKI 出版日期：2011-10-24DOI：10.3778/j.issn.1002-8331.2012.30.040C(u v) 是DCT 系数。 a(u) ，a(v) 的定义为：利于新图像的加入。离散余弦变换（DCT）是由 N.Ahmed 等人在 1974 年提

9、出的正交变换方法，且被广泛用于语音和图像信号压缩，信号经过正交变换后，能量会集中在少数变换系数上，一般是集中在变换后的低频部分，删除对信号贡献较小的系数，只利用余留下来的系数便可恢复大致的信号，且不会引起明显的失真，DCT 的数据压缩能力在一定条件下近似于 PCA，DCT 可对图像进行单独的处理，且 DCT 有快速的算法2。近些年来，许多研究者将 DCT 方法运用到人脸识别中，并取得了不错的效果。如在文献3提出了基于 DCT 与 SVM 的人脸识别方法，并获得了不错的识别率。在文献4 中，Randa 等受小波分解思想的启发，提出 DCT 金字塔式的多分辨率的特征提取方法，其采

10、用多分块 DCT 金字塔方法进行人脸识别时，也取得了较不错的效果。因为图像经 DCT 变换之后，用较少的低频系数便可恢复大致的图像，而统计特征均值能很好地表现图像的平均灰度信息，方差能很好地表现图像内灰度波动的情况，熵5可以很好地表现图像的纹理信息。且在文献4中，对图像进行多级DCT 分解比较麻烦，且文中忽略了能代表图像整体信息的 DCT 系数。受此启发，本文提出了利用分块 DCT 系数及其统计特征进行人脸识别的方法，该方法首先对图像进行分块，并对每一块进行 DCT 变换，选择低频部分的系数作为识别的特征，同时将其分解为一幅低通滤波图和一个包含 DCT 高频系数的反 L 型

11、块；然后分别对这两块求其均值、方差和熵这三个统计特征；最后利用支持向量机（SVM）和最近邻分类器对这些特征进行分类识别。在 ORL、Yale 人脸数据库上的实验结果表明，该方法优于文献3和文献4 的方法。1u = 0M a(u) = 2 u = 1 2 3 M - 1M1N v = 0a(v) = 2v = 1 2 3 M - 1N DCT 反变换公式为：I (x y) =M - 1 N - 1 (2x + 1)u (2y + 1)v C(u, v)a(u)a(v)cos（2）cos 2M2Nu = 0 v = 0其中，x = 0 1 2 M - 1 ，y = 0 1 2 N - 1

12、。图 1 所表示的是对一幅图像进行 DCT 变换后，取左上角四分之一大小的低频系数经 DCT 反变换后得到的低通滤波图像，和剩余类似于反 L 型 DCT 高频系数。（a）原图片（b）低通滤波图（c）反 L 型 DCT高频系数图 1 人脸的 DCT 及 IDCT 变换2.2结合分块 DCT 系数及其统计特征提取特征提取是人脸识别中最基本的问题之一，由于人脸图像数据的高维性和数据之间冗余性。因此特征提取时不但要提取出最有利用人脸分类的特征，而且要极大地降低人脸样本的维数。基于小波分解，小波包分解以及 DCT 分解的方法，能很好地降低图像的维数。另外一种有效的降维方法就是计算图像的一系

13、列统计特征，如均值、方差、熵等。考虑到图像经 DCT 变换之后，用较少的低频系数便可恢复大致的图像，而统计特征均值能很好地表现图像的平均灰度信息，方差能很好地表现图像内灰度波动的情况，熵可以很好地表现图像的纹理信息。所以在本文中将同时使用 DCT 分解和计算图2结合分块 DCT 系数及其统计特征的人脸识别算法和关键技术2.1离散余弦变换DCT 是一种常用的正交变换，图像经 DCT 变换后，图像的主要信息集中在低频部分，可以通过提取低频部分的少量系数进行 DCT 反变换，得到原图像的近似图。对一幅大小为 M N 图像 I (x y) ，其二维的DCT 变换的定义如

14、下：C(u v) =像的统计特征的方法来提取特征。对于一幅图像，先将其分成大小一样的 K 块，然后对每块进行 DCT变换，提取低频部分中的少量系数作为特征，同时利用图 1 所示的方法，将每块分解成一幅低通滤波图和一个反 L 型 DCT 高频系数块，然后计算这两部分中的均值、方差和熵这三个统计特征。对于每一部分a(u)a(v) I (x y)cos (2x + 1)u cos (2y + 1)v M - 1 N - 1（1） 2M 2Nx = 0 y = 0其中，u = 0 1 2 M - 1 ，v = 0 1 2 N - 1 。刘凡秀，蔡茂国，陈章乐：结合分块DCT 系数及其统计特征

15、的人脸识别2012，48（30）1952的统计特征向量可以表示为 Vi =i i Hi ，其中，中，一般有“一对一”、“一对多”、“DAG”等方法。2对于有 N 类样本，“一对一”方法的问题是需要构N (N - 1)/2 个两类分类器，最后采用投票方式进行分类。“一对多”方法只需要构造 N 个 SVM 分类器，它的问题是会出现“数据集偏斜”。而对于“DAG”方法i i 分别表示均值、方差和熵，分别被定义为：M N1i = M N (Si ( y x)（3）y = 1 x = 1M N 2 1 i = M N (S ( y x) - )（4）ii会出现错误累积，如果第一次分类器不能正确判别，

16、y = 1 x = 1Hi = - ( p lb( p)（5）则会出现一直错误判别下去，这样会导致分类率的下降。Chih-Wei Hsu 等人对上述的三种方法进行了比较，表明一一区分法的分类性能最优6。本文对所提取的统计特征采用“一对一”进行判别。2.4 算法实现步骤（1）将图像缩放成大小为 80 80 ，然后将图像分成 8 8 大小的100 块。（2）对于每一块进行 DCT 变换，并利用 zig-zag 之字形7 方法提取低频部分中的少量系数组成系数特征向量 C n ，其中 n 为所提取的 DCT 系数的个数（本文中 n = 3）。同时取左上角四分之一大小的低频系数经 DCT 反

17、变换后得到的低通滤波图像，剩余四分之三的 DCT 高频系数组成一个类似于反 L 型 DCT 高频系数块。然后分别对低通滤波图像求其均值 (iL)其中，M 和 N 分别是每一分块的大小，它的值为Si ( y x) ，P 是直方图统计。因为反 L 型块表示的是图像经 DCT 变换后的高频交流系数，它们的值通常都比较小，它们的均值相对来说也非常小，一般可以忽略，且反 L 型块的纹理不明显，所以它的熵重要性不高。所以对于反 L 型块，只计算其方差这一特征，而对于低通滤波图，由于是先对图像进行分块，然后再对分块进行 DCT 变换和反变换，所以每块内像素间的差异不会很大，也就是说，它的方差

18、将会很小，所以也可以忽略不计。因为，对于每一个低通滤波图像，只计算其均值和熵特征。所以每一块的统计2特征向量可表示为：Vi =iL HiL iH ，其中 iL HiL 2iH 分别表示每块内的低通滤波图像的均值、熵以及反 L 型块的方差。每块的特征向量可以表示为nnVi C ，其中 C 表示所选取的 DCT 系数向量，n 表示的是所选取的 DCT 系数的个数。则每一幅图像的k和熵 (H )，对反 L 型 DCT 高频系数块求其方差 ( 2iH ) ，iL组成一个统计特征向量 V = H 2iH 。则每块的iiLiLn特征向量可以表示为 V = Vi C ，

19、其中 k 表示图像n特征向量可以表示为Vi C 。每幅图像的特征向量ki = 1总共被分成了 k 块，如图2 所示。n表示为 V = Vi C ，其中 k = 100 。i = 1（3）对训练图像和测试图像进行如（2）的操作，得到训练图像和测试图像的特征库。再分别利用 SVM 和最近邻分类器进行识别。在使用 SVM 进行分类之 H8iL iL44 IDCT82Vi =iL HiL iH 2i88 DCTC n前，先分别对训练特征和测试特征进行规一化操作，k使其具有零均值和单位方差。V = Vi C ni = 1图 2 人脸的特征向量提取2.3支持向量机支持向量机（SVM）是一种基于结构风险最

20、小化原则的通用学习算法，它的基本思想是在样本输入空间或特征空间构造出一个最优超平面，使得超平面到两类样本集之间的距离达到最大，从而得到最好的泛化能力，在解决小样本、非线性及高维模式识别中表现出许多特有的优势（http：/www.blogjava. net/zhenandaci/archive/2009/02/13/254519.html）。支持向量机算法是专门针对性小样本的二分类问题提出的。对于多分类的问题，可以通过建立多个 SVM 分类器的方式方法加以解决。在现有的解决方法3实验结果及分析本文的实验平台是 Windows 7，采用 MATLABTMR2010a 编程实现

21、，在配置为 Intel Core i5 CPU2.53 GHz 2.0 GB RAM 的 ASUS 笔记本上进行了仿真。实验中支持向量机采用林智仁的 LIBSVM（http：/www.csie.ntu.edu.tw/cjlin/libsvm/libsvm-3.1. zip）。因为人脸识别容易受姿态、表情、光照等因素的影响，为了验证所提出算法在不同条件下的识别能力，同时在ORL 和Yale 人脸库上进行了实验。3.1 ORL 人脸库实验该人脸库由 40 人、每人 10 幅（见图 3），共 400 幅图像组成，主要包括了姿态、表情和面部饰物的变化，所用图

22、像的大小为 112 92 。随机选择每个人的 5 幅图像作为训练样本，剩余的另外 5 幅图像作为测试图像。首先将图像缩放成大小为 80 80 ，然后将图像分成 8 8 大小的100 块。进行了两组实验，分别是利用 DCT 系数与统计特征进行人脸识别，和只用 DCT 系数进行人脸识别，在 DCT 系数的选择上，采用了 zig-zag 之字形的方法。最后分别利用最近邻分类器和SVM 对特征进行分类。（a）正确识别（b）错误识别图 4 利用 DCT 系数与统计特征作为特征，利用欧式距离进行判别的结果3.2Yale 人脸库实验该人脸库由 15 人，每人 11 幅的 165 幅图像组成，主要包

23、含光照、表情和姿态的变化。所用图像的大小为 100 100 。随机选择每个人的 5 幅图像作为训练样本，剩余的另外 6 幅图像作为测试图像。因为该人脸库的图像光照变化较大，所以在对图像进行分块提取特征前，先利用直方图均衡化对图像进行处理，然后再与ORL 人脸库中实验一样，做一样的处理。总共重复进行了10 次实验，实验结果如表2 所示。从表 2 中可以看出，虽然两种方法都可以达到比较高的识别率，但是本文中所提出的方法在 Yale 人脸库上识别率并不是特别理想，主要原因可能是因为 Yale 人脸库中图像的光照变化较大，图像经过直方图预处理之后，使得类间差异性变小了。所提取到的统计特

24、征类间差异性变小，从而不利于图像的分类。图 3 ORL 人脸数据库中的 10 幅人脸在利用 DCT 系数与统计特征进行人脸识别时，每块提取了 6 个特征，即 3 个 DCT 系数特征和 3 个统计特征。在只用 DCT 系数进行人脸识别，每块提取了 6 个 DCT 系数特征。最近邻分类器中所采用的是欧式距离进行判别，SVM 中所选用的核函数是线性核函数，其参数是默认的参数。总共重复进行了 10 次实验，实验结果如表1 所示。从表 1 中可以看出，利用 DCT 系数和统计特征的方法能得到比较高的识别率，其中 DCT 系数和统计特征+SVM 的方法所获得的识别率是最高的，平均识别率达

25、到了96.7%。在文献4中，利用多分块DCT 金字塔方法所获得的最高识别率是 95.9% ，相对来说，本文所提出的方法要优于文献4的方法。图 4 显示的是利用 DCT 系数与统计特征作为特征，利用欧式距离进行判别的结果。4结论提出了一种结合分块 DCT 系数及其统计特征的人脸识别方法，充分利用了统计特征和 DCT 在降低特征维数和保留对表情、姿态等不敏感的类别信息方面的优点。从实验结果来看，该方法对于姿态、表情变换具有一定的鲁棒性，在 ORL 人脸库上得到了较高的识别率。但是对于光照变换有点敏感。本文对于每个分块内的 DCT 系数的个数的选取，是根表 1 ORL 数据库中算法识别结

26、果比较（%）SVM（线性核函数）最近邻分类器（欧式距离）方法最高识别率最低识别率平均识别率最高识别率最低识别率平均识别率DCT 系数和统计特征DCT 系数999494.084.596.791.196.596.0919193.7593.80表 2 Yale 数据库中算法识别结果比较（%）SVM（线性核函数）最近邻分类器（欧式距离）方法最高识别率最低识别率平均识别率最高识别率最低识别率平均识别率DCT 系数和统计特征DCT 系数97.7897.7890.0092.2293.5695.7898.89100.0091.1194.4494.2296.11（下转228 页）2282012，48（30）Co

27、mputer Engineering and Applications 计算机工程与应用理不确定信息时具有更强的表现能力。结合 Petri 网直观的知识表示优点，提出了模糊推理算法。算法全部采用矩阵形式运算，便于在计算机上实现。选取最小决策信息集的元素为模糊控制变量，使推理过程快速、有效。空战战术决策主要指飞行员根据对抗态势信息选取合适的机动，使飞机占据并保持有利的相对位置，目的是形成武器攻击条件，并最终发射导弹毁伤目标。影响空战决策的不确定性因素多，如雷达实际探测距离、对抗空域气象条件等，直觉模糊集隶属度函数和非隶属度函数可以描述“非此非彼”的“模糊概念”，具备强大的模糊描

28、述能力，能有效解决不确定性因素的问题。文中仿真实例的态势信息是从一次真实对抗训练中采集的，经过推理得出的结论与战术专家库的预测结果相符。由于空战对抗稍纵即逝，态势变化迅速，如果要在实时对抗中应用该模型辅助飞行员决策，必须考虑算法的时间问题。决策模型的模糊推理算法时间复杂度为 O(mk nk ) ，其中 n 为库所数，m 为变迁数，k 为迭代次数，时间复杂度与 mn 的 k 次幂呈正比，当 k 值较小时，算法时间复杂度主要由 n 和 m 的乘积决定，当 k 值较大时，算法时间复杂度主要与 k 值有关，与 n 、m 值关系不大。对于不同的库所初始值，k 值也不同。与此同时，在实

29、际应用中还必须考虑机动无效的情况，即无论飞行员选取何种机动方式，采取何种机动动作，都无法规避导弹攻击。出现该情况的可能原因是目标机飞行员的威胁意识不强，攻击机发射的导弹已进入末端制导，弹目距离较近，目标机无法机动规避导弹攻击。通过研究态势信息和导弹攻击包络线确定机动无效的时刻，从而进一步完善决策模型。参考文献：1 周创明，申晓勇，雷英杰.基于直觉模糊 Petri 网的敌意图识别方法研究J.计算机应用，2009，29（9）：2464-2467.2 史志富，张安，刘海燕，等.基于模糊 Petri 网的空战战术决策研究J.系统仿真学报，2007，19（1）：63-66.3 陈军，高晓光，

30、符小卫.基于粗超集理论与贝叶斯网络的超视距空战战术决策J. 系统仿真学报，2009，21（3）：1739-1747.4 雷英杰，王宝树.基于直觉模糊推理的威胁评估方法J.电子与信息学报，2007，29（9）：2077-2081.5 夏博龄，贺正洪，雷英杰.基于直觉模糊推理的威胁评估改进算法J.计算机工程，2009，35（8）：195-200.6 王永庆.人工智能原理与方法M.西安：西安交通大学出版社，2001.7 雷英杰，王宝树，苗启广.直觉模糊关系及合成运算J.系统工程理论与实践，2005，2（2）：113-118.8 路艳丽.直觉模糊粗糙集理论及其在态势评估中的应用研究D.西安

31、：空军工程大学，2007.9 王晓帆，王宝树.基于贝叶斯网络和直觉模糊推理的态势评估方法J.系统工程与电子技术，2009，31（11）：2742-2746.（上接196 页）据三个统计特征，定量地取了三个 DCT 系数，所以对于选取多少个 DCT 系数，也可以作为一个研究的内容。识别算法J.空军工程大学学报：自然科学版，2005，6（2）.4 Atta R，Ghanbari M.Low-memory requirement and effi- cient face recognition system based on DCT pyramidJ.IEEE Transactions on

32、Consumer Electronics，2010，56：1542-1548.5 黄源源，李建平.多尺度变换域内混合投影熵的人脸特征描述J.计算机工程与应用，2011，47（12）：5-6.6 Hsu C W，Lin C J.A comparison of methods for multi- class support vector machinesJ.IEEE Transactions on Neural Networks，2002，13：415-425.7 徐志平，张海朝.基于 Haar 小波变换和分块 DCT 的人脸识别J.微型机与应用，2009（21）.参考文献：1 叶晓明，林小竹.基于主元分析的人脸识别方法研究J.北京印刷学院学报，2010（2）：32-38.2 王志良，孟秀艳.人脸工程学M.北京：机械工业出版社，2008：107-108.3 陶晓燕，赵巧霞.基于离散余弦变换和支持向量机的人脸

展开阅读全文