数据挖掘中特征提取的分析与应用.docx

上传人:小飞机 文档编号:3560054 上传时间:2023-03-13 格式:DOCX 页数:7 大小:40.75KB
返回 下载 相关 举报
数据挖掘中特征提取的分析与应用.docx_第1页
第1页 / 共7页
数据挖掘中特征提取的分析与应用.docx_第2页
第2页 / 共7页
数据挖掘中特征提取的分析与应用.docx_第3页
第3页 / 共7页
数据挖掘中特征提取的分析与应用.docx_第4页
第4页 / 共7页
数据挖掘中特征提取的分析与应用.docx_第5页
第5页 / 共7页
亲,该文档总共7页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《数据挖掘中特征提取的分析与应用.docx》由会员分享,可在线阅读,更多相关《数据挖掘中特征提取的分析与应用.docx(7页珍藏版)》请在三一办公上搜索。

1、数据挖掘中特征提取的分析与应用数据挖掘中特征提取的分析与应用 摘要:数据挖掘中需要对数据进行各种分析,在一切分析前需要做好数据预处理。然而经过数据清理、数据集成、数据变换后,数据集仍然会非常大!在海量的数据上直接进行复杂的数据分析与挖掘将需要很长时间,使得这种分析不现实或不可行。数据归约技术可以用来得到数据集的归约表示,它小得多,但仍接近于保持原数据的完整性。这样,在归约后的数据集上挖掘将更有效,并产生相同或几乎相同的分析结果。通过这种方法从大量特征中提取出最具有代表性的特征根据需要分析有用的信息。随着社会的发展,传统的基于信物或口令的安全系统显得越来越脆弱,不能够满足现代安全系统的需要。基于

2、特征提取的指纹识别随之产生,在众多的指纹属性中提取端点和分叉点两大明显特征,进行数据挖掘与分析。 关键词:数据挖掘;数据预处理;数据归约;维归约;特征提取;指纹识别 前言:数据挖掘中需要对数据进行各种分析,在一切分析前需要做好数据预处理。然而经过数据清理、数据集成、数据变换处理后,数据集仍然会非常大!在海量的数据上直接进行复杂的数据分析与挖掘将需要很长时间,使得这种分析不现实或不可行。此时数据归约技术显得尤为重要,通过数据归约技术的数据立方体聚集、维归约、数据压缩、数值压缩、离散化和概念分层产生策略将数据集归约表示,保持原数据的完整性。这样,在归约后的数据集上挖掘将更有效,并产生相同或几乎相同

3、的分析结果。通过这种方法从大量特征中提取出最具有代表性的特征根据需要分析有用的信息。数据挖掘中的特征提取被广泛应用,其中指纹识别则是最典型的应用。 正文: 数据挖掘中的特征提取的分析与应用 经过数据清理、数据集成、数据变换预处理后,数据量仍然会很大,直接进行分析,肯定会降低挖掘过程的速度和效率。而通过数据归约的数据立方体聚集、维归约、数据压缩、数值压缩等策略可以压缩数据集,而又不损害数据挖掘的结果。 简而言之,数据归约是通过聚集、删除冗余特性或聚类的方法来压缩数据。数据立方体聚集是作用于数据立方体中的数据;维归约可以检测并删除不相关、弱相关或冗余的属性或维;数据压缩使用编码机制压缩数据集;数值

4、压缩用替代的、较小的数据表示替换或估计数据。本文就维归约的特征提取进行详尽的分析与应用说明,首先介绍维归约的概念。 一、维归约 用于数据分析的数据可能包含数以百计的属性,其中大部分属性与挖掘任务不相关,是冗余的。尽管领域专家可以挑选出有用的属性,但这可能是一项困难而费时的任务,特别是当数据的行为不清楚的时候更是如此。遗漏相关属性或留下不相关属性是有害的,可能会减慢挖掘进程。维归约则是通过删除不相关的属性或维减少数据量。通常使用属性子集的选择方法,即特征提取。 二、特征提取的概念 特征提取是通过映射的方法,将高维的属性空间压缩为低维的属性空间,得到最小的属性集,使得数据类的概念分布尽可能地接近使

5、用所有属性的原分布。得到的数据挖掘结果与所有特征参加的数据挖掘结果相近或完全一致。对于d个属性来说,有2d个可能的子集。 三、特征提取的分析 通过穷举搜索找出属性的最佳子集可能是不现实的,特别是当d和数据类的数目增加时,因此,对于特征提取通常是使用压缩搜索空间的启发式算法。特征提取的基本启发式方法包括以下四种: 逐步向前选择:该过程由空属性集作为归约集开始,确定原属性集中最好的属性,并将它添加到归约集中。在其后的每一次迭代,将剩下的原属性集中的最好的属性添加到该集合中。如图1左 (2)逐步向后删除:该过程由整个属性集开始。在每一步中,删除尚在属性集中最差的属性。如图1中 (3)逐步向前选择和逐

6、步向后删除的组合:可以将逐步向前选择和逐步向后删除方法结合在一起,每一步选择一个最好的属性,并在剩余属性中删除一个最差的属性。 (4)决策树归纳:决策树归纳构造一个类似于流程图的结构,其中每个内部结点表示一个属性上的测试,每个分枝对应于测试的一个结果;每个外部结点表示一个类预测。在每个结点上,算法选择“最好”的属性,将数据划分成类。如图1右 图1 属性子集选择的贪心方法 四、特征提取在指纹识别技术上的应用与分析 基于特征提取的特性,其被广泛应用于各种领域。 在现实生活中经常要对人的身份进行识别,例如登飞机时要识别登机者的身份,在银行取钱时要核实取钱者是否是指定账户的合法拥有者,使用计算机时要检

7、查操作者的权限等等。随着国民经济和社会信息化的飞速发展,金融机构、*机关、企业以及个人之间通过互联网日益紧密地联系在一起,一方面为信息的共享提供了条件,另一方面也为心怀叵测的人试图非法获取他人信息提供了机会。因此,如何自动、准确和高效地识别人的身份是信息安全领域的重要问题。而指纹具有唯一性和稳定性,因此被人们用来当作鉴别一个人身份的主要依据。然而如何在成千上万的指纹数据库中准确找出代表某一个人的指纹,进行数据挖掘,这就需要用到指纹识别技术了。相对于其它生物特征鉴定技术,指纹识别是一种理想的身份鉴别技术。 1、 指纹的类型 目前我国指纹的分类主要有以下两种: 基于指纹管理需要的十指指纹管理分类法

8、:该分类方法将指纹分为弓、箕、斗三种类型,并将箕型纹分为反箕和正箕以及中心点、外角点和追迹线的计线法。 计算机指纹管理的分类:指纹自动识别系统一般把指纹纹型分为弓、左箕、右箕、斗和杂型五大类,其分类的规则与十指指纹分析法基本一致,其代号为:A、弓型纹;B、左箕型纹;C、右箕型纹;D、斗型纹;E、杂型纹。 2、指纹图像的采集 传统的指纹采集方法为油墨转印法;活体指纹采集法直接从手指上获取数字指纹图像。 3、指纹图像的预处理 对于一幅指纹采集头采集的原始图像,为了使后续特征提取的操作能够正常有效的进行,必须对原始指纹图像进行一定的处理。通常这样的处理过程包括归一化、图像增强、二值化和细化等过程。如

9、图2所示 图2 指纹图像处理步骤 4、指纹图像的特征选取 因为每个人的指纹多种多样,在指纹识别技术中,指纹特征提取是其中一个非常重要的部分。这其中包括了提取什么样的特征、用什么样的方法提取特征、提取到的特征是不是能够代表该指纹特点的真实特征等三个问题。 指纹图像中存在两种类型的特征:全局特征和局部特征。全局特征通常用于指纹的分类,局部特征通常用于指纹的比对。 基于局部特征,根据指纹学所述,国际鉴定协会标准委员会确定的特征细节点有以下五种:纹线端点纹线分叉短线眼线点 奥斯特布曾建议指纹特征细节点除上述五种外再加上以下五种:三角桥形双叉三叉马刺形 指纹特征中还有一个非常重要的特征点中心点,如图3所

10、示为特征点细节的举例 图3 指纹特征点 据统计,这几类特征点占特征点的比率如图4所示。从表中可以发现,端点和分叉点占特征点91%,而交叉形、桥形以及环形三类总共只占9%左右。这一方面说明了几乎所有的指纹都有端点和分叉点,而且数量丰富;另一方面也反映了不是所有的指纹都有桥形、环形等特征点,而且即使有数量也比较少。由此可知,端点和分叉点又占了很大的比例,所以一般只研究端点和分叉点的特性。 图4 特征点类型及所占比例 目前大部分指纹识别系统使用的局部特征都是美国联邦调查局提出的细节点匹配模型,它利用末梢点与分叉点这两种特征来鉴定指纹,思路是先进行细节特征提取,将指纹图像中所有的末梢点和分叉点找出来,

11、然后对所有的细节特征点进行后处理,以判断它们是否有效。 图5 末梢点与分叉点 目前对指纹特征点提取的算法多种多样,各有不同,如基于直接从指纹灰度图像的特征提取算法、基于细化的图像特征提取算法、基于纹线方向滤波的指纹特征提取算法、基于二值化的指纹特征提取算法等等。但总体上,最常用的特征点提取算法有两类:一是从灰度图像直接提取特征点;二是对预处理细化后的图像进行提取特征点。 基于上述数据挖掘中的特征提取在指纹识别分析技术上的应用,可以看出,经过一系列的特征提取后,将原本多种指纹属性降到最少,却依然具有代表性。不仅更加准确的完成识别,而且可以明显大大降低了工作量。显而易见,特征提取在数据挖掘中的重要

12、性,以及不可忽视性。 结论: 在海量的数据上直接进行复杂的数据分析与挖掘将需要很长时间,使得这种分析不现实或不可行。所以需要进行数据归约,此时特称提取就显得尤为重要了。经过提取后的数据集在进行数据挖掘后的结果不仅与所有特征参加的数据挖掘结果相近或完全一致,而且大大减少了工作量,因此它被广泛运用于现实生活。随着社会的发展,传统的基于信物或口令的安全系统显得越来越脆弱,不能够满足现代安全系统的需要。基于特征提取的指纹识别随之产生,在众多的指纹属性中提取端点和分叉点两大明显特征,进行数据挖掘与分析。 参考文献: Jiawei Han、Micheline kamber著 范明、孟小峰等译.数据挖掘概念和技术.:机械工业出版社,XX年 刘云霞 .数据预处理数据归约的统计方法研究及应用:厦门大学出版社,XX年 李昊 傅曦 编著 .物联网指纹识别系统算法及实现: 人民邮电出版社,XX年 基于Matlab的指纹图像特征提取: 杨娱.指纹图像的特征提取及特征点记录 :电脑知识与技术Vol.5,No.19, July 2009

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号