数据缺失及其填补方法综述.ppt

上传人:仙人指路1688 文档编号:2940376 上传时间:2023-03-05 格式:PPT 页数:26 大小:3.64MB
返回 下载 相关 举报
数据缺失及其填补方法综述.ppt_第1页
第1页 / 共26页
数据缺失及其填补方法综述.ppt_第2页
第2页 / 共26页
数据缺失及其填补方法综述.ppt_第3页
第3页 / 共26页
数据缺失及其填补方法综述.ppt_第4页
第4页 / 共26页
数据缺失及其填补方法综述.ppt_第5页
第5页 / 共26页
点击查看更多>>
资源描述

《数据缺失及其填补方法综述.ppt》由会员分享,可在线阅读,更多相关《数据缺失及其填补方法综述.ppt(26页珍藏版)》请在三一办公上搜索。

1、数据缺失及其填补方法综述,报告人:邵宏赡日 期:2013.4,一,二,三,引言,数据缺失简介,数据缺失的处理方法,主要内容,处理方法评价,五,总结,一,二,三,引言,数据缺失简介,数据缺失的处理方法,四,处理方法的选择与评价,五,总结,在社会调查资料中,最为常见的问题就是。造成数据缺失的原因有:失访、无响应或是回答问题不合格等等。统计学上,将含有缺失数据的记录称为不完全观测。缺失数据或不完全观测对调查研究的影响是很大的。所以在统计学中,为了能够更加充分地利用已经搜集到的数据,国内外很多学者都对缺失数据的处理提出了自己独到的见解,来挽救有缺失的调查数据,以保证研究工作顺利进行。,数据缺失,一,二

2、,三,引言,数据缺失简介,数据缺失的处理方法,四,处理方法的选择与评价,五,总结,数据缺失是指在数据采集时由于某种原因应该得到而没有得到的数据。它指的是现有数据集中某个或某些属性的值是不完全的。,统计调查中能否按设计要求获得被调查单位的详全资料是衡量数据质量的一个重要标准,但实际调查中经常遇到数据缺失的情况。,无回答有2种表现形式:单位无回答(unit non-response)和项目无回答(item non-response)。“单位无回答”被调查者不愿意或者不能够回答整张的问卷;“项目无回答”被调查者拒绝回答个别的调查项目。,概念(Concept),缺失原因(Reason),在存储数据的过

3、程中,由于机器的损坏造成数据存储失败;,调查员在采集数据过程中,由于主观因素人为地认为数据不重要或无用,而私自丢弃数据;,调查员信息录入失误;,受访者拒绝透露被调查信息,或回答错误信息;,受访者选取失误。例如调查工资情况,选取的受访者是婴幼儿。,在统计调查过程中,数据缺失是不可避免的,造成这种现象的原因是多方面的,主要有以下几种:,Little和Rubin针对缺失数据,探讨缺失数据与目标变量是否有关,定义了3种不同的缺失机制。,产生机制(Mechanism),MCAR,MAR,MNAR,完全随机缺失(Missing Completely At Random):数据的缺失与不完全变量以及完全变量

4、都是无关的。,随机缺失(Missing At Random):数据的缺失仅仅依赖于完全变量。,非随机缺失(Not Missing At Random):不完全变量中数据的缺失,依赖于不完全变量本身。这种缺失是不可忽略的。,产生机制(Mechanism),缺失模式(Pattern),数据缺失模式主要研究哪些变量缺失,更确切的说,关注的是缺失数据矩阵R的分布。当一维目标变量出现缺失数据时,我们在数据处理过程中首先要考虑缺失数据产生机制,而对于多维目标变量而言,除了考虑缺失数据产生机制外,还要判断数据的缺失模式。,缺失模式(Pattern),假设完全数据资料阵 y 是由m个观测、n个变量组成的mn矩

5、阵,通过分析这个矩阵的特点,可以推断出数据缺失模式。,一,引言,四,处理方法的选择与评价,五,总结,二,数据缺失简介,三,数据缺失的处理方法,基本方法,基于完整观测单位的方法,单一填补法,基于填补的方法,人工填补法,删除法,不处理,加权调整法,列表删除,个案删除(配对删除),多重填补法,均值填补法,回归填补法,热平台填补法(Hot deck 填补法、就近补齐法),冷平台填补法,期望最大化法,极大似然估计,马尔科夫链蒙特卡罗法(MCMC),趋势得分法,随机回归填补法(PMM法),K最近距离邻法,贝叶斯网络,人工神经网络,C4.5方法,这种方法简便易行。在被调查对象出现多个变量的缺失,并且被删除的

6、含缺失的数据量在整个数据集中的数据量占的比例非常小的情况下,是非常简单而有效的。它的不足之处在于,删除缺失数据的过程中减少了原始的数据,导致了信息的损耗。因此,当缺失数据所占比例较大,特别当缺失数据非随机分布时,这种方法可能导致数据发生偏离,从而引出错误的结论。,基于完整观测单位的方法,删除法,加权调整法,列表删除,个案删除(配对删除),加权是一个减少偏差的比较简单的措施,但是由于丢弃不完整单位的信息,并且没有提供一个内在的方差控制,所以在样本量较大时,易出现错误的结果。,多重填补法1977年由Rubin首先提出,经过Meng和Schafer等人不断的完善和综合已形成一个比较系统的理论,该法有

7、以下优点:多重插补过程产生多个中间插补值,可以利用插补值之间的变异反映无回答的不确定性,包括无回答原因已知情况下抽样的变异性和无回答原因不确定造成的变异性。多重插补通过模拟缺失数据的分布,较好地保持变量之间的关系。多重插补能给出衡量估计结果不确定性的大量信息,单一插补给出的估计结果则较为简单。,单一插补的优点 1、标准的完全数据分析方法 2、对公众应用数据库,程序运行一次 缺点低估估计量的方差 改进校正估计量的方差,主要利用Jackknife、Bootstrap 等工具,给出方差的相合估计。,单一填补法,基于填补的方法,人工填补法,多重填补法,均值填补法,回归填补法,热平台填补法(Hot de

8、ck 填补法、就近补齐法),冷平台填补法,期望最大化法(EM),极大似然估计,马尔科夫链蒙特卡罗法(MCMC),趋势得分法,随机回归填补法(PMM法),K均值聚类法(K-means clustering),C4.5方法,多重插补缺点:一、生成多重插补比单一插补需要更多工作二、贮存多重插补数据集需要更多存储空间三、分析多重插补数据集比单一插补需要花费更多精力。,不处理就是直接在包含空值的数据上进行数据挖掘。贝叶斯网络仅适合于对领域知识具有一定了解的情况,至少对变量间的依赖关系较清楚的情况。否则直接从数据中学习贝叶斯网的结构不但复杂性较高(随着变量的增加,指数级增加),网络维护代价昂贵,而且它的估

9、计参数较多,为系统带来了高方差,影响了它的预测精度。当在任何一个对象中的缺失值数量很大时,存在指数爆炸的危险。人工神经网络可以有效的对付空值,但人工神经网络在这方面的研究还有待进一步深入展开。,不处理,贝叶斯网络,人工神经网络,数据填补通常是一件非常繁琐的工作,很多常用的统计软件以及专门为其编写的软件都可以完成。从中可以看出,各种软件的着重点不同,使用效果也不尽相同,在使用时要根据个人实际需要加以选择。,常用的数据缺失填补软件,一,引言,三,数据缺失的处理方法,五,总结,二,数据缺失简介,四,处理方法的选择与评价,处理方法的选择,处理方法的评价,处理方法的评价,一,引言,三,数据缺失的处理方法

10、,四,处理方法的选择与评价,二,数据缺失简介,五,总结,这段时间,阅读了相关的文献资料,对数据缺失的概念、缺失原因、缺失机制、缺失模式以及一些基本填补方法有了大致的理解,并初步了解了数据缺失处理方法的研究现状。对于数据缺失国内外学者已经做了广泛的研究,但没有哪一种处理缺失数据的方法是普遍适用的,每种方法都存在不如人意之处。目前各种新兴的方法层出不穷,如人工神经网络,机器智能模型等。所以针对各种实际问题,要注意分清问题的实质,适当地运用处理方法才是解决好实际问题的关键所在,此外,融合相关领域、相关学科的优秀算法,实现创新。,计划:继续研读针对缺失数据构造分类器的相关文献资料,摸索其中的研究理论和方法,并结合相关学科的先进理论(核主元分析,遗传算法等),探究一种更高效的处理缺失数据分类问题的方法,与已有方法加以比较验证。,敬请大家批评指正谢谢,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 建筑/施工/环境 > 项目建议


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号