《调查数据的整理与分析.ppt》由会员分享,可在线阅读,更多相关《调查数据的整理与分析.ppt(55页珍藏版)》请在三一办公上搜索。
1、第九章 调查数据的整理与分析,调查资料的接收和编辑 调查资料的编码和录入 调查数据的统计预处理 统计数据显示 调查数据分析方法介绍,2023/10/26,1,第一节 调查数据整理的步骤,2023/10/26,2,第二节 调查资料的接收和编辑,2023/10/26,3,与资料搜集工作相配合,掌握每天完成的问卷数和接收的问卷数在完成的问卷后面记录完成与接收的日期,以便必要时对前后接收的问卷进行比较多个调查项目实施时,必须清楚记录下交付实施的项目数、仍在实施的项目数、已经完成并返回的项目数,一、资料的接收,2023/10/26,4,每一份返回的问卷都要记录一个唯一的、有顺序的识别号码,作为原始的文件
2、在进行资料的核对、事后的编码、资料的录入时,必须按能识别的号码准确地记录是谁拿着哪些原始文件(问卷)所有参与资料整理工作的人员确保不能丢失文件,一、资料的接收,2023/10/26,5,资料的检查一般是指对回收问卷的完整性和访问质量的检查。资料检查的目的是确定哪些问卷可以接受,哪些问卷必须作废资料检查要有规则。明确问卷完整到什么程度可以接受。对于每份问卷应逐页、逐题检查其内容的完整性、填写的规范性。,二、资料的检查,2023/10/26,6,下列情况的问卷一般是不能接受的:明显不完整(如缺页)问卷回答不完全回答的模式不符合要求(如未按要求跳答)答案几乎没有变化问卷在规定的截止日期后收回问卷有不
3、符合要求的被访者回答经过检查,可以将问卷分为三类可以接受的明显作废的需要待查的,二、资料的检查,2023/10/26,7,检查不满意的答案字迹模糊的不一致的模棱两可的分叉错误的(跳答点选择错误)处理不满意的答案退回实施现场去获取较好的数据按缺失值处理(前提:有不满意答案的问卷数量很少,单份问卷中不满意答案的比例很小,不满意答案的变量不是关键变量)整个问卷作废(前提:不满意问卷比例很小,样本量很大,不满意问卷与满意问卷之间没有明显差别,不满意问卷中不满意答案的比例很大,关键变量的答案缺失),三、资料的校订,2023/10/26,8,2023/10/26,9,第三节 调查资料的编码和录入,编码的概
4、念就是将问卷信息(调查问题和答案)转化为统一设计的计算机可识别的代码,以便于对其进行数据整理与分析编码的作用减少数据录入与分析的工作量将定性数据转化为定量数据减少误差编码的基本原则准确性:设计的代码要能准确有效地替代原始信息完整性:尽量不丢失信息,减少信息浪费有效性:易于操作、节约人力、物力标准化:便于整理、比较与分析,2023/10/26,10,一、数据编码,编码表是事先编码标准化的主要工具编码表的一般格式,2023/10/26,11,1、编码表,事前编码主要针对答案类别事先知道的问题,包括结构式问卷中的封闭题和数字型开放题。此类编码与问卷设计同时进行。封闭题的编码对单选题只需规定一个变量,
5、取值为选项号Q1.请问您最近一年内买过DVD光盘吗?1.买过 2.没买过上题的定义变量为V01,数字型变量,所占字节为1,变量取值范围为1,2,9。1为买过,2为没买过,9为该题无回答。,2023/10/26,12,2、事前编码,对多选题需规定多个变量(不限选项数量)方法一:将各个可能回答的答案选项都设为一个0-1指示变量,选择了该答案,此变量的值为1,否则为0Q2:请问您观看的DVD光盘的来源是什么?1.自购 2.租借 3.向朋友/同事/亲戚借 4.别人送的 5.单位的 6.其他,2023/10/26,13,2、事前编码,对多选题需规定多个变量(限制选项数量)方法二:将变量定义为所选题号,变
6、量值为选项号,变量排列顺序即为答案选择的顺序。Q2:请问您观看的DVD光盘的来源是什么?(限选三项)1.自购 2.租借 3.向朋友/提示/亲戚借 4.别人送的 5.单位的 6.其他,2023/10/26,14,2、事前编码,排序题的编码方法一:变量个数即为选项个数,按照选项排列顺序,分别定义各变量为对应选项所排秩序号,取值为秩序号。Q3.请您根据信任程度由高到低对下列广告排序 1.电视广告 2.报纸广告 3.广播公告 4.杂志广告 5.路牌广告,2023/10/26,15,2、事前编码,方法二:变量个数即要求排序项数,按照秩序号排列顺序,分别定义各变量为各秩序号对应的选项项数,取值为选项号。Q
7、3.请您根据信任程度由高到低选出三个广告排序 1.电视广告 2.报纸广告 3.广播公告 4.杂志广告 5.路牌广告,2023/10/26,16,2、事前编码,事前编码主要针对答案类别事先无法确定的问题,包括非结构式问卷和结构式问卷中的文字型开放题。此类编码在调查完成后,根据被调查者的回答进行编码。若要对定性资料进行定量分析就需要进行编码。开放题的回答结果多种多样,一般要进行分类、定义变量,再进行编码。编码方法如同前述。,2023/10/26,17,3、事后编码,对于CATI、CAPI以及网络调查,数据的搜集与数据的录入是同时进行的,无需再进行录入。其他调查则需进行数据录入。数据的录入可采用键盘
8、、光学扫描、光标阅读器等方式。数据的录入可采用数据库形式,也可以采用其他一些专门的数据录入软件,如PE-EDIT或SPPS中的DATA ENTRY。,2023/10/26,18,二、数据录入,2023/10/26,19,第四节 调查数据的净化与预处理,数据的净化主要是尽可能地处理错误的或不合理的数据,并进行一致性检查。一致性检查的主要内容包括变量的取值是否超出合理范围、有无逻辑错误以及有无极端值。数据净化通常可采用统计软件进行,如SPSS、SAS、BMDP等软件,可以很方便地寻找超出范围、有极端值、或逻辑上不一致的数据。,2023/10/26,20,一、数据的净化,超出合理范围的变量值及极端值
9、的检查:对于非连续变量,通过编制频数分布表来检查;例如,假如收入的编码应该是从1-6,分别对应6种不同收入水平的被访者,0表示缺失数据。若频数表中的变量值列出现大于6的数据,该数据就是超出合理范围的数据。对于连续变量,通过计算均值、标准差、最大值、最小值等统计量来检查。对于超出合理范围的变量值及极端值,可以根据对于的被访者编码、变量编码、记录号码、列号码以及超出范围的异常值,就可以找到原始问卷和数据问卷,并进行必要的修改。,2023/10/26,21,一、数据的净化,逻辑上不一致的数据的检查:可以通过编制交叉表进行检查,从中很方便地可以发现逻辑上不合理的数据。例如,有一张表明“产品使用频度”与
10、“熟悉程度”之间关系的交叉表中如下:显然,1列5行的数据就存在逻辑问题,2023/10/26,22,一、数据的净化,2,2023/10/26,23,二、数据的预处理,2023/10/26,24,(一)缺失数据的处理,24,1,用一个样本统计量的值代替缺失值,如使用整个样本均值或缺失者所在的子样均值代替缺失值。,2,用统计模型估计值代替缺失值。利用回归模型或判别分析模型来估计缺失值。,将有缺失值的个案整个删除。可能导致小样本,导致严重偏差。,将有缺失值的个案保留,仅在相应的分析中作必要的排除。对不同变量采用不同样本量可能不合适,但如果样本量大、缺失值少、变量之间不是高度相关的,此法亦妥当。实际中
11、常被采用。,3,4,25,1、插补的意义,对审核过程中辨别出来的数据缺失、无效、与不一致等问题进行解决的过程。,插补,应用场合,与被调查者不能取得联系时,取得联系又由于经费、时间的限制时,客户自行处理有困难时,均可运用插补技术。,26,2、插补的方法,插补方法类别,对于特定的被调查者,可能的插补值只有一个。对同一组数据进行多次插补,每次都是相同的值。,对于特定的被调查者,可能的插补值是不确定的。对同一组数据进行多次插补,每次得出的值可能会不一样。,确定性插补,随机性插补,27,2、插补的方法,每种确定性的插补方法都对应着一种随机插补方法。插补定量数据时,用确定性方法得出一个插补值,加上从某个适
12、宜的分布或模型产出的一个残差作为最后的插补值,就成为随机插补。,28,(1)推理插补,根据逻辑推理进行插补,例1:如果一个四项数值的和为100,有两项分别为60与40,其余两项留空,则空着的两项一定为0,例2:一个被调查者列出了三个孩子的名字,但“孩子数”空着,可以推出孩子数是3,29,(2)均值插补,运用插补类的均值对缺失或不一致的值进行插补,例如,在一份住房调查的问卷中,公寓月租金的值缺失,则可利用同插补类中正确填报的租金的问卷计算其平均值,用这个平均值代替缺失值。,例子,用均值插补相当于对同一插补类中所有的被调查者使用相同的无回答权数进行调整;假定无回答是一致的,且无回答的被调查者与提供
13、回答的被调查者具有相似的特征。,假定,30,(2)均值插补,均值插补可能会得到比较好的点估计,但由于在插补类均值这一点形成一个人为的“峰值”,从而破坏了分布形态和变量之间的关系。如果用常规的抽样方差公式进行计算,就会低估最终的方差。,特点,均值插补通常在没有辅助信息可用,或只有少量记录需要作插补时才最后被采用。,应用,31,(3)回归或比率插补,含义,使用辅助信息及其他记录中的有效回答建立一个比率或回归模型,该模型表明了两个或多个变量之间的关系。,模型,插补公式,32,(3)回归或比率插补,例子,一份关于公司人员的调查问卷,问卷中有两个问题是公司职员月工资总额 和职工人数。但其中一份问卷工资总
14、额缺失,而职工人数已正确填报,同时该公司所属行业也已知。这样就可以用全部问卷中属于这一行业的其他有效问卷求得平均每个职工的工资额,再根据这个比值(平均工资总额与平均职工人数之比率R)与已知的该公司的职工人数,确定该公司的月工资总额。,33,(4)热平台插补,热平台插补是使用同一插补类中的供者记录的信息来代替一个相似的受者记录中缺失的或不一致数据。,为了找到一个与受者记录相似的供者记录,必须先确定与需要进行插补处理的变量相关的变量,建立插补类。然后,插补类中通过所有审核的记录集就是供者记录的集合,这些记录用来插补受者中缺失的数据。热平台插补可以用来插补定量数据,也可以用来插补定性数据,但通常只用
15、定性变量建立插补类。,序贯热平台插补,随机热平台插补,34,(4)热平台插补,35,(4)热平台插补,在序贯热平台插补方法中,数据在插补类中是按某种顺序排列进行处理的,插补就是用这个序列需要插补数据前面某一个有效的回答单元的数据来代替缺失的数值。如果每次都使用相同的排序及选取方法,序贯热平台法是一种确定性的插补方法。而随机热平台插补,供者是在插补类中随机选出的,因此是一种随机插补方法。,36,(5)冷平台插补,冷平台插补与热平台插补类似,不同之处在于热平台插补使用当前调查的供者,而冷平台插补则使用其它资料中的供者。冷平台插补经常使用前期的调查或普查中的历史数据。,37,(6)最近邻插补,最近邻
16、插补,就像热平台插补,也是基于匹配变量选择一个供者记录。但是,用这种方法,目的不一定是非要找出一个和受者记录在匹配变量上完全相同的供者记录,而是要在插补类中按匹配变量找到和受者记录最接近的供者记录即找到距离最近的值。“最近”是通过两个观测对象之间的距离来定义的,两个观测对象之间的距离是由辅助数据计算的。,38,(7)随机性插补,任何用于定量数据的确定性插补都能通过加上随机残差变得具有非确定性。例如,我们可以用平均值加上随机残差来进行插补:,从集合中抽取,选择,39,(二)加权处理,加权处理就是给数据库中的每一个个案或被访者以一个 权重,用于反映其相对于别的个案或被访者的重要性。,含义,使样本更
17、具有代表性;强调某些被访者群体的重要性。,目的,2023/10/26,40,(二)加权处理,2023/10/26,41,(二)加权处理,2023/10/26,42,(二)加权处理,2023/10/26,43,(二)加权处理,2023/10/26,44,(二)加权处理,2023/10/26,45,(二)加权处理,46,(二)加权处理,方法3,采用轮廓加权:多因素加权,与因子/目标加权不同(一维的),轮廓加权应用于对调查样本相互关系不明确的多个属性加权;面对多个需要赋权的属性,轮廓加权过程应该同时进行,以尽可能减少对变量产生扭曲。,性别,性别,年龄,年龄,%,18-24,25-34,35以上,18
18、-24,25-34,35以上,%,26,32,42,21,34,45,男,女,男,女,9.5,16.5,9.5,24,24,16.5,33,19,50,50,48,47,(二)加权处理,设计权数,设计权数:每个样本单位所代表的被调查总体的单位数。设计权数由抽样设计决定,用Wd表示:设计权数Wd=1/入样概率=N/n,修正设计权数,调查中若遇到无回答情况,只能得到回答者的数据,若不对原有权数进行调整,则总体的规模就会被低估,从而导致对总体总值进行估计时出现严重偏差。修正后的设计权数为:,48,(二)加权处理,加权案例,为得到某小公司职员吸烟习惯的信息,进行了一项调查。从N=78个人的目录中抽出了
19、一个n=25人的简单随机样本。在调查的设计阶段,并没有可用于分层的辅助信息。在收集关于吸烟习惯的信息的同时,还收集了每个回答者的年龄和性别情况。总共有nr=15个人作出了回答。,49,(二)加权处理,权数修正,加权,50,(二)加权处理,事后分层加权,事后分层修正权数:当我们认为一个人是否吸烟与他的性别之间可能存在相关性,就可以使用事后分层加权提高估计的精度。(设获知辅助信息:男42名,女36名),51,(三)变量转换,根据数据分析的需要,在分析之前可能要对现有的变量进行一定的修改或产生新的变量,这就是所谓的变量转换。,定义,主要方式,重新定义变量,转换变量,定类变量转换为0-1变量,重新组合
20、新变量,52,(三)变量转换,重新定义变量,某些分析方法可能对变量的数学特性有一定要求,因此可能要改变数据的测量水平,将定距、定比变量转为定序、定类变量。例如,进行交叉列联分析时,必须先将某变量(如收入)划分为高、中、低三组;又如,将过细的年龄分组合并为青少年组、中年组和老年组。,转换变量,进行聚类分析、因子分析时,必须消除量纲的影响,要在分析前先把变量标准化;在回归分析时,为了改进模型的拟合程度,要对变量进行对数变换、平方根变换。,53,(三)变量转换,定类变量转换,为便于分析,有时要把定类变量转换为0-1变量。例如,被调查者的居住地包括北京、上海、广州、武汉四地。可以将其转换为X1、X2、
21、X3这三个0-1变量。,重新组合变量,为了某些特定的统计分析(如拟合模型),需要把几个变量重新组合成一个新变量,重新进行定义。例如,根据被调查者在对耐用消费品若干方面的评价,把各方面的评价值加权平均,就可以得到一个新变量“综合评价得分”。,1、数据的整理主要包括哪些内容?资料的接收包括哪 些工作?2、资料的检查注意什么?资料的校订是什么意思?3、事前编码和事后编码有什么区别?事后编码容易出 现什么问题?应如何避免?4、如何保证数据录入的准确度?5、数据净化意味要做着哪些工作?6、为什么要对数据作统计预处理?缺失数据有哪些主 要的处理方法?,2023/10/26,54,思考与作业题,7、试举出一个例子来说明加权处理的方法及其作用。8、试将附寻二问卷中C4重新分类,变成有意义的含3个 类别的新变量;并将H3改为用若干个哑变量来表示。9、为什么要制定数据统计任务书?一般都包括哪些主要 内容?10、选择统计分析法时主要应考虑哪些方面?11、常用的统计分析法有哪些?都分别适用于什么场合?,2023/10/26,55,