《第四讲数据处理与核查课件.ppt》由会员分享,可在线阅读,更多相关《第四讲数据处理与核查课件.ppt(22页珍藏版)》请在三一办公上搜索。
1、学情检测,变量与数据测量的尺度测量误差系统误差与随机误差,第四讲 数据处理与核查,表1 考试数据实例,原始数据经过整理、编码、输入及适当的转换之后,才能作为统计分析的数据。这些包括数据收集的标准化、编码系统的建立、数据的编码与键入、数据检验与转换等步骤的严谨程度,是决定数据分析成败的关键因素。,一、数据库的建立,变量命名选择变量类型输入注解输入数值注解设定遗漏值选定格式设定测量尺度,一、数据库的建立,虚拟变量所谓虚拟是指在数据收集完成之后,再以人为的方式,将数据加以处理,赋予特定计量符号的过程。此一事后人为变量化的过程所产生的新变量,称为虚拟变量。,一、数据库的建立,虚拟变量例如,变量:宗教信
2、仰1=天主教;2=基督教;3=道教或者,将每一种宗教分别视为一个独立的二分变量,0=否,1=是,一、数据库的建立,多选题的处理例:在兄弟姐妹、同性或异性同学朋友、老师与父母等各种角色之中:(可多选)1.长期以来对你影响最深的是:A.同性同学,B.异性同学,C.兄弟姐妹,D.父母,E.老师,一、数据库的建立,多选题的处理每一个选项都是一个二分变量(有无回答);一个有K个选项的多选题,必须被视为K各变量。,一、数据库的建立,排序题处理请在下列各种网络工具选项中,指出三种你最常用来和朋友沟通的工具,并依程度标出1、2、3的次序(1为最常使用者)1.ICQ 2.CICQ 3.E-MAIL 4.MSN5
3、.BBS 6.聊天室 7.WWW 8.Netmeeting,一、数据库的建立,排序题处理:处理方式类似于多选题,不同之处在于要进行多次多选题集的定义程序。,一、数据库的建立,废卷处理填答遗漏情况恶意作答情况在学术报告中,必须清楚地指明废卷处理的方式,提出修正的结果与淘汰比例的信息,以利审查人员或读者判断。,二、数据检核,(一)数据查核目的:确保数据的正确无误过程查核(定点、定时、专人)终点查核(可能性检查、逻辑性检查)技术:次数分布、统计图表,二、数据检核,(二)遗漏值处理遗漏值最大的影响是造成样本的流失遗漏的形态(系统性遗漏、随机性遗漏)遗漏的量5%,二、数据检核,(二)遗漏值处理事前预防删
4、除:“完全删除、配对删除”取代:“转换置换遗漏值”虚拟变量(针对系统遗漏),二、数据检核,(三)偏离值的侦测与处置判断标准:三个标准差之外侦测技术:次数分布、直方图、箱须图偏离值处理:输入有误、胡乱作答(转换为遗漏值处理)、真实作答(大样本删除、小样本合并或转换),二、数据检核,(四)反应心向受试者具有的一种比较固定的作答倾向。表现:伪善、伪恶、中庸、攻击、偏爱解释:系统性偏误、反应风格处理:废卷、事前(后)估计、使用其他测验形式,三、数据与文档管理,(1)数据查询 编辑查找(2)数据排序 数据观察值排序(sort cases)(3)观察值加权(Weight cases),下表:一个市场调查,研究人员搜集了83位光顾某大卖场的顾客的基本数据与付费方式。,三、数据与文档管理,(4)分割文档 两种分割模式:比较组别;依组别组织输出(5)选择观察值 多种方式;过滤与删除(6)数据合并 新增观察值;新增变量,三、数据与文档管理,(7)计算(Compute)(8)重新编码(recode) 反向题;类别变量;连续变量(9)计数(count),