第9章数据分析一课件.ppt

上传人:牧羊曲112 文档编号:1489053 上传时间:2022-12-01 格式:PPT 页数:125 大小:914KB
返回 下载 相关 举报
第9章数据分析一课件.ppt_第1页
第1页 / 共125页
第9章数据分析一课件.ppt_第2页
第2页 / 共125页
第9章数据分析一课件.ppt_第3页
第3页 / 共125页
第9章数据分析一课件.ppt_第4页
第4页 / 共125页
第9章数据分析一课件.ppt_第5页
第5页 / 共125页
点击查看更多>>
资源描述

《第9章数据分析一课件.ppt》由会员分享,可在线阅读,更多相关《第9章数据分析一课件.ppt(125页珍藏版)》请在三一办公上搜索。

1、1,第九讲 数据分析(一),余可发 博士江西财经大学工商管理学院,2,一、数据处理与分析过程,1、编辑2、编码3、数据输入4、数据分析(描述性分析、单变量分析、双变量分析、多变量分析)5、解释,3,二、编辑,编辑就是检查和调整数据遗漏、易读性和一致性的过程。编辑人员的任务就是要检查调查问卷或者其他数据收集形式中出现的错误和遗漏。当发现问题时,编辑要及时调整数据让他们变得更加完整、一致、可读。,4,编辑技巧:1、退回重新填写2、按缺失数据处理3、丢弃(1)不符合要求的问卷和少。(2)样本单位数很大。(3)不符合要求的问卷与符合要求的问卷之间在调查对象上的特征上没有明显的不同。(4)不符合要求的回

2、答在该问卷中占很大的比例。(5)对关键变量的回答是缺失的。,5,编辑的类型:现场编辑后期编辑,6,编辑的任务:1、确定是否需要补充调查2、编辑的一致性3、编辑的完整性,7,三、编码,编码就是将数字标度或其他符号分配给不同答案的过程。相关概念:域:一种类型的数据。记录:相关域的集合。文件:相关记录的集合。,8,9,编码工作一般包括以下几个方面:(1)确定变量(2)确定变量值(3)无结构问题的编码(4)编码说明书及数据输出格式说明书。,10,问题025:您认为打工的外地人对北京市的社会秩序是否有影响?(单选)1有很大影响 2有较大影响 3没有影响 4不好说,4,编码,答案,11,2)制作编码表,1

3、2,变量名: 一个数据文件中,一个变量只能有一个唯一名称。,码位:某一变量在数据文件中占据的栏位,码数:某一变量由几位数组成。,该变量是数值型(Numeric)如定距、定比,还是字串型(String),如定类、定序。前者在统计中可以做高级运算,后者则不可以。,不适于被访人回答的问题的编码。一般采用7,97,997等。,被访人回答不知道时的编码。一般采用8,98,998等。,被访人拒绝回答某变量时的编码。一般采用9,99,999等。,问卷中出现漏答时的处理编码。一般采用9,99,999等。,13,四、数据录入,采用DOS、WPS、CCED等软件,按ASCII码方式录入成文本文件(*.dat;*.

4、txt)。这种录入方式的特点是,数据之间没有间隔,录完一个数码后自动后移,录入速度较快。缺点是容易错位。,采用SPSS数据编辑器(SPSS Data Editor)录入。其优点是不容易错位,缺点是不能自动后移,录入速度慢,数据错误不容易修改。,14,五、数据分析,描述分析法假设检验法方差分析法聚类分析法判别分析法回归分析法,15,1、描述性统计分析,频数、频率分析数据集中趋势分析 算术平均数 中位数 众数数据分散趋势分析 全距(极差) 四分位差 标准差数据总体形态分布 偏度(Skewness) 峰度(Kurtosis),16,频数、频率分析(1),例1:假设有样本数据,17,18,19,算术平

5、均数,未分组数据的平均数计算分组数据的平均数计算上例的计算结果,20,中位数的计算(1),未分组数据的中位数计算 对所有数据进行排序,当数据量为奇数时,取中间数为中位数,当数据量为偶数时,取最中间两位数的平均数为中位数。上例中数据量为100,是偶数,所以应取排序后第50位数和第51位数的平均值作为中位数。第50位数是3,第51位数也是3,所以中位数为3。,21,中位数的计算(2),分组数据的中位数计算 下式中L为中位数所在组的下限值,fm为中位数所在组的组频数, Sm-1为至中位数组时累计总频数,h为组距。,22,中位数的计算(3),例2:假设有分组数据如下(销售额单位为万元),23,中位数的

6、计算(4),依据公式例2的中位数为,24,众数的计算,未分组数据的众数为出现次数最多的数。分组数据的众数依据下式计算获得。 表达式中1表示众数所在组与前一组的频数差,2表示众数所在组与后一组的频数差。依据公式,例2分组数据的众数为104.29万元。,25,全距(极差)的计算,全距指的是样本数据中最大值与最小值之间的距离,因而也叫极差。例1中最小值为1,最大值为6,因而全距为6-1=5。,26,四分位差的计算,四分位差是一种按照位置来测定数据离散趋势的计量方法,它只取决于位于样本排序后中间50%位置内数据的差异程度。即第一个四分位与第三个四分位数据之间的差异。例2的四分位差计算过程如下,27,标

7、准差的计算(1),未分组数据的标准差计算,28,标准差的计算(2),分组数据的标准差的计算,29,常用图形柱形图,30,直方图,德国英国法国意大利西班牙荷兰瑞典瑞士比利时奥地利土耳其挪威丹麦中国芬兰葡萄牙希腊俄罗斯 200 400 600 800 1000 1200 1400 xxx年中国内地与欧洲各国市场调查业 的市场规模比较(年营业额:百万美元),31,饼形图,32,趋势图,32.5 2 15元 14元 13元 12元 11元 10元 9元 8元以下,33,散点图,森氏满 10.5%意 4度 沃力 中美 3 14.4% 38.5% 2 1 20% 40% 首都知名度 郑州市主要纯水品牌的知

8、名度、美誉度和市场占有率,34,态度对比图,35,轮廓形象图,36,雷达图,37,数据分布形态图,38,SPSS的描述性分析,Frequencies:频数分布表Descriptives:一般性描述Explore:探索性分析Crosstabs:交叉列表,39,描述性分析,频数分布表,一般性描述,探索性分析,交叉列表,计算连续变量的相对比,40,频数分布表(Frequencies),调用此过程可进行频数分布表的分析.频数分布表是描述性统计中最常用的方法之一,此外还可对数据的分布趋势进行初步分析。,41,待分析变量的列表,是否显示频数表,定义需要计算的统计量,定义需要绘制的统计图,定义表格,42,百

9、分位数,分布特征描述,离散趋势,集中趋势,Frequencies:定义统计量,43,统计图类型,直方图加上正态曲线,以频数绘制条图或饼图,Frequencies:定义统计图,无图形,条图,饼图,直方图,以构成比绘制条图或饼图,44,Frequencies:定义表格,45,Frequencies:结果解释,46,Frequencies:结果解释,47,Frequencies:结果解释,48,一般性描述(Descriptives),描述性分析,调用此过程可对变量进行描述性统计分析,计算并列出一系列相应的统计指标,且可将原始数据转换成标准Z分值并存入数据库,所谓Z分值是指某原始数值比其均值高或低多少

10、个标准差单位,高的为正值,低的为负值,相等的为零。,49,是否保存标准变换后的数据,50,Descriptives:定义统计量,51,Descriptives:结果解释,52,Descriptives:结果解释,此外,系统以zheight和zweight为变量名将原始数据转换成标准z分值,存放在原数据库中。新变量具有均值为0、标准差为1的特征,亦即变量的标准化过程。,53,探索性分析(Explore),描述性分析,调用此过程可对变量进行更为深入详尽的描述性统计分析,故称之为探索性统计。它在一般描述性统计指标的基础上,增加有关数据其它特征的文字与图形描述,显得更加细致与全面,有助于用户思考对数据

11、进行进一步分析的方案。,54,两者均有,统计量,图,分组变量列表,待分析变量列表,55,Explore:定义统计量,Descriptives:输出均数、均数的95%可信区间、去掉5%极端值的均数、中位数、方差、标准差、最小值、最大值、全距、四分位数间距、偏度系数、峰度系数。,M-estimators:输出集中趋势的最大似然比的稳健估计。Outliers:输出五个最大值与五个最小值。Percentiles:输出第5%、10%、25%、50%、75%、90%、95%位数。,56,箱图绘制方式,茎叶图,正态性检验/正态分布图,Explore:定义统计图,直方图,57,Exclude case lis

12、twise:不分析有任一缺失值的记录Exclude case pairwise:不分析计算某统计量时有缺失值的记录Report values:报告缺失值,缺失值的处理方式,Explore:缺失值的处理,58,Explore:结果解释,原始数据的基本情况:男性有效数据459,缺失1,合计460;女性有效数据538,缺失2,合计540。,59,Explore:结果解释,60,Explore:结果解释,描述性分析,左面为箱图,图中方箱为四分位数,中心粗线为中位数,两端线为最大值与最小值,之外的圆圈代表可疑的离群值。,61,2、假设检验,假设检验又叫显著性检验 (test of significanc

13、e)。显著性检验的方法很多 ,常用的有u检验、t检验、F检验和2检验等。尽管这些检验方法的用途及使用条件不同,但其检验的基本原理是相同的。,62,假设检验的步骤,建立假设。对样本所属总体提出假设,包括无效假设H0和备择假设HA;确定显著水平。常用的显著水平0.05和0.01;从无效假设H0出发,根据样本提供信息构造适宜统计量,并计算统计量值或概率;由附表查出相应的统计量临界值,比较样本统计量值与临界值大小,根据小概率原理做出统计推断(或由概率大小做出判断)。,63,统计假设检验的几何意义,统计假设检验从本质上来说,就是根据显著水平将统计量(数)的分布划分为接受区和否定区两部分。前者为接受原假设

14、H0的区间,后者为否定H0 ,而接受HA的区间。当试验结果落入接受区,就接受H0 ;反之,否定H0 ,而接受HA 。否定区的概率为,接受区的概率为1- 。,64,是否否定无效假设 或 ,用实际计算出的统计量u或t的绝对值与显著水平对应的临界值ua 或ta比较。若|u|ua 或|t|ta,则在水平上否定 ;若|u| ua或 |t| ta,则不能在水平上否定 。 区间 和 或称为水平上的否定域,而区间( )则称为水平上的接受域。,65,图1 双侧检验时H0的接受域和否定域,66,统计假设检验的两类错误,统计假设检验的是根据 “小概率事件实际不可能性原理”来否定或接受无效假设的, 所以不论是接受还是

15、否定无效假设,都没有100%的把握。也就是说,在检验无效假设时可能犯两类错误。 第一类错误:H0本身是成立,但通过检验却否定了它,犯了“弃真”错误,也叫型错误(type error)、错误。型错误,就是把非真实差异错判为真实差异,即 为真,却接 受了 。,67,第二类错误:H0本身不成立,但通过检验却接受了它,犯了“纳伪”错误,也叫型错误(type error)、错误。型错误,就是把真实差异错判为非真实差异,即 为真,却未能否定 。 统计检验是基于 “小概率事件实际不可能性原理”来否定H0, 但在一次试验中小概率事件并不是绝对不会发生的。如果我们抽得一个样本,它虽然来自与H0 对应的抽样总体,

16、但计算所得的统计量却落入了否定域中,因而否定了H0,于是犯了型错误。犯这类错误的概率不会超过a。,68,图2 两类错误示意图,69,假设检验的类型,参数假设检验 U检验 t检验非参数检验,70,参数统计(parametric statistics): t、Z、和F检验均属参数检验。其共同特点是,假定随机样本来自某种已知分布(如正态分布)的总体,并对总体分布的参数(如总体均数)进行估计或检验。非参数统计(nonparametric statistics):对总体分布不作严格规定,不依赖于总体分布类型,也不对总体参数进行统计推断。,71,参数检验U检验,当样本容量大于30时,可以采用U检验。 均值

17、检验 百分比检验 双样本平均数差异的检验 双样本百分比差异的检验,72,均 值 检 验(U),假设有选取统计量设定显著性水平 查表得到根据U的计算结果,比较U的绝对值与 的大小。若有 则接受H0,否则拒绝H0 。,73,百 分 比 检 验(U),假设有选取统计量设定显著性水平 查表得到根据U的计算结果,比较U的绝对值与 的大小。若有 则接受H0,否则拒绝H0 。,74,双样本平均数差异的检验(U),假设有选取统计量设定显著性水平 查表得到根据U的计算结果,比较U的绝对值与 的大小。若有 则接受H0,否则拒绝H0 。,75,双样本百分比差异的检验(U),假设有选取统计量设定显著性水平 查表得到根

18、据U的计算结果,比较U的绝对值与 的大小。若有 则接受H0,否则拒绝H0 。,76,练习,例1:某一酿造厂新引进一种酿醋曲种,以原曲种为对照进行试验。已知原曲种酿出的食醋醋酸含量平均为09.75,其标准差为5.30。现采用新曲种酿醋,得到30个醋样,测得其醋酸含量平均为 11.99。试问,能否由这30个醋样的平均数 判断新曲种好于原曲种?,77,对前例分析:,所以在a0.05水平上的接受域为,(0.0785 0.1165),否定域为 0.0785, 0.1165,试验结果 0.1199,落入否定区间,所以否定 ,接受,结论:采用新曲种酿造食醋,其醋酸含量有显著改变。,78,例题:在食品厂的甲乙

19、两条生产线上各测定了30个日产量如表所示,试检验两条生产线的平均日产量有无显著差异。,表1 甲乙两条生产线日产量记录,79,(1)建立假设。 即两条生产线的平均日产量无差异。,(2) 确定显著水平0.01,(3) 计算,故:,80,(4)统计推断。 由0.01查附表2,得u0.012.58 实际|u|3.28u0.012.58,故P0.01,应否定H0,接受HA。说明两个生产线的日平均 产量有极显著差异,甲生产线日平均产量高于乙生产线日平均产量。,81,参数检验t检验,当样本容量小于30时,不可以使用U检验,而需要使用t检验。均值检验均值差异的检验百分比差异的检验,82,均 值 检 验(t),

20、假设有选取统计量设定显著性水平 查表得到根据t的计算结果,比较t的绝对值与 的大小。若有 则接受H0,否则拒绝H0 。,83,均值差异的检验(t),假设有选取统计量设定显著性水平 查表得到根据t的计算结果,比较t的绝对值与 的大小。若有 则接受H0,否则拒绝H0 。,84,百分比差异的检验(t),假设有选取统计量设定显著性水平 查表得到根据t的计算结果,比较t的绝对值与 的大小。若有 则接受H0,否则拒绝H0 。,85,例1 用山楂加工果冻,传统工艺平均每100 g加工500g果冻,采用新工艺后,测定了16次,得知每100g山楂可出果冻平均为 520g,标准差S12g。问新工艺与老工艺在每10

21、0g加工果冻的量上有无显著差异?,86,本例总体方差未知,又是小样本,采用双侧t检验。(1)提出无效假设与备择假设 ,即新老工艺没有差异。 ,即新老工艺有差异。(2)确定显著水平0.01(3)计算t值,87,(4)查临界t值,作出统计推断 由 =15,查t值,得t0.01(15)=2.947,因为|t|t0.01, P0.01, 故应否定H0,接受HA, 表明新老工艺的每100g加工出的果冻量差异极显著。(在统计量t上标记*),88,例题2:海关抽检出口罐头质量,发现有胀听现象,随机抽取了6个样品,同时随机抽取6个正常罐头样品测定其SO2含量,测定结果见表4-3。试分析两种罐头的SO2含量有无

22、差异。,表2 正常罐头与异常罐头SO2含量测定结果,89,(1)提出无效假设与备择假设,两种罐头SO2含量没有差异;,(2)确定显著水平0.01(两尾概率),(3)计算,90,(4)统计推断 由df10,0.01查附表3得t0.01(10)3.169。实得 |t| 22.735t0.01(10)3.169,P 0.01,故应否定无效假设H0,即两种罐头的SO2含量有高度显著差异,该批罐头质量不合格。,91,例题3:现有两种茶多糖提取工艺,分别从两种工艺中各取1个随机样本来测定其粗提物中的茶多糖含量,结果见表4-4。问两种工艺的粗提物中茶多糖含量有无差异?,表4-4 两种工艺粗提物中茶多糖含量测

23、定结果,92,(1)建立假设,提出无效假设与备择假设,,两种工艺的粗提物中茶多糖含量无差异;,(2)确定显著水平0.05(两尾概率),(3)计算,93,因两个样本的容量不等,所以,94,(4)查临界t值,作出统计推断 当df=9时,查临界值得:t 0.05(9)=2.262,|t|1.381 0.05,接受 ,表明两种工艺的粗提物中茶多糖含量无显著差异。,95,非参数检验(X2),在市场调查中常获得一些量表数据,对量表数据求取平均数与方差都是毫无意义的。对量表数据的处理更适宜于采用非参数检验方法。非参数检验中常用的方法是X2检验。 X2检验的统计量是 上述统计量中, 表示第 类别在样本中实际出

24、现的次数, 表示期望出现的次数, 为类别数。,96,一般选用非参数统计方法的资料:总体分布不易确定;分布呈非正态而又无适当的数据转换方法;等级资料;一端或两端无确定数值等。因此,非参数检验又称任意分布检验(distribution-free test)。在实际应用中,对符合参数检验的资料,或经变量变换后符合参数检验的资料应首选参数检验;对不能满足参数检验条件的资料,应选用非参数检验。,97,两个配对样本的非参数检验 两个独立样本的非参数检验 多个独立样本的非参数检验 多个相关样本的非参数检验,98,例1 以下为治疗前后,病人某项指标的测量值,数据见npa.sav,配对样本的非参数检验,治疗前(

25、x):24.00 16.70 21.60 23.70 37.50 31.40 14.90 37.30 17.90 15.50 29.00 19.90,治疗后(Y):23.10 20.40 17.70 20.70 42.1 36.10 21.80 40.30 26.00 15.50 35.40 25.50,99,100,101,Wilcoxon符号检验 适用于连续变量 sign符号检验 适用于对无法用数字计量的情况进行比较,如两分类,对于 连续资料最好不要使用 McNemar 实际上就是常用的配对2检验,只适用于二分类资料 Marginal Homogeneity 是McNemar法向多分类情形

26、下的扩展,适用于资料为有序 分类情况,配对样本的非参数检验,102,Exact:用于计算确切概率,只给出近似概率,蒙特卡罗方法,给出精确概率值,并可设定耗时限制,103,共12对指标,指标值治疗后小于治疗前的有3对,其平均秩次为2.83,总秩和为8.50;治疗后大于治疗前的有8对,其平均秩次为7.19,总秩和为57.50;治疗后等于治疗前的有1对。,(1) 秩次表,104,Wilcoxon符号秩检验的统计量Z值-2.179,近似概率(Asymp.sig.)P0.029,按0.05的水准可以认为治疗前后该指标值的差别具有统计学意义。,(2) 检验统计量,105,例2 在缺氧条件下,观察4只猫与1

27、2只兔的生存时间(分钟),结果如下。试判断猫、兔在缺氧条件下生存时间的差异是否具有统计学意义。数据见npb.sav:,生存时间(猫):25 34 44 46 46,生存时间(兔):15 15 16 17 19 21 21 23 25 27 28 28 30 35,两独立样本的非参数检验,106,107,108,109,默认的Mann-Whitney U检验最常用,110,生存时间样本共19例,其中猫的生存时间5例,其平均秩次为15.70,总秩和为78.50;兔的生存时间14例,其平均秩次为7.96,总秩和为111.50。,(1) 秩次表,111,给出Mann-Whitney U 、Wilcox

28、on W 统计量和Z值,近似值概率(Asymp.Sig)和精确概率值(Exact.sig)均小于0.05,结论一致,表明猫、兔在缺氧条件下的生存时间的差异具有统计学意义,由平均秩次猫(15.7)、兔(7.96)来看,可以认为缺氧条件下猫的生存时间长于兔。,(2) 检验统计量,112,例3 14名新生儿出生体重按其母亲的吸烟习惯分组(A组:每日吸烟多于20支;B组:每日吸烟少于20支;C组:过去吸烟而现已戒烟;D组:从不吸烟),具体如下。试问四个吸烟组出生体重分布是否相同?数据见npc.sav:,A组: 2.7 2.4 2.2 3.4,B组: 2.9 3.2 3.2,C组: 3.3 3.6 3.

29、4 3.4,多个独立样本的非参数检验,D组: 3.5 3.6 3.7,113,114,115,设置组别变量的最小值1、最大值4,116,117,Kruskal-Wallis H检验:k=3个独立随机连续分布样本的比较,而正态性假设及等方差假设存在问题时,它可以进行总体是否相同的检验。,Median:中位数检验,三种方法中检验效能最低,但对于拖长尾的对称分布很有效,Jonckheere-Terpstra:对连续性资料或有序分类资料都适用,并当分组变量为有序分类资料时,此法的检验效能要高于Kruskal-Wallis法。,118,母亲每日吸烟多于20支组共4名新生儿,体重平均秩次3.75;每日吸烟

30、少于20支组共3名新生儿,体重平均秩次5.00;过去吸烟现已戒烟组共4名新生儿,体重平均秩次9.38;从不吸烟组共3名新生儿,平均秩次12.50。,(1) 秩次表,119,Kruskal-Wallis H统计量的近似显著概率为0.023,按0.05的水准拒绝原假设,可认为四个组中至少有两组出生体重的总体分布不同。,(2) 检验统计量,120,例4 三批甘蓝叶样本分别在甲、乙、丙、丁四种条件下测量核黄素浓度,试验结果如下。问四种条件下的测量结果的差异是否具有统计学意义?数据见npd.sav:,多个相关样本的非参数检验,121,122,Friedman:常用的多个配伍样本的非参数检验,Kendalls W:可进一步给出一致性程度,Cochrans Q:是两配对样本McNemar方法的推广, 只适合二分类变量,123,(1) 秩次表,经Friedman Test,近似概率(Asymp.sig.)P0.042,小于0.05,故拒绝原假设,认为四种条件下测量结果的差别具有统计学意义的。,(2) 检验统计量,124,谢谢!,125,谢谢!,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号