第十四章统计分析方案课件.ppt

资源描述

《第十四章统计分析方案课件.ppt》由会员分享，可在线阅读，更多相关《第十四章统计分析方案课件.ppt（71页珍藏版）》请在三一办公上搜索。

1、第十四章统计分析,目录,第一节统计分析概述第二节描述统计与推断统计第三节单变量统计分析第四节双变量统计分析第五节多变量统计分析简介,重点问题,统计分析概述描述统计和推断统计单变量统计分析双变量统计分析多变量统计分析,第一节统计分析概述,统计分析就是运用统计学原理和方法处理调查所获得的数据资料，简化和描述数据资料、揭示变量之间的统计关系，并进而推断总体的一整套程序和方法。,一、统计分析的目的,简化和描述数据用样本推断总体，如平均数、百分比等发现变量之间的统计关系,二、统计分析的过程,数据预处理就是在统计分析之前对清理后的数据做预备性处理。数据统计分析就是调用统计软件中的各种统计程序对数据进行分

2、析，包括单变量、双变量、多变量统计分析，以及制作统计图、统计表等一系列工作。,三、统计分析的层次,描述统计和推断统计(按照统计分析性质)描述统计是运用样本统计量描述样本统计特征的统计分析方法。描述统计是相对于推断统计而言的，即凡是只涉及样本而不涉及总体特征的统计分析方法都属于描述统计的范畴。推断统计则是以概率理论为基础，运用样本统计量推断总体的统计分析方法。两者密不可分,单变量、双变量、多变量统计分析（按统计分析涉及变量多少）,1、单变量统计分析，只能进行描述性研究。只涉及一个变量，如平均数、百分比、标准差等。2、只有双变量统计分析、特别是多变量统计分析，才能进行解释性研究。只有涉及两个或两个

3、以上变量，才有可能分析它们之间的关系（包括相关关系和因果关系）。3、常用的双变量统计分析方法，包括列联表分析与X2检验、各种双变量相关分析、二元回归分析等等。当一项统计分析涉及三个或三个以上变量（其中至少有一个因变量）时，则称为多变量或多元统计分析。,第二节描述统计与推断统计,一、描述统计及其内容描述统计是相对推断统计而言的，就是关于样本的统计分析方法，它的分析结果是样本统计量。描述统计的内容，包括单变量、双变量和多变量等几种层次的统计分析。,二、推断统计与抽样分布,推断统计是运用样本统计量对总体进行推断的一种统计分析方法。由于社会调查的最终目的是研究调查对象的总体，因此，它是社会调查中经常使

4、用的统计方法。推断统计的必备前提是，样本数据必须来自随机抽样调查。,所谓抽样分布，是指在一个总体中重复抽取许多大小一样的样本的统计量（如平均数、方差、标准差）而形成的分布。需要指出的是，样本的抽样分布只是一种理论分布，而不是一种实际的分布。从理论上建立这样一种分布，目的就是运用它来由样本统计量推断总体。,三个重要分布,为了讨论正态总体下的抽样分布，先引入由正态分布导出的统计中的三个重要分布，即分布，分布，分布。1、分布设是来自总体的样本，则称统计量（1）服从自由度为的分布，记为,此处，自由度是指（1）式右端包含独立变量个数,分布的概率密度为,的图形如图63所示。,（2）,图63,2、

5、分布,设，且独立,服从自由度为的分布,记为,分布又称为学生氏（student）分布,分布的概率密度函数为,(11),图65,3.分布,记为,（16）,的概率密度为,（17）,容易证明等式：,（20）,利用这个等式，查附录表，可以计算当,时的的值,例如,F分布的上分位点有表格可查（见附表 5）,（一）参数估计人们通常把样本计算出来的统计值成为样本统计量，简称统计量，而把总体统计值成为参数。所谓参数估计，就是运用统计量对总体参数进行推断或估计的统计过程与统计方法。参数估计包括：（1）点值估计（2）区间估计,三、推断统计的两种基本形式,三、推断统计的两种基本形式,1、点值估计，就是选择一个

6、最适当的样本统计量来直接代表总体的参数值。如果一个统计量在参数的点值估计中符合无偏性、一致性、有效性、充分性，则可保证其点值估计的相对误差较小。点值估计的最大缺陷是不知道估计的误差到底有多大。所以，常用的是区间估计。,2、区间估计区间估计是用一个数值区间表示未知总体参数落入该区间的概率或可能性有多大的一种统计方法，是从点估计值和抽样标准误差出发，按给定的概率值建立包含待估计参数的区间。（）置信区间与置信水平置信区间是指进行区间估计时，在某一概率水平下总体参数所处的数值区间。区间的上、下限（端点）称为临界值，所确定的概率水平称为置信水平或置信度，以概率表示，称为显著性水平，表示该区间估计的不可靠

7、性程度，即估计参数位于该区间时可能犯错误的概率。,（）区间估计的原理,区间估计的理论基础是抽样分布。区间估计的核心问题是把样本统计量与总体参数之间的关系转换成抽样分布来处理。由于抽样分布一定条件下趋近正态分布，借助抽样分布的平均数、标准差及其正态分布的统计特性可以对样本统计量与总体参数之间的关系作出概率意义上的估计与推断。在95%的置信水平条件下，总体平均数的置信区间在99%的置信水平条件下，总体平均数的置信区间,假设检验,假设检验：是以抽样分布原理为基础，检验调查样本中的统计特性是否在总体中同样存在的一种统计方法，它是推断统计中最重要也是最常用的方法。首先是事先对总体的参数或分布形式作出一个

8、假设。然后利用样本信息判断关于总体性质假设是否合理。即判断总体的真实情况与假设是否存在显着的系统性差异。假设检验亦称显著性检验。,事实上，许多研究报告或论文就只有统计描述而没有假设检验，但是，必须明确，有无假设检验的研究结论，其解释或使用的范围是不同的。不经过假设检验的研究结论，只能适用于已调查的对象或样本（在普遍调查中不存在假设检验问题，因为样本等于总体），而不能推断总体；只有在样本统计量基础上经过假设检验后，才能说样本中发现的现象或规律有多大把握在总体中存在或不存在。需要明确，并不是所有调查数据多能进行假设检验，只有通过随机抽样调查得来的数据才有资格进行假设检验。,假设检验,假设检验的过

9、程,提出假设：使用证伪的原理建立对立假设。虚无假设（H0）：是假设在样本中观察到的事实或变量之间的关系在总体中并不存在，即关于“不存在”假设备择假设：它与虚无假设针锋相对的假设，即存在。构造适当的统计量，并根据样本统计量的具体数值规定显著水平，建立检验规则做出判断.假设检验的本质就是要判断虚无假设是否正确若拒绝虚无假设，则意味着接受备择假设,虚无假设与备择假设,.备择假设（H1）：如果虚无假设错误则是必然正确的陈述，即与虚无假设相互排斥的假设。表述：逻辑上与虚无假设相反或对立，不能同时成立。表示：参数或或某个值。,一、集中量数分析所谓集中量数分析，是指用一个具体的统计量反映一组数据向该统

10、计量集中趋势的统计方法，它所表示的是一组数据集中的程度或水平。集中量数有平均数、中位数、众数、四分位数、百分位数以及倒数平均数、几何平均数等。其中，常用的集中量数是平均数、中位数和众数。,第三节单变量统计分析,数据分布的集中性,大学生毕业生的平均初始收入是多少？某地区的居民平均年收入是多少？集中性测量：一种将群体描述为一个整体的有用方法是找到一个单独的数字，能够平均地或者典型的代表一个数据集。代表值常常位于数据分布的中部包括众数、中位数、均值,集中性的描述指标,1.平均值（均值）1）定义：称算数平均数，是把一个变量的所有观测值相加之和再除以观测值数目得到的数值。2）计算：X bar 或者 X

11、一杠；西格玛，累加符号 3）特点：大体位于观察值中部，用于度量重心的平衡点对变量的每一个观察值都加以利用的优点有计算麻烦，对个别极端值敏感的缺点,例题,1.某次考试中，5位同学的得分分别为85分、74分、90分、65分、78分，则这5位同学的平均分数为：,=（85+74+90+65+78）/5=78.4分,例题,如果从调查中获得的是如下5个分组的资料：,=（65*2+74*4+78*2+85*3+90*3）/14=79.07分,例题,如果从调查中获得的是如下5个分组的资料：,=(（1/2(65+74)*4+1/2(75+84)*4+1/2(85+100)*2/10)=78.1分,集中性的描述指

12、标,2.中位数 1）定义：又称中数、中点数，指位于按顺序排列的一组数据中央位置的数值。是一个变量分布的中间点，就是一半观测值比它小，一半观测值比它大的那个数值。2）方法：把所有观测值排顺序，由小到大。若观测值个数n为奇数，中位数M就是排序后观测值最中间的一个，即数到(n+1)/2个位置。若观察值个数n为偶数，中位数就是排序后最中间的两个观察值的平均。,集中性的描述指标,五孩子家庭：17岁、14岁、12岁、9岁、5岁六孩子家庭：17岁、14岁、12岁、9岁、5岁、5岁 3）特点：优点：中位数很好的代表了一组观察值的中点只需很少量的计缺点：除了中间值，中位数并未利用其他观测值，对极端值不敏感。,

13、集中性的描述指标,3.众数1）定义：又称范数、秘籍数，是变量的观察值中出现次数最多的数值2）特点：一般用来描述分类变量；有两个值出现最多时，叫做二众数分布；从图表中很容易找到众数；众数不能显示比其他数值出现次数多的程度；,集中性的描述指标,4.计算步骤1）将数字从高到低排列2）众数：频数最大的数值3）中位数：最居中的数值4）平均值：求出观测值的总和，将总和除以观测值的个数,平均数被公认是三种集中量数中最好的一种，也是使用最多的一种，但是它往往受一个或几个极端数据的影响，使平局数反映数据整体集中趋势的准确性变得面目全非。中位数在表现数据整体的集中趋势上，一般没有平均数数准确，但当一组数据中存在极

14、端数据，或数据中有个别数据不准确，中位数平均数更准确反映集中趋势。众数被认为最差的一种，但当需要快速而粗略找出一组数据的代表值时，其优越性。,集中性的描述指标评价,二、离散量数分析,所谓离散量数，就是表示一组数据变异程度或分散程度的量数。离散量数越大，表示数据分布范围越广，越不集中，越不整齐；相反，离散量数越小，表示数据分布范围越集中，变动程度越小。,数据分布的离散性,数据分布的离散性,数据存在不同程度的离散性（变异性）数据需要从集中性和离散性两个方面描述数据离散程度的描述指标：方差标准差全距异众比率离散系数偏度系数,1 方差,方差是一种重要的离散量数，是把一组数据中每个数据相减，将其差进行平

15、方后相加，再除以数据的个数，计算公式：,2、标准差,标准差：将方差开平方得到的数值标准差解决了方差单位不明，与观测值单位一致。标准差用于描述观测值与均值的离散程度。标准差越大观测值越分散，越小观测值越集中。标准差可以作为单位用于描述个体的偏离程度。,3、全距,全距：1）定义：一个分布中最大值和最小值之间的差距。2）计算：全距=（最大值）-（最小值）3）意义：反映数据间最大变异程度。计算简单，只取决于最大值和最小值。只能粗略描述数据分布的离散程度。,4.异众比率,异众比率，是指非众数的频数与全部个案数的比值，用VR表示，其含义是指众数所不能代表的其他数据（即非众数数据）在总数中的比重。VR值越

16、大，表示非众数的个案所占总数据的比例越大，也就是众数的代表性越小，相反，VR值越小，则表示众数的代表性越大。异众比率是从反面检验众数的一项指标,4.异众比率,公式,例题：一组原始数据为6,8,4,7,5,8,4,8共有8个数（n=8），众数M0=8，非众数n-fm0=5VR=8-3/8=0.625,5、离散系数,所谓离散系数，即标准差与算术平均数的百分比值，用CV表示。它是一种无量纲的相对数，因而便于进行比较。公式：CV表示离散系数S表示标准差表示算数平均数,例题：比较某区一季度二手房成交价格与房屋面积分布的差异程度，假设通过调查得到如下数据：平均数（）标准差（S）房屋价格 17028元 5

17、62元房屋面积 58.16平方米 2.86平方米解：分别求价格、面积的离散系数房屋价格:=5.62/170.28=3.3%房屋面积：=2.86/58.16=4.92%,5、离散系数,通过上述计算可以看出，离散量数方差、标准差、全距等，都属于绝对离散量数，即它们都是带有与原观察值（数据）相同量纲（单位）的量数。绝对离散量数的局限是，只有当两种离散量数的单位相同时，才能比较大小，当两种离散量数的单位不同时，就无法进行差异比较。而离散系数可以对不同单位数据比较，如上例题，针对房屋价格、面积离散程度，可以看出二手房屋面积方面的差异明显大于价格方面的差异。,5、离散系数,6、偏度系数,偏度系数是用来描述

18、数据分布特征的统计量数。所谓偏度，指的是数据分布的偏倾方向和程度，它能说明数据总体是否近似于正态分布，从而确定能否进行统计推断或如何进行统计推断。简要介绍两种方法：（1）按平均数与众数的离差求偏度系数,（2）按平均数与中位数的离差求偏度系数在数据呈基本正态分布的情况下，平均数、中位数、众数三者之间存在如下关系：鉴于中位数较之众数更稳定、更具有代表性，故认为用平均数与中位数的离差求偏度系数的方法比前一种更好，更准确。,6、偏度系数,三、单变量统计推断,参数估计:是用样本统计量来估计总体参数的。它通常只涉及一个变量，也涉及两个变量的。参数估计分为三种情况，即总体平均数的参数估计、总体比率的参数估计

19、和总体方差的参数估计。假设检验在单变量统计分析范围内，假设检验分为三种情况，即总体平均数的假设检验，总体比率的假设检验和总体方差的假设检验。,第四节双变量统计分析,一、双变量统计分析的内容两个变量间的相关关系（）按照相关方向的不同，可分为正相关和负相关。（）按照相关强度的不同，可分为完全相关、不相关和不完全相关。（）按照相关形式的不同，可分为线性相关和非线性相关。,两个变量间的因果关系,两个变量间的因果关系，是指一个变量的变化可以确定为另一个变量变化的原因的关系。,二、双变量统计分析的方法,在双变量统计分析中，由于变量的测量层次不同，因而计算两个变量相关系数的方法和假设检验的方法也不相同。变量

20、的测量层次，可分为定类、定序、定距、定比四种类型，这样就形成了多种不同测量层次变量的两两组合。,58,多变量统计方法是运用数理统计的方法来研究多变量问题的理论和方法,它是单变量统计统计方法的推广，是研究多个随机变量之间相互依赖关系以及内在统计规律性的一门统计学分支学科。近年来，多变量统计方法已广泛应用到医学研究的各个领域。医学现象涉及到的变量不止一个,而是多个变量,且这些变量间又存在一定的联系,需要处理多个变量的观测数据。,第五节多变量统计分析简介,59,回归分析的分类,多个因变量(y1,y2,yk),一个因变量 y,一、多变量相关分析,（）偏相关分析（）复相关分析（）典型相关分析,二、多元回

21、归分析,61,（）多元线性回归分析,多元线性回归分析也称复线性回归分析,它研究一组自变量如何直接影响一个因变量。自变量是指独立自由的变量，用向量X表示；因变量是指非独立的、受其它变量影响的变量，用向量Y表示；由于模型仅涉及一个因变量，所以多元线性回归分析也称单变量线性回归分析。,（）logistic回归分析,是自变量为定距、定比变量（或虚拟变量），因变量为定类、定序变量条件下的多元回归分析方法。三、多元方差分析多元方差分析是对多个定类变量（自变量）与多个定距变量（因变量）关系的多元分析方法，其分析的统计原理与方法同一元方差分析相似，只是程序更加复杂。,四、因子分析因子分析是一种从众多相关变量中

22、抽取若干个共同因子，从而使复杂数据得以简化的多变量分析方法。五、对数线性模型分析六、结构方程模型分析七、多层线性模型分析参考应用多变量统计分析，孙尚拱著，2011，科学出版社。,基本概念,统计分析描述统计推断统计参数估计点值估计区间估计假设检验虚无假设备择假设置信水平置信区间集中量数离散量数相关关系因果关系抽样分布统计量参数消减误差比例方差与标准差,复习思考题,如何认识统计分析在社会研究中的作用？（p277-279）怎样理解统计分析的目的？（p277-278）描述统计与推断统计是一种什么样的关系？（p280）如何理解抽样分布的作用？（p280-281）为什么对数据既要进行集中量数分析又要进行

23、离散量数分析？（p284-290）平均数、中位数和众数，各有何优点和缺点？（p284-286）参数估计与假设检验有什么联系与区别？（p290-291）怎样理解消减误差比例的含义与作用？（p290）变量间的相关关系与因果关系有何不同？（p291-292）如何才能确定变量间的因果关系？（p292）,用样本统计量推断总体,用样本统计量推断总体可分为两种情况：一是参数估计。就是用样本统计量推断总体参数，即反映总体或研究总体的统计值。因为，总体不可能全部调查，总体参数不可能直接得到，只能通过样本统计量来估计，因而称为参数估计。二是假设检验。假设检验是一种关于在多大置信水平上可用样本统计量推断总体参数的统

24、计方法，其操作程序是，根据研究的问题先建立一个虚无假设或零假设（用H0表示）及与之针锋相对的备择假设（用H1表示），然后检验样本与总体的关系，即样本能否用来代表总体。可参阅统计推断(英文版)，2004，机械工业出版社,统计分析的特点,（一）数据性：由数据形成概念，从概念形成判断，由判断进行推理，并得出结论。（二）目的性：统计分析为一定的对象服务，具有明显的针对性。（三）时效性：时间越短，统计分析的价值越高。可参阅http:/,统计分析的原则,（1）科学性原则。（2）规范性原则。（3）效用最大化原则。,人有了知识，就会具备各种分析能力，明辨是非的能力。所以我们要勤恳读书，广泛阅读，古人说“书中自有黄金屋。”通过阅读科技书籍，我们能丰富知识，培养逻辑思维能力；通过阅读文学作品，我们能提高文学鉴赏水平，培养文学情趣；通过阅读报刊，我们能增长见识，扩大自己的知识面。有许多书籍还能培养我们的道德情操，给我们巨大的精神力量，鼓舞我们前进。,

展开阅读全文