连续性变量的统计描述与参数估计.ppt

资源描述

《连续性变量的统计描述与参数估计.ppt》由会员分享，可在线阅读，更多相关《连续性变量的统计描述与参数估计.ppt（44页珍藏版）》请在三一办公上搜索。

1、第5章连续性变量的统计描述与参数估计,连续变量的统计描述概述1 统计描述中的可用工具（1）各种初步汇总描述方法频数、百分位数。（2）各种统计描述指标均值、标准差、四分位数间距。（3）统计表（4）统计图,5.1 连续变量的统计描述指标体系,（1）集中趋势（Central Trend）：均数（Mean）中位数（Median）截尾均数(Trimmed Mean)几何均数(Geometric Mean)众数（Mode）调和均数（Harmonic Mean）,（4）其他趋势单峰双峰分布、极端值（Outlier）。,（2）离散趋势（Dispersion Trend）全距（Range）、标准差（Std.D

2、eviation）和方差（Variance）、百分位数（Percentile）、四分位数，四分位间距、变异系数,（3）分布特征（Distribution Tendency）偏度系数（Skewness）和峰度系数（Kurtosis）,2集中趋势的的描述指标,1 算术平均算术平均（Arithmetic Mean）是最常用的描述数据分布的集中趋势的统计量。总体均数（Population Mean）用希腊字母表示，样本均数常用表示。一、算术平均数的定义和性质,二、均数的意义,任何一个平均数值首先是同类现象的平均数。任何一个平均数总是一个平衡点。但平均数在高度概括观测数据从而使问题简化的同时，却丢失

3、了某些有用的信息，一方面它把各个观测数据之间的差异性掩盖了起来，另一方面由于平均数对于个别极端值反应比较灵敏，因而平均数在某些情况下可能具有一定的欺骗性。,三、均数的适用范围,严格的讲平均数指示用于定距变量。但有时对于定序变量，求平均等级也可以使用平均数。,2 中位数,中位数（Median）是将总体各单位的标志值按大小顺序排列，处于中间位置的那个标志。一、中位数的定义对于未分组的原始资料，首先必须将标志值按大小顺序。设排序结果为：则中位数就可以按下列方式确定：二、中位数的适用范围,3其他集中趋势指标,一、截尾均数由于均数较易受极端值的影响，因此可以考虑将数据排序后，按照一定的比例去掉最两端的数

4、据，只是用中部的数据来求均数。如果截尾均数和原均数相差不大，则说明数据不存在极端值，或者两侧极端值的影响正好抵消；反之，则说明数据中有极端值，此时截尾均数更好地反映数据的集中趋势。常用的截尾均数有5%截尾均数，即两端各去掉5%的数据。,二、几何均数,几何均数适用于原始数据分布不对称，但经过对数转换后呈对称分布的资料。,几何均数实际上就是对数转换后的数据lgX的算术平均数的反对数。,四、调和均数它实际上是观察值X倒数之均数的倒数。,三、众数（Mode）众数指的是样本数据中出现频次最多的那个数。,众数适用于任何层次的变量，特别适用于单峰对称的情况，是比较两个分布是否接近首先要考虑的参数。,在SPS

5、S中，众数可以在Report子菜单和Tables子菜单的全部报表过程和制表过程中计算出来。,在SPSS中，调和均数可以在Report子菜单的4个报表过程过程中计算出来。,3 离散趋势的描述指标,1全距（Range）又称为极差，是一组数据中最大值（Maximun）与最小值（Minimum）之差。极差反映的是变量分布的差异范围或离散程度，在总体中，任何两个标志值之差都不可能超过极差。极差存在两点不足：一是它仅仅取决于两个极端值的水平，不能反映其间的变量分布情况，提供的信息太少。二是它容易受个别极端值的影响，不符合稳健型的要求。,2 方差和标准差,一、方差（Variance）和标准差（Standar

6、d Deviation）的定义将离均差平方和（Sum of Squares of Deviation from Mean，SS）除以观察例数N，就得到方差：方差越大，数据分布离散程度越大。对于样本数据而言，方差的计算公式为：将方差开方，就得到标准差。对于同性质的数据来说，标准差越小，表明数据的变异程度越小，即数据越整齐，数据的分布范围越集中；标准差越大，表明数据的变异程度越大，即数据越参差不齐，分布越分散。二、方差和标准差的适用范围：方差和标准差的适用范围应当是正态分布。,3 百分位数、四分位数与四分位数间距,分位差是对极差指标的一种改进，是从变量数列中剔除了一部分极端值后重新计算的类似于极差

7、的指标。常用的分位差有四分位差、十分位差、百分位差。,一、分位数,分位数：是一种位置指标，用PX表示。一个百分位数PX将一组观测值分为两部分，理论上有x%的观测值比它小，（100-x）%的观测值比它大。四分位数（quartile）、十分位数（decile）、百分位数（percentile），他们分别是用3个点、9个点、99个点将数据4等分、10等分和100等分后各分位点上的值。,二、四分位数,四分位数：实际上是三个数值的总称，分别是P25、P50、P75分位数。很显然，中间的分位数是中位数，因此通常所说的四分位数是指第一个四分位数（下四分位数）和第三个四分位数（上四分位数）。,上下四分位数的差

8、值称为四分位数间距：,QR=Q3-Q1,4 变异系数,当需要比较两组数据离散程度大小的时候，往往直接使用标准差来进行比较并不合适。这可以被分为两种情况：（1）测量尺度相差太大；（2）数据量纲不同。在以上情形中，就应当消除测量尺度和量纲的影响，而变异系数（Coefficient of Variance），它是标准差和其平均数的比率。,5.2 连续性变量的参数估计,根据样本数据对总体的客观规律性作出合理估计的过程被称为统计推断（Statistical Inference），它可以被分为参数估计和假设检验两大类。1 正态分布一、正态分布的定义若连续性随即变量X的概率分布密度函数为则称随机变量X服从正

9、态分布（Normal Distribution）,二、正态分布的特征,（1）正态分布是一条对称曲线，关于均数对称，因此均数被称为正态分布的位置参数。（2）曲线是单峰，在均值出达到最高点。（3）正态分布曲线的高矮与标准差有关。因此标准差被称为正态分布曲线的尺度参数。（4）曲线无论向左或向右延伸，都越来越接近横轴，但不会与横轴相交，以横轴为渐近线。（5）约68%的个体的取值与平均数在距离一个标准差之内。（6）约95%的个体取值与平均数的距离在1.96个标准差之内。（7）99%个体的取值与平均数的距离在2.58个标准差。,三、标准正态分布（Standard Normal Distribution）,

10、将原来的正态分布转换为标准正态分布。,在SPSS中的Descriptive过程可以将原变量转换为标准正态分布的得分，只需要选中主对话框左下角的Save standardized values as variables 复选框即可。,四、偏度和峰度,（1）偏度（Skewness）：偏度是用来描述变量取值分布形态的统计量，指分布不对称的方向和程度。样本偏度系数：,偏态的方向指的应当是长尾的方向，而不是高峰的位置。,(2)峰度（Kurtosis）：峰度用来描述变量取值分布形态陡缓的统计量，是指分布图形的的尖削程度或峰凸程度。样本的峰度系数：,2 参数的点估计,参数的点估计就是选定一个适当的样本统计量

11、作为参数的估计量，并计算出估计值。对于所选统计量是否适于作参数估计量，有无偏性、一致性和有效性三个评选标准。无偏性是指虽然估计量的值不全等于参数，但应在真实值附近摆动。一致性是指样本容量越大，估计值离真实值的差异应当越小。有效性是指如果两个统计量都符合上述要求，则应当选取误差更小的一个作为估计值。,在许多种情况下，样本统计量本身往往就是相应的总体参数的最佳估计，此时就可以直接取相应的样本统计量作为总体参数的点估计。,一、矩法,二、极大似然估计法该方法的原理是在已知总体的分布，但未知其参数值时，在待估参数的可能取值范围内进行搜索，使似然函数值最大的那个数值为极大似然估计值。三、稳健估计值稳健估计

12、值的是该统计量具有稳健性，当数据存在异常值时受影响较小，而且对大部分的分布而言都很好。,稳健估计有M估计、R估计等不同方法。,SPSS中数出的M估计量有4种，它们分别是Huber、Andrews、Hampel和Tukey所提出的，实际上就是所用的函数不同。一般而言，Huber适用于数据接近正态分布的情况，另外三种则适用于数据中许多异常值的情况。如果M估计量里平均数和中位数较远，则数据中可能存在异常值。此时，应该用M估计量替代平均数以反映集中趋势。,3 参数的区间估计,一、标准误标准误就是用来描述参数估计值可能离真实值究竟有多远的统计量。二、区间估计的计算结合样本统计量和标准误可以确定一个具有较

13、大的可信度包含总体参数的区间，该区间称为总体参数的1-a可信区间或置信区间（Confidence Interval）。对于任意可信度的区间情况，总体均值在100（1-a）%可信区间为：,spss中的相应功能,1、Spss的用于连续变量统计描述的过程，均集中在Descriptive Statistics子菜单中。（1）Frequencies：产生原始数据的频数表，并能计算各种百分位数。,控制频数表输出范围类型的最大数目,（2）Descriptive过程,该过程用于一般性的统计描述，相对于Frequencies过程而言，它不能绘制统计图。,（3）Explore 过程,该过程用于对连续性资料分布状况

14、不清楚时的探索性分析，它可以计算许多描述统计量，给出各种统计图，并进行简单的参数估计。,（4）Ratio 过程,用于对两个连续性变量计算相对比指标。,5.3 连续变量统计描述实例,CCSS中的消费者信心总指数index1，现状指数index1a，预期指数index1b进行统计描述，并计算95%个体参考值范围。1 使用频数过程进行分析2 使用描述过程进行分析,一、Descriptive过程的结果,二、Frequencies过程的结果,3 使用Explore过程进行分析探索分析是对数据进行初步的观察分析，主要的分析项目有：观察数据的分布特征：可通过绘制箱图和茎叶图等图形直观地反映数据的分布形式和数

15、据的一些规律性，包括考察数据中是否存在异常值等。正态分布检验：检验数据是否服从正态分布。方差齐性的检验：用Levene检验比较各组的方差是否相等。,1、单击Analyze-Descriptive statistics-Explore，打开Explore主对话框：,一、分析操作,（3）在Display栏中选择输出项，依次是Both选择项，输出图形与描述统计量（系统默认），只输出描述统计量和只输出图形。本例中选择默认项。,（1）从左侧的变量列表中选出变量，送入Dependent List栏。,（2）选择”作为因子变量，送入Factor List栏。有了因子变量，SPSS会把所有的观测个体按照因子变

16、量的取值分成若干各组，再分组考察Dependent List中的各个变量，如果不选择因子变量，SPSS会对全部观测来做探索分析。,2、单击Statistics统计量按钮，打开Statistics对话框,选择统计输出量。,（1）Descriptives基本统计描述。同时指定均值的置信区间的置信度，系统默认为95。,（2）M-估计（M估计在计算时对所有观测量赋予权重，随观测量距分布中心的远近而变化）。（3）Outliers输出分析数据中五个最大值和五个最小值。（4）Percentiles输出百分数。,3、单击Plots 图形按钮，打开Plots对话框。,（1）Boxplot 箱图选择栏,Facto

17、r levels together因变量按因素水平分组（系统默认）；Dependents together 所有因变量生成一个并列箱图（本例中选择项）；None不显示箱图。,（2）Descriptive 描述图形栏Stem-and-leaf 茎叶图Histogram 直方图,（3）Normality plots with test(复选项)，正态分布检验并输出Q-Q图。,None：不产生回归直线的斜率和方差齐性检验；Power Estimation转换幂值估计（对每组数据产生一个中位数自然对数及四个分位数的自然对数的散点图）选项；Transformed 变换原始数据选择项；Untransfor

18、med不变换变换原始数据选择项。,（4）Spread vs level with Levene Test栏，对所有的散布层次图，同时输出回归直线的斜率以及方差齐性的Levenes检验。,4、单击Option按纽，打开Option对话框如图所示。可选择缺失值的处理方式，SPSS提供三种处理方式：,（1）Exclude cases listwies 剔除带缺失值的观测量（系统默认）。（2）Exclude cases pairwise 剔除带缺失值的观测量时还一并剔除与缺失值有成对关系的观测量。（3）Report values 输出频数表时同时输出缺失值。,5、单击OK，得到相应的输出结果如表所示。,二、基本的分析结果,三、输出百分位数,箱图中，最底部的水平线段是数据的最小值（奇异点除外），顶部的水平线段是数据的最大值（奇异点除外），中间矩形箱子的底所在位置是数据的第一个四分位数（即25分位数），箱子顶部所在位置是数据的第三个四分位数据（即75分位数）。箱子中间的水平线段刻画的是数据的中位数（即50分位数）。,

展开阅读全文