as描述性统计分析.ppt_三一办公31ppt.com

资源描述

《as描述性统计分析.ppt》由会员分享，可在线阅读，更多相关《as描述性统计分析.ppt（45页珍藏版）》请在三一办公上搜索。

1、,描述性统计分析,East China JiaoTong University,数据的描述,如同给人画像一样,在对数据进行深入加工之前，总应该对数据有所印象。可以借助于图形和简单的运算，来了解数据的一些特征。由于数据是从总体中产生的，其特征也反映了总体的特征。对数据的描述也是对其总体的一个近似的描述。,如何用图来表示数据？,定量变量的图表示:直方图,对于一个定量变量，比如某个地区测量了163个高三男生的身高。用图形来表示这个数据，使人们能够看出这个数据的大体分布或“形状”的一个办法是画直方图(histogram)。,定量变量的图表示:盒型图,简单一些的是盒形图(boxplot，又称箱图、箱线图

2、、盒子图)。右图是根据地区1高三男生的身高数据所绘的盒形图；,盒型图,盒子的中间横线是数据的中位数(median)，封闭盒子的上下两横线（边）为上下四分位数（点）。,定量变量的图表示:茎叶图,在直方图和盒形图中，很难恢复数据的原貌。而另一种图：茎叶图(stem-and-leaf plots)可以恢复数据以地区1高三男生身高为例（图3.3），茎叶图既展示了分布形状又有原始数据。它象一片带有茎的叶子。茎为较大位数的数字，叶为较小位数的数字。,茎叶图,其中茎叶图中茎的单位为10cm，而叶子单位为1cm。比如，由于第一行茎为150cm，因此叶子中的九个数字001223344代表九个数目150、150、

3、151、152、152、153、153、154、154cm等。每行左边有一个频数（比如第一行有9个数目，第二行有17个等等）；可以看出最长的一行为从165cm到169cm的一段（有35个数）。,定量变量的图表示:散点图,数据会有两个变量，如美国男士和女士初婚年限数据。该数据描述了自1900年到1998年男女第一次婚姻延续的时间。这里年份是一个变量，婚姻延续时间是第二个变量。由于不可能将所有人的婚姻年限都给出来，所以每年就取了一个中间的值(中位数)作为代表。,散点图,定性变量的图表示：饼图,定性变量（或属性变量，分类变量）不能点出直方图、散点图或茎叶图，但可以描绘出它们各类的比例。,饼图,定性变

4、量的图表示：条形图,从每一条可以看出讲各种语言的实际人数，而且分别给出了每个语种中母语和日常使用的人数（在图中并排放置）。条形图显示比例不如饼图直观。,条形图,如何用少量数字来概括数据？,大量的数字既繁琐又不直观；需要对数据做人们时间和耐心所允许的简化我们可以用“平均”，“差距”或百分比等来概括大量数字。由于定性变量主要是计数，比较简单，常用的概括就是比例或百分比。下面主要介绍关于定量变量的数字描述。,如何用少量数字来概括数据？,可用少量所谓汇总统计量或概括统计量(summary statistic)来描述定量变量的数据。这些数字是从样本数据得来的，因而也是样本的函数，任何样本的函数，只要不包

5、含总体的未知参数，都称为统计量(statistic)。样本的随机性决定统计量的随机性（统计量也是随机变量）,如何用少量数字来概括数据？,概括统计量经常对应于总体的无法观测到的某些参数。这时，统计量可作为这些参数的估计。一些统计量还可以用来检验样本和假设的总体是否一致。,如何用少量数字来概括数据？,注：一些统计量前面有时加上“样本”二字，以区别于总体的同名参数。如“样本均值”和“样本标准差”，以区别于总体均值和总体标准差；但在不会混淆时可以只说“均值”和“标准差”。,数据的“位置”,数据有位置吗？,这里三个数据的位置一样吗？,数据的“位置”,“位置”一般是关于数据中某变量观测值的“中心位置”或者

6、数据分布的中心（center或center tendency）。和这种“位置”有关的统计量就称为位置统计量(location statistic)。位置统计量当然不一定都是描述“中心”了，比如后面要讲的k百分位数（或k分位数）。,数据的“位置”,最常用的位置统计量就是小学时所学到的算术平均数，它在统计中叫做均值(mean)；严格地说叫做样本均值(sample mean)，以区别于总体均值。如果记样本中的观测值为x1,xn，则样本均值定义为,(样本)中位数(median)是数据按照大小排列之后位于中间的那个数(如果样本量为奇数)，或者中间两个数目的平均(如果样本量为偶数)。由于中位数不易被极端值

7、影响，所以中位数比均值稳健(robust)。,数据的“位置”,上下四分位数（或分别称为第一四分位数和第三四分位数，first quantile,third quantile）则分别位于（按大小排列的）数据的上下四分之一的地方。,数据的“位置”,数据的“位置”,一般地还称上四分位数为75百分位数（75 pecentile，有75的观测值小于它），下四分位数为25百分位数（有25的观测值小于它）。一般地，k百分位数（k-pecentile）意味着有k的观测值小于它。如果令a=k%，则k百分位数也称为a分位数(a-quantile)。样本中出现最多的数目，称为众数(mode),数据的“尺度”,这两个

8、数据“胖瘦”一样吗？,数据的“尺度”,数据中数目的分散程度由尺度统计量（scale statistic）来描述。尺度统计量是描述数据散布，即描述集中与分散程度或变化（spread或variability）的度量。,数据的“尺度”,从前面两个高三男生身高数据的盒形图。左边的数据平均要高些，但右边的数据散布范围要小得多。,统计中有许多尺度统计量。一般来说，数据越分散，尺度统计量的值越大。,数据的“尺度”,极差(range)；就是极大值和极小值之间的差。前面两个高三男生身高数据的极差分别为50cm和32cm。盒形图盒子的长度为两个四分位数之差，称为四分位数极差或四分位间距(interquantile

9、 range)；它描述了中间半数观测值的散布情况。极差和四分位极差实际上各自只依赖于两个值，信息量太少。,数据的“尺度”,另一个常用的尺度统计量为（样本）标准差(standard deviation)。度量样本中各数值到均值距离的一种平均。标准差实际上是方差(variance)的平方根。如果记样本中的观测值为x1,xn，则样本方差为,数据的“尺度”,两个均值一样，但右边的要“胖”些，方差为左边的一倍,两个尺度不同的数据的直方图，左边的标准差大约只有右边的一半,为了了解某地区居民家庭收入状况，现从这一地区家庭中随机抽查了100户居民，调查其家庭人均收入，调查结果如下（单位：百元）：271 396

10、 287 399 466 269 295 330 425 324 228 113 226 176 320 230 404 487 127 74 234 523 164 336 343 330 436 141 388 293 464 200 392 265 403 259 426 262 221 355 324 374 347 261 287 113 135 291 176 342 443 239 302 483 231 292 373 346 293 236 223 371 287 400 314 468 337 308 359 352 273 267 277 184 286 214 351

11、270 330 238 248 419 330 319 440 427 314 414 299 265 318 415 372 238 323 412 493 286 313 412 试根据以上数据计算：这100户家庭的平均人均收入，并据此推断该地区人均收入水平；这100户家庭的人均收入的离散程度；这100户家庭人均收入的分布形状：偏度和峰度。,变量的概括描述,过程UNIVARIATE的一般形式：,PROC UNIVERIATE DATA=NOPRINT PLOT NORMAL；VAR；BY；ID；OUTPUT OUT=PCTLPTS=PCTLPRE=；RUN；,变量的概括描述,过程MEANS

12、的一般形式：,PROC MEANS DATA=MAXDEC=位数 NOPRINT 输出统计量名列；VAR；CLASS；BY；ID；OUTPUT OUT=；RUN；,输出或记入数据集的统计量可用以下的关键名：CSS MIN SKEWNESS SUMWGTCV N STD TKURTOSIS NMISS STDERR USSMEAN PRT SUM VARMAX RANGE,过程SUMMARY与MEANS的用法是完全类似的，只是过程MEANS不写选项NOPRINT时就自动显示分析结果，而过程SUMMARY不写选项PRINT时就不显示分析结果；,PROC CAPABILITY DATA=GRAPHI

13、CS NOPRINT；VAR；HISTOGRAM；/MIDPOINTS=NORMAL(MU=SIGMA=)EXP(THETA=)LOGNORMAL(THETA=)；CDFPLOT/NORMAL(MU=SIGMA=)EXP(THETA=)LOGNORMAL(THETA=)；INSET=；BY；ID；RUN；,过程CAPABILITY的一般形式：,变量分布的图形描述,变量的分类计数,前面介绍的数据分析方法有的只适用于数值型变量，例如对字符型变量就无法计算它的均值，也有时数值型变量的联欢会只是某些特征的代号，对这些变量均值的意义不大。这时更重要的是要不了解这些变量取了那些值和取不同值的频数。过程FREQ就提供了这些方面的功能。,MEASURES 对每层的二维表计算一系列关联指标及相应的标准误，包括Pearson和Spearman相关系数，以及Gamma和Kendall系数等。对于22表，还给出常用的危险度指标及其标准误。CMH 给出Cochran-Mantel-Haenszel统计量，可检验在调整了TABLES语句中其它变量后，行变量与列变量之间的关联程度。对于22表，FREQ过程给出相对危险度估计及其可信区间，还给出各层关联度指标是否齐性的Breslow检验。ALL 给出CHISQ、MEASURES、CMH所请求的全部统计量。ALPHAp 给出检验水准。缺省为0.05。,

展开阅读全文