《SAS统计应用基础第四讲共4讲.ppt》由会员分享,可在线阅读,更多相关《SAS统计应用基础第四讲共4讲.ppt(10页珍藏版)》请在三一办公上搜索。
1、第四章 数据的统计描述,4.1 概述,4.1.1 定义统计描述是指对原始数据进行归纳整理、用相应的统计指标(如率、均数等)来反映研究对象最鲜明的数量特征的过程。有时为了达到更加直观的效果,可以通过统计图或统计表的形式来进行统计描述。,计量资料,计数资料:其统计描述过程主要包括计算相对指标,如率、构成比,相对比等,也可通过统计图对资料的分布情况进行描述,根据所收集资料类型的不同,统计描述过程不尽相同,位置参数:算术平均数(mean)、中位数(median)、众数(mode),变异指标:全距(range)、四分位数间距(interquartile)、方 差(variance)、标准差(standa
2、rd deviation)、变异系数(coefficient of variation),形状参数:偏度(skewness)、峰度(kurtosis),4.2 执行描述性统计功能的SAS过程,描述性统计指标的计算可以用means、summary、univariate、tabulate过程来实现。,相同点:均可计算均数、标准差、方差、标准误、总计、加权总计、最大值、最小值、全距、校正的和未校正的离差平方和、变异系数、样本分布位置的t检验统计量、缺失数据和非缺失数据个数等。均可通过by语句将数据分为若干个子数据集,从而对各子数据集分别进行独立的统计分析,不同点:means、summary、univ
3、ariate过程可以计算样本的偏度和峰度,而tabulate不计算。univariate过程可以计算出样本的众数,其他则不能。Summary过程执行后不会自动给出分析结果,须调用output语句和print过程来显示分析结果,而其他三个过程则会。univariate过程具有统计制图的功能,其他三个过程则没有。tabulate过程不产生输出数据文件,其他三个过程均可产生输出数据文件,用例子说明univariate过程,Libname a d:;Data a.data4_1;Infile d:abc.txt;Input x y z;Proc univariate;Run;quit;,结果说明,此部
4、分给出了基于矩(moments)的统计量,几乎所有的常用统计量都包括在其中。列表中:左侧一列从上到下依次为:观测总数、均数、标准差、偏度、未校正的平方和、变异系数;右侧一列从上到下依次为:权重合计、观测值合计、方差、峰度、校正平方和、均数的标准误。,此部分给出基本的描述性统计量,包括分布的位置参数(左侧一列)和尺度参数(右侧一列)。位置参数包括均数、中位数、众数,尺度参数包括标准差、方差、全距以及四分位数间距(interquartile range),此部分给出有关分布位置假设检验(test for location)的结果。由于程序中未设置”mu0=”选项,univariate过程将假设的位置参数设置为0.结果列表中的三行分别为students 检验、符号检验、符号秩检验,结果中分别给出了所得的检验统计量 及其对应的双侧概率值。,此部分给出分位数估计值的列表,标题“quantiles(definition5)”中的“definition5”是指计算分位数值所用的数学定义方法,由于proc univariate语句中未设置”pctldef=“选项,此处为默认的方法。,此部分给出了极端值观测列表,极大值和极小值分别给出系统默认的5个。我们可以通过设置proc univariate语句中的”nextrval=“选项来自定义极端值的显示个数。,