《定量数据的统计描述.ppt》由会员分享,可在线阅读,更多相关《定量数据的统计描述.ppt(34页珍藏版)》请在三一办公上搜索。
1、统计描述是针对原始数据进行归纳整理、用相应的统计指标(如率、均数等)来反映研究对象最鲜明的数量特征过程。数据的统计描述可以包括以下几个方面的内容:位置参数:包括算术平均数、中位数、众数变异指标:包括全距,四分位数间距、方差、标准差以及变异系数形状参数:包括偏度和峰度频数及报表绘图,数据的统计描述,Means过程Summary过程Univariate过程,定量数据统计指标计算的三种过程,Means过程格式:Proc means;Var 变量列表;(规定需要计算的数值变量及顺序)Class 变量名列表;(分组计算)Freq 变量;(该语句指定一个数值型的变量,它的值表示输入数据集中相应观测出现的频
2、数。该变量的值应为正整数。若freq变量值;,Means过程,Proc means中的其它选项包括Maxdec=n;规定输出结果中的小数部分的最大位数(0-8)。缺省时是2。Fw=n;给出该过程用来打印每个统计量的域宽。缺省是12。Alpha=a;设置计算置信区间的置信水平a。a在0-1之间。假如,若规定a=0.05,则得到均值的95%的置信区间Missing要求该过程把class变量的缺失值作为有效分组值处理,Means过程,Proc means data=class;Var height;Run;在上述用法中,没有指定输出的统计量,缺省的会对每个选定的变量计算有效记录(N)、均值(Mean
3、)、标准差(Std)、最大值(Maximum)和最小值(Minimum)五个统计量。,Means过程最简单的用法,可以用means过程计算的统计量分别用关键词表示:,Proc means data=class mean var clm alpha=0.01 maxdec=3 fw=8;Var height weight;Output out=mclass mean=var=vh vw lclm=lc uclm=uc;Run;,Means过程示例,该程序要求输出的结果占8个字符,其中小数位为3。把运行结果输出到数据集mclass中,包括变量height(height的均值)weight(weig
4、ht的均值)vh(height的方差)vw(weight的方差)Lc(置信度为99%的置信下限)uc(置信度为99%的置信上限),1、统计关键字=代表统计值的变量名称串Proc means data=class;Var height weight;Class sex;Output out=test mean=m_h m_w;Run;,Output的四种方式,这种界定方式自动计算出var指令所列举之所有变量的统计值。因此,等号右边所列举的变量,必须与var指令中所列举的变量前后对应而且数目相同。,2、统计关键字(变量名称串)=代表统计值的变量名称串Proc means data=class;Va
5、r height weight;Class sex;Output out=test mean=m_h m_w std(height)=v_h;Run;,Output的四种方式,这种界定方式将产生var指令所列举之部分变量的统计值。例如,上例文件test中包括变量m_h,m_w 和v_h。,3、统计关键字=Proc means data=class;Var height weight;Class sex;Output out=test mean=;Run;,Output的四种方式,这种表达方式在等号右边是空白,未界定任何代表统计值的变量名称。因此,将以原变量的名称来代表。例如,在上例中,输出文件
6、test中变量height与weight分别代表相应的均值。须注意,若使用这种界定方式,则一个var变量,只能产生一种统计值,而不能同时产生其他统计值。这是因为一个var变量的名称只能同时代表一种统计值。,4、统计关键字(变量名称串)=Proc means data=class;Var height weight;Class sex;Output out=test mean=m_h m_w max(height)=;Run;,Output的四种方式,这种表达方式在等号右边是空白,未界定任何代表统计值的变量名称。在等号左边的括号内列举部分var指令中所提到的变量。因此,这些变量的统计值,仍以变量
7、的原名表示。例如,在上例中,输出文件test中变量m_h和m_w分别代表height与weight的均值,height代表height的最大值。须注意,一个在var指令中界定的变量名称只能代表一种统计值。因此,使用这种界定方式时,不要同一个变量重复界定在不同的统计值关键字之后。,Output 语句中的统计关键字,频数语句(freq语句):通过不同的sas过程被用来指定一个变量,这个变量的值表示在相应的这个观测中其他变量值出现的频数。当freq语句出现时,过程处理这个数据集就好像每个观测出现n次一样,其中n是那个观测中freq变量的值。如果在某个观测中,freq变量的值小于1,这个观测在分析中不
8、使用;如果freq变量的值不是整数,仅取整数部分使用。,Freq语句,Freq语句,对40名麻疹易感儿童接种麻疹疫苗一个月后,测得其血凝抑制抗体滴度如下,求其平均滴度。,Data a;Input f x;Cards;1 4 5 8 6 16 2 32 7 64 10 128 4 256 5 512;Proc means;Var x;Freq f;Output out=b mean(x)=m_x;Run;,By与class的区别,Class sex school;的分组结果:组别 sex school1 男和女 重点和非重点 男 重点和非重点 女 重点和非重点 男和女 重点 男和女 非重点 男
9、重点 男 非重点 女 重点 女 非重点,By sex school;的分组结果:组别 sex school1 男 重点 男 非重点 女 重点 女 非重点,设有两个分组变量:sex(分男,女)及school(下分重点和非重点),By与class的区别,Class sex;By school;的分组结果:组别 sex school 男和女 重点 男 重点 女 重点 男和女 非重点 男 非重点 女 非重点,示例,Proc means data=class;Class sex age;var height weight;output out=class1 mean=min=h w;Run;,types
10、:对_type_进行选择输出,proc means data=class;var height;class sex age;types sex*age;output out=height mean=;run;proc print data=height;run;,两个过程类似,都是用来对数值变量计算单个变量的基本统计量。而且这两个过程使用的语句和选项都相同。它们的差别缺省时,summary不打印输出计算结果;means总是打印输出计算的统计量,除非你在proc means过程中明确规定选项noprint。如果使用summary过程时希望打印输出统计量,必须在proc summary语句中规定选
11、项print。若省略var语句,summary过程只给出观测个数(Nobs);而means过程对输入数据集中除用在by,Id,freq,class,weight语句之外的所有数值变量计算统计量,means过程与summary过程的区别,Proc univariateVarByFreqWeightIdOutputProbplotqqplotHistogram,选项串;变量名称串;变量名称串;变量名称;变量名称;变量名称串;Out=统计值输出文件名称/统计值关键字符串;,PROC UNIVARIATE 过程,Proc univariate选项串,Data=sas数据集名NoprintFreq 要求
12、生成包括变量值,频数、百分数和累计频数的频数表Normal 要求计算关于输入数据服从正态分布的假的检验统计量。Plot 要求生成一个茎叶图(或水平直方图),一个盒形图和一个正态概率图Mu0=设定t检验的样本均值是否等于mu0=,设置的值必须和var语句顺序对应,Univariate的输出(缺省)包括五个部分第一部分是矩统计量;第二部分为基本的位置和分散程度统计量,位置统计量包括均值、中位数、众数,分散程度统计量包括标准差、方差、极差、四分位间距;第三部分为关于均值等于零的三种检验的结果,包括t检验、符号检验和符号秩检验;第四部分为各个重要的分位数;第五部分是观测数据的五个最低值和五个最高值。,
13、例如:Proc univariate data=class;Var height weight;Class sex;Id name;Run;结果解释见课本98页,Probplot,Proc univariate data=class;Var height;probplot/normal(mu=60.6 sigma=5 color=red L=2 W=3)ctext=blue square grid pctlorder=1,5,10,15,20,25,30,35,40,45,50,55,60,65,70,75,80,85,90,95,99;inset mean=m(height);label h
14、eight=gaodu;title height;footnote h;Run;Color 定义曲线的颜色;L和W分别定义线型和线的宽度;ctext=定义字体的颜色;Sqare画个方块把图像包起来;grid在每个横坐标上画一个垂线;pctlorder=指定横坐标的百分位数,蓝颜色的必须指定;Inset 给图形附加说明,label给变量加标签。,Position=Height=font=ctext=分别指定插入文字说明的位置、高度、字体及颜色Cframe=和cshadow=分别规定文字说明框和阴影的颜色Position可取N,NE,E,SE,S,SW,W,NW,常用字体见 http:/www.s
15、fu.ca/sasdoc/sashtml/gref/z1onts.htm#zt-lists,常用颜色:WHITE BLACK RED GREEN BLUE CYAN MAGENTA GRAY PINK ORANGE BROWN YELLOW,Inset语句选项,Qqplot,proc univariate data=class;qqplot height/normal(mu=est sigma=est color=green)square ctext=blue;inset mean=m(height);title height2;footnote h2;Run;,Histogram,proc
16、univariate data=class noprint;histogram weight;inset n=Number of observations mean=mean of weight/position=ne;title Mean of weight;footnote This is a footnote;run;,Inset 中的position=ne;是来调整插入文字的位置,ne表示northeast,n表示north,其余类似。,Histogram,proc univariate data=class;histogram height/normal(mu=est sigma=e
17、st color=red)midpoints=45 50 55 60 65 70 75 80 85 90 ctext=blue;run;,Output语句的选项串,该语句要求创建一个包含指定统计量的输出数据集。新数据集中的变量个数和名字用户可以自己规定。使用该语句时要求有var语句。在一个单变量过程中可以使用多个output语句,每个output语句创建一个输出数据集首先列出统计量的关键词,接着是一个等号,然后是包含统计量的一个或多个变量名。例如 output out=new mean=ave1 ave2 var=v,Output 语句示例,Proc univariate data=class
18、;Var height weight;Output out=test mean=m_h m_w var=v_h;Run;Univariate 中的output选项不能用 统计量(变量名)=名字;如上例中不能用 var(height)=v_h不可以用 统计量(变量名)=;如上例不能用 var(height)或var=;,Output 语句示例,Proc univariate data=class mu0=62;Var height;Output out=t_test t=t_value probt=p_value;Run;对变量height的均值做t检验(mu0=62),Output 语句示例,Proc univariate data=class;Var height weight;Output pctlpts=33.3 66.7 pctlpre=h w pctlname=p33_3 p66_6;Run;Pctlpts=百分位数 规定在过程中不能自动提供而用户又希望计算的百分位数。比如想计算33%的分位数,必须由此选项。Pctlpre=前缀名列表 该选项规定pctlpts=要求计算的百分位数的输出变量名的前缀Pctlname=后缀名列表 该选项规定pctlpts=要求计算的百分位数的输出变量名的后缀,Means/Summary与Univariate对比,