统计建模与R软件-第三讲-(2018).ppt

资源描述

《统计建模与R软件-第三讲-(2018).ppt》由会员分享，可在线阅读，更多相关《统计建模与R软件-第三讲-(2018).ppt（127页珍藏版）》请在三一办公上搜索。

1、第三讲用R软件作数据的描述性分析,郭广报统计计算,主要内容,3.1 描述性统计量3.2 数据的分布3.3 R软件中的绘图命令3.4多元数据的数据特征与相关分析3.5多元数据的图表示方法,6.1 一元线性回归,1 描述性统计量,已知一组试验（或观测）数据为它们可以是从所要研究的对象的全体X中取出的，这n个观测值就构成一个样本。在某些简单的实际问题中，这n个观测值就是所要研究问题的全体。数据分析的任务就是要对这全部n个数据进行分析，提取数据中包含的有用信息。数据作为信息载体，当然要分析数据中包含的主要信息，即要分析数据的主要特征。也就是说，要研究数据的数字特征。对于数据的数字特征，要分析数据

2、的集中位置、分散程度和数据分布等。,3.1.1 位置的度量,所谓位置的度量就是那些用来描述定量资料的集中趋势的统计量。常用的有均值、众数、中位数、百分位数等。,1 均值,均值(mean)是数据的平均数，均值(记为)定义为（1.1）它描述数据取值的平均位置。在R软件中,可用mean()函数计算样本的均值，其的使用方法是mean(x,trim=0,na.rm=FALSE)其中x是对象(如向量、矩阵、数组或数据框)，trim是计算均值前去掉与均值差较大数据的比例，缺省值为0，即包括全部数据。,当na.rm=TRUE时，允许数据中有缺失数据。函数的返回值是对象的均值。有关它的使用,将用例子来作进一步的

3、介绍。,例1.1 已知15位学生的体重(单位：千克)75.0 64.0 47.4 66.9 62.2 62.2 58.7 63.5 66.6 64.0 57.0 69.0 56.9 50.0 72.0求学生体重的平均值。,解利用mean()函数求解。建立R文件(文件名exam11.R)w-c(75.0,64.0,47.4,66.9,62.2,62.2,58.7,63.5,66.6,64.0,57.0,69.0,56.9,50.0,72.0)w.mean-mean(w);w.mean执行exam11.R的的全部程序得到学生体重的均值为62.36。,但如果在数据中，某些数据是异常值，就不能直接用m

4、ean()。例如，如果第一个学生的体重少输入一个点，变为750千克，此时有,w1 w.mean-mean(w);w.mean1 107.36学生的平均体重为107.36千克，显然是不合理的。,如果选用参数trim就会减少由于输入误差对计算的影响，如 w.mean-mean(w,trim=0.1);w.mean1 62.53846其中trim的取值在0至0.5之间，表示在计算均值前需要去掉异常值的比例。这里选择trim=0.1，即表明去掉10%的异常值。也就是说,在计算中不会用到输入有错的数据750，得到的计算结果趋于合理。因此，利用参数trim可以有效的改善异常值的对计算的影响。,2.顺序统计

5、量,设n个数据(观测值)按从小到大的顺序排列为称为顺序统计量(order statistic)，显然,最小顺序统计量为最大顺序统计量为,在R软件中，sort()给观测量的顺序统计量，如 x sort(x)1 47.4 58.7 62.2 62.2 63.5 64.0 66.9 75.0,实际上，函数sort()不单单给出了样本的顺序统计量，还有更广泛的功能，其使用格式为sort(x,partial=NULL,na.last=NA,decreasing=FALSE,method=c(shell,quick),index.return=FALSE),其中x是数值、或字符、或逻辑型向量.decrea

6、sing是逻辑变量,控制数据排列的顺序,当decreasing=FALSE(缺省值),给出的返回值,是由小到大排序的;如果decreasing=TRUE,则函数的返回值由大到小排列.index.return 是逻辑变量,是控制排序下标的返回值,当index.return=TRUE时(缺省值为FALSE),函数的返回值是一列表,列表的第一个变量$x是排序的顺序,第二个变量是$ix是排序顺序的下标对应的值.,如 sort(x,decreasing=TRUE)1 75.0 66.9 64.0 63.5 62.2 62.2 58.7 47.4 sort(x,index.return=TRUE)$x1

7、47.4 58.7 62.2 62.2 63.5 64.0 66.9 75.0$ix 1 3 7 5 6 8 2 4 1,3.中位数,中位数(median,记为)定义为数据排序位于中间位置的值,即中位数描述数据中心位置的数字特征.大体上比中位数大或小的数据个数为整个数据的一半.对于对称分布的数据,均值与中位数比较接近;对于偏态分布的数据,均值与中位数不同.中位数的又一显著特点是不受异常值的影响,具有稳健性,因此它是数据分析中相当重要的统计量.,在R软件中,函数median()给观测量的中位数.如 x-c(75,64,47.4,66.9,62.2,62.2,58.7,63.5),median(x

8、)1 62.85median()函数的使用格式为 median(x,na.rm=FALSE)其中x是数值型向量.,4.百分位数,百分位数(percentile)是中位数的推广.将数据按从小到大的排列后,对于,它的p分位点定义为其中np表示np的整数部分.p分位数又称为第100p百分位数.大体上整个样本的100p的观测值不超过p分位数.如0.5分位数(第50百分位数)就是中位数.在实际,计算中,0.75分位数与0.25分位数(第75百分位数与第25百分位数)比较重要,它们分别称为上、下四分位数,并分别记为Q3=m0.75,Q1=m0.25.在R软件中,quantile()函数计算观测量的百分位数

9、.如 w quantile(w)0%25%50%75%100%47.40 57.85 63.50 66.75 75.00quantile()函数的一般使用格式为quantile(x,probs=seq(0,1,0.25),na.rm=FALSE,names=TRUE,type=7,.)其中x是由数值构成的向量.probs是给出相应的百分位数,缺省时,是0、1/4、1/2、3/4、1.na.rm 是逻辑变量,当na.rm=TRUE时,可处理缺失数据.其余见帮助.如果打算给出0%,20%,40%,60%,80%和100%的百分位数,则选择 quantile(w,probs=seq(0,1,0.2)

10、0%20%40%60%80%100%47.40 56.98 62.20 64.00 67.32 75.00其中seq(0,1,0.2)表示生成一个从0开始到1结束且间隔为0.2的向量.,1.2 分散程度的度量,表示数据分散或变异程度的特征量有方差、标准差、极差、四分位极差、变异系数和标准误等.,1.方差、标准差与变异系数,方差(variance)是描述数据取值分散性的一个度量.样本方差(sample variance)是样本相对于均值的偏差平方和的平均,记为,即其中，是样本的均值，即式(1.1)的计算值。样本方差的开方称为样本标准差(standard deviation),记为s,即变异系数是

11、刻划数据相对分散性的一种度量,记为CV,它是一个无量纲的量,用百分数表示.,与分散程度有关的统计量还有下列数字特征:样本校正平方和样本未校正平方和在R软件中,若x是由样本构成的向量,则var(x)计算样本方差,sd(x)计算样本标准差,即.例如,对于15名学生的体重数据,有 var(w)1 56.47257 sd(w)1 7.514823,方差函数var()和标准差函数sd()的使用格式为 var(x,y=NULL,na.rm=FALSE,use)sd(x,na.rm=FALSE)其中x是数值向量、矩阵或数据框.与方差函数var()相关的函数还有:cov()求协方差矩阵;cor()求相关矩阵

12、.对于变异系数、校正平方和、未校正平方和等指标,需要编写简单的程序.例如,对于15 名学生的体重数据 cv css uss-sum(w2);uss 1 59122.16,2.极差与标准误,样本极差(记为R)的计算公式为其中x是由样本构成的向量.样本极差是描述样本分散性的数字特征.当数据越分散,其极差越大.样本上、下四分位数之差称为四分位差（或半极差）,记为R1,即它也是度量样本分散性的重要数字特征,特别对于具有异常值的数据,它作为分散性具有稳健性,因此它在稳健性数据分析中具有重要作用.,样本标准误(记为)定义为对于样本极差与样本标准误,可以简单编程方法计算.,1.3 分布形状的度量,1.偏度系

13、数,设总体X的中心矩存在，则称为总体X的偏度系数(coefficient of skewness).,样本的偏度系数(记为g1)的计算公式为其中s是样本标准差,是样本3阶中心矩,即偏度系数是刻划数据的对称性指标.关于均值对称的数据其偏度系数为0,右侧更分散的数据偏度系数为正,左侧更分散的数据偏度系数为负.图1.1给出了数据直方图与偏度的关系,有关直方图的概念将在下面介绍.,图1.1:数据的直方图与与偏度的关系,数据X的偏度为正,数据Y 的偏度为负,2.峰度系数,设总体X的中心矩存在，则称为总体X的峰度系数(coefficient of kurtosis).样本的峰度系数(记为g2)的计算

14、公式为其中，s是样本标准差,是样本4阶中心矩,即当数据的总体分布为正态分布时,峰度系数近似为0;当分布较正态分布的尾部更分散时,峰度系数为正;否则为负.当峰度系数为正时,两,侧极端数据较多;当峰度系数为负时,两侧极端数据较少.最后编写一个统计的函数(程序名data_outline.R),计算样本的各种描述性统计量.data_outline-function(x)n-length(x)m-mean(x)v-var(x)s-sd(x)me-median(x)cv-100*s/m css-sum(x-m)2)uss-sum(x2)R-max(x)-min(x)R1-quantile(x,3/4)

15、-quantile(x,1/4)sm-s/sqrt(n)g1-n/(n-1)*(n-2)*sum(x-m)3)/s3,g2-(n*(n+1)/(n-1)*(n-2)*(n-3)*sum(x-m)4)/s4-(3*(n-1)2)/(n-2)*(n-3)data.frame(N=n,Mean=m,Var=v,std_dev=s,Median=me,std_mean=sm,CV=cv,CSS=css,USS=uss,R=R,R1=R1,Skewness=g1,Kurtosis=g2,row.names=1)函数的输入变量x是数值型向量,由样本构成.函数的返回值是数据框,包含以下指标:N样本的个数;M

16、ean样本均值;Var样本方差;std_dev 样本标准差;Median样本中位数;std_mean样本的标准误;CV样本的变异系数;CSS样本校正平方和;USS样本未校正平方和;R样本极差;R1样本半极差;Skewness样本峰度系数;Kurtosis样本偏度系数.例1.2 计算例1.1中15位学生的体重的各种统计量.解将编好的程序调入内存,输入数据并计算得到相应的结果.,source(data_outline.R)w data_outline(w)N Mean Var std_dev Median std_mean CV1 15 62.36 56.47257 7.514823 63.5 1

17、.940319 12.05071 CSS USS R R1 Skewness Kurtosis1 790.616 59122.16 27.6 8.9-0.4299561 0.09653947,2 数据的分布,数据的数字特征刻划了数据的主要特征,而要对数据的总体情况作全面的描述,就要研究数据的分布.对数据分布的主要描述方法有直方图、茎叶图和数据的理论分布总体分布.数据分析的另一个重要问题是要研究数据是否来自正态总体,这是分布的正态性检验的问题.,2.1 分布函数,定义2.1 设X是一个随机变量,对任意的实数x,令则称F(x)为随机变量X的分布函数(distribution function),

18、也称为概率累积函数(probability cumulative function).定义2.2 对于离散型随机变量X可能取值为的概率为:则称式(2.17)为离散型随机变量X的分布律.常见的离散型分布有:两点分布、二项分布和Poisson 分布等.定义2.3 对于随机变量X,如果存在一个定义在(,+)上的非负,plot(y.resx,type=l),函数f(x),使得对于任意实数x总有则称X为连续型随机变量,f(x)为X的概率密度函数(probability densityfunction),简称概率密度.常见的连续型分布均匀分布、正态分布、指数分布、2分布、t分布和F分布等.在R软件中,提

19、供了计算典型分布的分布函数、分布律或概率密度函数,以及分布函数的反函数的函数.例如,考虑正态分布,设是均值,2是方差,对于任意的变量x,其分布函数为其中pnorm()是计算分布函数(正态分布)的函数,x是由变量构成的,向量,mu是均值,sigma是标准差.相应的概率密度函数为其中dnorm()是计算概率密度函数(正态分布)的函数.计算标准正态分布的上/2(=0.05)分位点,其计算公式为其中qnorm()是计算下分位点的函数,所以计算上分位点需要用1-alpha/2.表达式中的0,1可以缺省.产生100个标准正态态分布的随机数-rnorm(100,mu,sigma)其中rnorm()是生成均值

20、为,标准差为(正态分布)随机数的函数.关于正态分布函数dnorm()(概率密度函数)、pnorm()(分布函数)、qnorm()(下分位点)和rnorm()(产生随机数)的使用方法是,dnorm(x,mean=0,sd=1,log=FALSE)pnorm(q,mean=0,sd=1,lower.tail=TRUE,log.p=FALSE)qnorm(p,mean=0,sd=1,lower.tail=TRUE,log.p=FALSE)rnorm(n,mean=0,sd=1)其中x,q是由数值型变量构成的向量.p是由概率构成的向量.n是产生随机数的个数.mean是要计算的正态分布的均值,缺省值为0

21、.sd是要计算的正态分布的标准差,缺省值为1.log,log.p是逻辑变量,当它为真(TRUE)时,函数的返回值不再是正态分布,而是对数正态分布.lower.tail是逻辑变量,当它为真(TRUE,缺省值)时,分布函数的计算公式为,当lower.tail=FALSE时,分布函数的计算公式为再看一个离散随机变量计算函数的例子,如Poisson分布.Poisson分布的使用格式为dpois(x,lambda,log=FALSE)ppois(q,lambda,lower.tail=TRUE,log.p=FALSE)qpois(p,lambda,lower.tail=TRUE,log.p=FALSE)

22、rpois(n,lambda)其中lambda是Poisson分布的参数.其余参数的意义与上面介绍的函数(正态分布)中参数的意义相同.,注意,由于Poisson分布是离散分布,当x是整数k时,其意义为当x不是整数时,dpois(x,lambda)=0.对于函数ppois(),无论x是否为整数,其意义为其中表示上取整.给定概率p,qpois(p,lambda)的返回值是的最小的整数k.其他的分布函数也有类似的结果.表2.1列出了各种常用的分布函数,概率密度函数或分布律,以及R中的名称和调用函数用到的参数.,在表2.1所列的分布中,加上不同的前缀表示不同的意义 d 概率密度函数,或分布律;p

23、分布函数;q 分布函数的反函数,即给定概率p后,求其下分位点;r 仿真(产生相同分布的随机数).,2.2 直方图、经验分布图与QQ图,1.直方图,对于数据分布,常用直方图(histogram)进行描述.将数据取值的范围分成若干区间(一般是等间隔的),在等间隔的情况下,每个区间长度称为组距.考察数据落入每一区间的频数与频率,在每个区间上画一个矩形,它的宽度是组距,它的高度可以是频数、频率或频率/组距,在高度是频率/组距的情况下,每一矩形的面积恰是数据落入区间的频率,这,种直方图可以估计总体的概率密度.组距对直方图的形态有很大的影响,组距太小,每组的频数较少,由于随机性的影响,邻近区间上的频数可能

24、很大;组距太大,直方图所反映的形态就不灵敏.在R软件中,用函数hist()画出样本的直方图,其格式为 hist(x)或 hist(x,breaks=Sturges,freq=NULL,probability=!freq,include.lowest=TRUE,right=TRUE,density=NULL,angle=45,col=NULL,border=NULL,main=paste(Histogram of,xname),xlim=range(breaks),ylim=NULL,xlab=xname,ylab,axes=TRUE,plot=TRUE,labels=FALSE,nclass=

25、NULL,.)其中x是由样本构成的向量.breaks规定直方图的组距,由以下几种形式给出:向量,给出直方图的起点、终点与组距.数,定义直方图的组距.字符串(缺省值为Sturges).函数,计算组距的宽度.freq是逻辑变量:NULL空(缺省值);TRUE绘出频率直方图;counts绘出频率直方图;FALSE绘出密度直方图probability是逻辑变量与freq相反,是与S-PLUS相兼容的参数,TRUE绘出密度直方图;FALSE绘出频率直方图col 表示直方图中填充的颜色.plot是逻辑变量:TRUE表示给出直方图;FALSE表示列出绘出直方图的各种结果(并不绘图).其它参数见帮助文件.,2

26、.核密度估计函数,与直方图相配套的是核密度估计(kernal density estimate)函数density(),其目的是用已知样本,估计其密度.它的使用方法是density(x,bw=nrd0,adjust=1,kernel=c(gaussian,epanechnikov,rectangular,triangular,biweight,cosine,optcosine),window=kernel,width,give.Rkern=FALSE,n=512,from,to,cut=3,na.rm=FALSE)其中x是由样本构成的向量.bw是带宽,可选择.当bw为省略值时,R软件会画出光滑

27、的曲线.其它参数见帮助文件.例2.1 绘出例1.1中15位学生的体重的直方图和核密度估计图,并与正态分布的概率密度函数作对照.解：写出R程序（程序名data_hist.R）w-c(75.0,64.0,47.4,66.9,62.2,62.2,58.7,63.5,66.6,64.0,57.0,69.0,56.9,50.0,72.0)hist(w,freq=FALSE)lines(density(w),col=blue)x-44:76,lines(x,dnorm(x,mean(w),sd(w),col=red)执行后绘出直方图和密度估计曲线和正态分布的概率密度曲线,如图2.2 所示.图2.2:学生体

28、重的直方图、密度估计曲线与正态分布密度曲线,可以通过密度估计曲线与正态分布的概率密度曲线之间差别的大小来判断数据是否来自正态总体.从图2.2看,基本上可以认为学生的体重来自正态总体.,3.经验分布,直方图的制作适合于总体连续型分布的场合.对于一般的总体分布,若要估计它的总体分布函数F(x),可用经验分布函数(empiricaldistribution function)作估计.设总体,F(x)为分布函数,是来自总体X的样本,称为经验分布函数,其中K(x)表示X1,X2,Xn中不大于x的个数.,经验分布函数也可以表示成Fn(x)是一个跳跃函数,其跳跃点是样本观测值.在每个跳跃点处跳跃度均为1/n

29、.,在R软件中,用函数ecdf()绘出样本的经验分布函数,其用法是ecdf(x)plot(x,.,ylab=Fn(x),verticals=FALSE,col.01line=gray70)其中,在函数ecdf()中的x是由观察值得到的数值型向量,而在函数plot()中的x是由函数ecdf()生成的向量.verticals 是逻辑变量,当verticals=TRUE表示画竖线;否则(FALSE,缺省值)不画竖线.,例2.2 绘出例1.1中15位学生的体重的经验分布图和相应的正态分布图.解写出R程序（程序名data_hist.R）plot(ecdf(w),verticals=TRUE,do.p=

30、FALSE)x-44:78 lines(x,pnorm(x,mean(w),sd(w)其中do.p是逻辑变量,当do.p=FALSE表示不画点处的记号;否则(TRUE,缺省值)画记号.执行后绘出经验分布图和正态分布曲线,如图2.3所示.,可以通过经验分布曲线与分布函数曲线的接近情况来分析数据是否来自正态总体.,4.QQ图,不论是直方图还经验分布图,要从比较上鉴别样本是否近似于某种类型的分布是困难的,QQ图可以帮助我们鉴别样本的分布是否近似于某种类型的分布.现假定总体为正态分布,对于样本,其顺序统计量是.设(x)是标准正态分布N(0,1)的分布函数,是反函数,对应正态分布的QQ图是由以下的点构成

31、的散点图.若样本数据近似于正态分布,在QQ图上这些点近似地在直线,附近.此直线的斜率是标准差,截距是均值.所以利用正态QQ图可以作直观的正态性检验.若正态QQ图上的点近似地在一条直线附近,可以认为样本数据来自正态分布总体.在R软件中,函数qqnorm()和qqline()提供了画正态QQ图和相应直线的方法.其使用方法是qqnorm(y,.)qqnorm(y,ylim,main=Normal Q-Q Plot,xlab=Theoretical Quantiles,ylab=Sample Quantiles,plot.it=TRUE,datax=FALSE,.)qqline(y,datax=FAL

32、SE,.)qqplot(x,y,plot.it=TRUE,xlab=deparse(substitute(x),ylab=deparse(substitute(y),.)其中x是第一列样本.y是第二列样本或只有此列样本.,xlab,ylab,main 是图标.其它参数见帮助文件.例2.3 绘出例1.1中15位学生的体重的正态QQ图,并从直观上鉴别样本数据是否来自正态分布总体.解：写出R程序（程序名data_qq.R）w-c(75.0,64.0,47.4,66.9,62.2,62.2,58.7,63.5,66.6,64.0,57.0,69.0,56.9,50.0,72.0)qqnorm(w);q

33、qline(w)执行后绘出正态QQ图,如图2.4所示.,预测：,从正态QQ图（图2.4）来看,样本的数据基本上可以看成来自正态总体.对于对数正态、指数等分布也可以作相应的QQ图,用以鉴别样本数据是否来自某一类型的总体分布.,2.3 茎叶图与箱线图,1.茎叶图,与直方图比较,茎叶图更能细致地看出数据分布的结构.下面用具体的例子来说明茎叶图的意义.例2.4 某班有31名学生,某门课的考试成绩如下 25 45 50 54 55 61 64 68 72 75 75 78 79 81 83 84 84 84 85 86 86 86 87 89 89 89 90 91 91 92 100,做出其茎叶图.解

34、：在R软件中,用stem()函数作茎叶图,其命令如下 x stem(x)The decimal point is 1 digit(s)to the right of the|2|5 3|4|5 5|045 6|148 7|25589 9|0112,10|0下面对茎叶图给出相应的解释.第一个数25的十位为2,个位为5.以个位为单位,将25用|号分开 25 2|5每一个数都可以这样处理.因此,茎叶图将十位数2,3,4,5,6,7,8,9,10按纵列从上到下排列,在纵列右侧从上到下画一竖线,再在竖线右侧写上原始数据的相应的个们数.例如,在十位数5的竖线右侧依次应是0,4,5,即 5|045它们分别对

35、应着50,54,55这三个数据.又如在十位数3的竖线的右侧,因为从原始数据看,没有对应的数据可填,可以空着.在茎叶图中,纵轴为测定数据,横轴为数据频数.数据的十位数部分表示“茎”,作为纵轴的刻度;个位数部分作为“叶”,显示频数的个数,作用与直方图的直方类似.,stem()函数的使用方法是 stem(x,scale=1,width=80,atom=1e-08)其中x是数据向量.scale控制绘出茎叶图的长度.width绘图的宽度.atom 是容差.,2.箱线图,茎叶图是探索性数据分析所采用的重要方法.而箱线图确能直观简洁地展现数据分布的主要特征.在R软件中,用boxplot()函数作箱线图.例2

36、.5 绘出例2.4学生考试成绩的箱线图.解：输入命令 boxplot(x)得到箱线图,如图2.5所示.,在箱线图中,上(Q3)下(Q1)四分位数分别确定出中间箱体的顶部主底部.箱体中间的粗线是中位数(me)所在的位置.由箱体向上下伸出的垂直部分称为“触须”,表示数据的散布范围,最远点为1.5倍四分位数间距.超出此范围的点称为异常值点,异常值点用“”号表示.boxplot()函数的使用方法有三种形式,第一种格式为 boxplot(x,.)其中x是由数据构成的数值型向量,或者是列表,或者是数据框.上面例子的使用方法就是这种形式.第二种形式为 boxplot(formula,data=NULL,.,

37、subset,na.action=NULL)其中formula是公式,如y grp,这里y是由数据构成的数值型向量,grp是数据的分组,通常是因子.data是数据结构.第三种形式为boxplot(x,.,range=1.5,width=NULL,varwidth=FALSE,notch=FALSE,outline=TRUE,names,plot=TRUE,border=par(fg),col=NULL,log=,pars=list(boxwex=0.8,staplewex=0.5,outwex=0.5),horizontal=FALSE,add=FALSE,at=NULL)其中x的意义与第一种

38、情况相同.range是“触须”的范围(缺省值为1.5).notch是逻辑变量,当notch=TRUE(缺省值为FALSE)时,画出的箱线图带有切口.outline是逻辑变量,当outline=FALSE(缺省值为TRUE)时,不标明异常值点.col是颜色变量,附给不同的值,将绘出不同颜色的箱线图.horizontal是逻辑变量,当horizontal=TRUE(缺省值为FALSE)时,将把箱线图绘成水平状.add是逻辑变量,当add=TRUE 时,在原图上画图;否则(FALSE,缺省值)替换上一张图.其余参数的意义在线帮助文件.可以用boxplot()函数作两样本的均值检验,考查两样本的均值是

39、否相同.,例2.6 已知由两种方法得到如下数据 Method A:79.98 80.04 80.02 80.04 80.03 80.03 80.04 79.97 80.05 80.03 80.02 80.00 80.02 Method B:80.02 79.94 79.98 79.97 79.97 80.03 79.95 79.97问两组数据的均值是否相同?解：输入数据,并用boxplot()函数画出两组数据的箱线图,A B boxplot(A,B,notch=T,names=c(A,B),col=c(2,3),得到箱线图,如图2.6所示.,从图形可以看出,两组数据的均值是不相同的,第一组值高

40、于第二组.我们将第五章将给出两样本均值检验的统计方法.注意到:由于使用了其他参数,画出的箱线图带芭切口,关于A的箱线图是红色(col=2 表示红色),关于B的箱线图是绿色(col=3表示红绿),也可以将参数写成col=c(red,green).再看一种函数boxplot的使用方法.在R软件中,InsectSprays是R提供的数据框,它是由两列数据构成,一列叫count,由数据构成,另一叫spray,由因子构成,共有A,B,C,D,E,F六个水平.现画出数据count在这六个水平下的箱线图,其命令如下:boxplot(count spray,data=InsectSprays,col=ligh

41、tgray)boxplot(count spray,data=InsectSprays,notch=TRUE,col=2:7,add=TRUE)第一个命令表示画出矩形的箱线图,而且图中的颜色是青灰,色(col=lightgray).第二个命令表示画出的箱线图带有切口(notch=TRUE),而且每一个箱线图用一种颜色(col=2:7)画出,并将这次画的图加到上一张图上(add=TRUE),其图形如图2.7所示.,由上述例子可以看出,各种画箱线图的绘图方法可以混合使用.,2.4 正态性检验与分布拟合检验,上面介绍的茎叶图、箱线图等对随机性、确定性的数据都有用,其特点是图像生动直观.在直方图、经验

42、分布函数介绍中,曾提到在总体存在某种类型的分布时,配一条合适的总体概率密度曲线或总体分布函数曲线.然而,所配曲线是否合适,是需要进行统计检验的.在这里简单介绍两种检验方法,一种方法是关于正态分布的检验,另一种方法是关于分布函数的拟合检验.,1.正态性W 检验方法,利用ShapiroWilk(夏皮罗威尔克)的W 的统计量作正态性检验,因此称这种检验方法为正态W 检验方法.在R软件中,函数shapiro.test()提供W 统计量和相应的p值,当p值小于某个显著性水平(=0.05),则认为样本为不是来自正态分布的总体;否则承认样本来自正态分布的总体.函数shapiro.test()的使用格式为,

43、shapiro.test(x)其中x是由数据构成的向量,并且向量的长度在3至5000之间.对于例1.1中15位学生的体重数据,w shapiro.test(w)Shapiro-Wilk normality test data:w W=0.9686,p-value=0.8371 p值为0.8371 0.05,因此,认为来自正态分布的总体,与QQ图得到的结论相同.又如 shapiro.test(runif(100,min=2,max=4)Shapiro-Wilk normality testdata:runif(100,min=2,max=4),W=0.9493,p-value=0.0007515

44、p值为0.0007515 0.05,认为样本不是来自正态分布的总体.当然,这是来自均匀分布的随机数.,2.经验分布的Kolmogorov-Smirnov检验方法,经验分布函数Fn(x)是总体分布函数F(x)的估计.经验分布拟合检验的方法是检验经验分布Fn(x)与假设的总体分布函数F0(x)之间的差异.Kolmogorov-Smirnov(科尔莫戈罗夫斯米尔诺夫)统计量是计算Fn(x)与F0(x)的距离D,即在R软件中,函数ks.test()给出了Kolmogorov-Smirnov检验方法,其使用方法是 ks.test(x,y,.,alternative=c(two.sided,less,g

45、reater),exact=NULL)其中x是待检测的样本构成的向量,y原假设的数据向量或是描述原假设的字符串.例如,x ks.test(x,pf,2,5)One-sample Kolmogorov-Smirnov testdata:xD=0.5596,p-value 2.2e-16alternative hypothesis:two.sided因为x是来自的随机数,对x作检验(即认为是来自总体是自由度为(2,5)的F分布),其结果是拒绝,即不认为x服从的分布.,3 R软件中的绘图命令,在前面介绍的数据描述性分析中,数据作图是作描述性分析的重要方法之一,因此,利用绘图的方法研究已知数据,

46、是一种直观、有效的方法.这里将介绍R软件中,一些数据作图的基本方法.在作图函数中,有二类作图函数,一类是高水平作图函数,另一类是低水平作图函数.所谓高水平作图函数,是与低水平的作图函数相对应的,即所有的绘图函数均可产生图形,可以有坐标轴,以及图和坐标轴的说明文字等.所谓低水平作图函数是自身无法生成图形,只能在高水平作图函数产生的图形的基础上,增加新的图形.,3.1 高水平绘图函数,高水平作图函数有plot()、pairs()、coplot()、qqnorm()、qqline()、,hist()和contour()等.,1.plot()函数,函数plot()可绘出数据的散点图、曲线图等.plot

47、()函数有以下四种使用方法.(1)plot(x,y)其中x和y是向量,生成y关于x的散点图.例3.1 某学校在体检时测得12名女中学生体重X1(千克)和胸围X2(厘米)资料如表3.2所示.试绘出计体重与胸围的散点图.,解:输入 X1 X2 plot(X1,X2)得到的图形如图3.8所示.,(2)plot(x)其中x是一时间序列,生成时间序列图形.如果x是向量,则产生x 关于,下标的散点图.如果x是复向量,则绘出复数的实部与虚部的散点图.(3)plot(f)plot(f,y)其中f是因子,y是数值向量.第一种格式生成f的直方图;第二种格式生成y关于f水平的箱线图.例3.2 利用四种不同配方的材料

48、A1、A2、A3、A4生产出来的元件,测得其使用寿命如表3.3所示.,绘出四种不同配方材料寿命的箱线图,并四种不同配方下元件的使用寿命有无显著的差异解:使用因子格式输入数据,并绘出相应的箱线图(程序名exam32.R).y-c(1600,1610,1650,1680,1700,1700,1780,1500,1640,1400,1700,1750,1640,1550,1600,1620,1640,1600,1740,1800,1510,1520,1530,1570,1640,1600)f-factor(c(rep(1,7),rep(2,5),rep(3,8),rep(4,6)plot(f,y)运

49、行后得到相应寿命的箱线图,如图3.9所示.,(4)plot(df)plot(expr)plot(y expr)其中df是数据框,y是任意一个对象,expr是对象名称的表达式如(a+b+c).例如输入学生的年龄、身高和体重构成数据框(文件名:student_data.R)df-data.frame(Age=c(13,13,14,12,12,15,11,15,14,14,14,15,12,13,12,16,12,11,15),Height=c(56.5,65.3,64.3,56.3,59.8,66.5,51.3,62.5,62.8,69.0,63.5,67.0,57.3,62.5,59.0,72.

50、0,64.8,57.5,66.5),Weight=c(84.0,98.0,90.0,77.0,84.5,112.0,50.5,112.5,102.5,112.5,102.5,133.0,83.0,84.0,99.5,150.0,128.0,85.0,112.0);plot(df)attach(df)plot(Age+Height)plot(WeightAge+Height)其中data.frame是R软件中构成数据框的命令.采用数据框形式输入数据会给数据的计算带来方便.plot(df)绘出的图形如图3.10所示.,plot(Age+Height)绘出身高与年龄的散点图.plot(WeightA

展开阅读全文