R语言统计分析简介.ppt

上传人:牧羊曲112 文档编号:5447055 上传时间:2023-07-08 格式:PPT 页数:36 大小:914.50KB
返回 下载 相关 举报
R语言统计分析简介.ppt_第1页
第1页 / 共36页
R语言统计分析简介.ppt_第2页
第2页 / 共36页
R语言统计分析简介.ppt_第3页
第3页 / 共36页
R语言统计分析简介.ppt_第4页
第4页 / 共36页
R语言统计分析简介.ppt_第5页
第5页 / 共36页
点击查看更多>>
资源描述

《R语言统计分析简介.ppt》由会员分享,可在线阅读,更多相关《R语言统计分析简介.ppt(36页珍藏版)》请在三一办公上搜索。

1、R语言统计分析,易 楠 张青青,R语言简介,集数据分析与图形显示于一体的统计编程软件。由Auckland大学统计系的Robert Gentleman和Ross Ihaka于1995年创立的。免费下载地址,其它统计软件,SAS:世界上最权威的统计软件,价格昂贵,支持编程,统计学专业专用软件SPSS:操作容易、输出漂亮、功能齐全、价格合理,非统计学专业首选软件Eviews:具有强大的多元回归和时间序列分析功能,计量经济学专业专用软件Matlab:功能强大的编程软件,统计分析功能较少,工程专业首选软件Excel:具有简单的统计分析功能,商务办公首选软件通病:&,“黑匣子”,“傻的可爱”,R语言特点,

2、程序命令完全公开(非黑匣子)计算过程保留在对象中,可随时调用有不断加入的各个方向统计学家编写的统计软件包编程语言极其简单(归纳为“三个一”)一小内时掌握基本运算和绘图语句 一天内学会编写函数和利用软件包 一年内可达到“登峰造极”的境界现在让我们开始走进R语言的神奇吧!,函数结构,function_name(Arguments1,Arguments2=value,)function_name表示函数名称Arguments1表示需输入的数值,可能是向量、数据框等Arguments2=value表示参数2的取值,可能是逻辑变量等例:函数read.table(file,header=F)read.ta

3、ble表示读入文本数据函数名参数file表示被读取的文本文件名“*.txt”header表示数据文件第一行是否包含变量名,如果包含则输入header=F,否则输入header=T,R中的一些基本运算的语句,1、变量与赋值使用者可以用“=”或“x=9 或xsqrt(x)1 3Y=(5*(x+2)-3y1 52运算中是不会影响x的数值,倘若想重新给x赋值,可参考下列例子:x=sqrt(x)x13,R中的一些基本运算的语句,2、向量在统计学中,多数数据都是以一组来表达,即向量的形式。R中,使用者能以向量形式来输入一组数字。举例来说,在一次重复试验中得出以下10个结果:2,4.6,1,3.7,5.9,

4、4.0,6.7,2.8,1.4,3.1若想将其以一个向量的形式表示出来,可参考如下:observations=c(2,4.6,1,3.7,5.9,4.0,6.7,2.8,1.4,3.1)C()表示R中在括号中的数值是以向量形式输入的。向量的运算与标量的相同,如:2.54*observations输出结果为向量中的每一个数值均乘以2.54,然后再以向量形式输出利用R,通过定义成向量的形式,我们可以很方便的计算出上述一列数据的均质和方差,如:Mean(observations)Var(observations),3、从向量中选取子集,Observations31 1Observations5:71

5、 5.9 4.0 6.7Observations-1表示隐藏第1个元素。Observationsobservations44.6 5.9 6.7,4、矩阵,矩阵和向量有点相似,但它是二维的。输入矩阵如同输入向量,只需加上它的二维数据。矩阵拥有两个属性:“二维数据”和“行和列的名称”。例如:A=atrix(c(1:9),nrow=3,ncol=3,byrow=T),1,2,3 1,1 2 3 2,4 5 6 3,7 8 9上述例子中,自变量“byrow=T”提示R以一行行来排列矩阵。当矩阵的第一行被填满时,余下的数字将填补下一行,如此类推,直至完成矩阵。byrow默认值是“F”,因此,若不输入自

6、变量“byrow=T”,则会被视为以下列方式组成矩阵:,1,2,3 1,1 4 7 2,2 5 8 3,3 6 9,dim(A)函数dim能显示矩阵的二维数据1 3 3,3、矩阵的特征值与特征向量,4、矩阵的合并,5、数据框,矩阵和向量一样,只能拥有一种数据类型,而数据框却能同时拥有多种。若数据框内同时含有文字,当数据框被转化成矩阵时,所有元素都会被转化成文字。利用指令as.frame,可将矩阵转化为数据框。例如:,数据框的引用,数据框数据的调用用attach命令,读写数据文件,1、读纯文本文件,相关分析,研究变量间密切程度的一种常用统计方法相关系数是描述变量间线形关系强弱和方向的统计量函数名

7、:cor(x,method=c(pearson,kendall,spearman)数据文件:highschool.sav分析方法:Pearson程序命令:library(foreign)highschool=read.spss(highschool.sav,to.data.frame=T)colnames(highschool,1:3)=c(“初三成绩”,“高一成绩”,“收入水平”,“DIFF”,“IN2”,“IN3”)命名 cor(highschool,1:2,method=pearson)cor.test(highschool$初三成绩,highschool$高一成绩,method=pea

8、rson),有兴趣的同学可以试着做:高一成绩与收入水平的kendall相关系数,并思考为什么不能使用pearson相关系数分析?,相关分析R与SPSS对比,R输出结果,SPSS输出结果,回归分析,描述变量之间具体的变动关系,通过控制或给定自变量的数值来估计或预测因变量可能的数值。函数名:lm(formula,data)数据文件:earnings.txt程序命令:earnings=read.table(earnings.txt,header=T)lm1=lm(income industry+service,data=earnings)summary(lm1),回归分析R与SPSS对比,R输出结果

9、,SPSS输出结果,残差检验,绘制残差散点图程序命令:plot(lm1$res,type=b)abline(h=0,lty=2)绘制残差序列QQ图程序命令:plot(lm1),残差检验,正态性检验程序命令:shapiro.test(lm1$res)t.test(lm1$res)残差序列满足t N(0,2)序列相关检验(D.W.)程序命令:library(car)durbin.watson(lm1),残差检验,自相关系数(ACF)程序命令:acf(lm1$res)偏自相关系数(PACF)程序命令:pacf(lm1$res)残差序列满足0均值、同方差、无自相关,即白噪声序列,聚类分析,根据事物本身

10、的特征研究个体分类的方法函数名:hclust(d,method=ward)数据文件名:beer.txt分析方法:欧氏距离、ward法、系统聚类程序命令:beer=read.table(beer.txt,header=T)row.names(beer)=beer$beernamehclust(dist(beer,-1),method=ward)$mergeplot(hclust(dist(beer,-1),method=ward),聚类的凝聚过程,聚类分析R,判别分析,根据观察或测量到若干变量值,判断研究对象属于哪一类函数名:lda(x,grouping)数据文件名:disc.sav分析方法:距

11、离判别法library(MASS)library(foreign)disc=read.spss(disc.sav,to.data.frame=T)lda1=lda(disc,-1,disc$GROUP)table(predict(lda1,disc,-1)$class,disc$GROUP)plot(predict(lda1,disc,-1)$x,col=as.numeric(disc$GROUP),判别分析R与SPSS对比,R输出结果,SPSS输出结果,主成分分析,利用降维的思想,把多个指标转换成较少的几个互不相关的综合指标的统计方法函数名:prcomp(x,scale=F)数据文件名:co

12、mpany.txt分析方法:从相关矩阵出发程序命令:company=read.table(company.txt,header=T)prc=prcomp(company,-1,scale=T)summary(prc)prc$rotationprc$x,1:2,主成分分析R与SPSS比较,R输出结果,SPSS输出结果,因子分析,探讨存在相关关系的变量之间,是否存在不能直接观察到但对可观测变量变化起支配作用的潜在因子的分析方法函数名:factanal(x,factors,rotation=varimax)数据文件名:student.sav分析方法:极大似然法、方差最大正交旋转、回归法程序命令:li

13、brary(foreign)student=read.spss(student.sav,to.data.frame=T)factanal(student,2,rotation=varimax,scores=regression),因子分析R与SPSS对比,R使用mle方法估计参数,默认因子旋转方法为方差最大化,R输出结果,SPSS输出结果,对应分析,在一个低维度空间中对列联表里的两个名义变量间的关系进行描述函数名:corresp(xtabs)数据文件:caith(在MASS程序包中)程序命令:library(MASS)caithplot(corresp(caith,nf=2),对应分析R,caith数据文件格式:对应分析行和列得分,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号