频数统计与柱状.ppt

上传人:小飞机 文档编号:6436163 上传时间:2023-10-31 格式:PPT 页数:39 大小:343.49KB
返回 下载 相关 举报
频数统计与柱状.ppt_第1页
第1页 / 共39页
频数统计与柱状.ppt_第2页
第2页 / 共39页
频数统计与柱状.ppt_第3页
第3页 / 共39页
频数统计与柱状.ppt_第4页
第4页 / 共39页
频数统计与柱状.ppt_第5页
第5页 / 共39页
点击查看更多>>
资源描述

《频数统计与柱状.ppt》由会员分享,可在线阅读,更多相关《频数统计与柱状.ppt(39页珍藏版)》请在三一办公上搜索。

1、第二章 描述性统计量计算,教学要求:使学生掌握描述性统计量计算所需要的 SAS/INSIGHT与分析员应用的菜单系统及编程语句,会用SAS/INSIGHT与分析员应用或编程方法进行频数统计、画条形图/直方图、常用描述性统计量的计算、盒形图和 分布拟合.教学重点:FREQ、UNIVARIATE、MEANS过程步.教学难点:输出结果的解读.教学方法:授课、上机、实例分析教学内容:,数据分析的第一步 通常是频数统计、描述性统计量的计算、作出柱状图或直方图、盒形图来进行初步分析。,教学内容:,第一节 频数统计与柱状图 概述、用INSIGHT作频数统计和条形图、用分析员应用 作频数统计和条形图、用FRE

2、Q,GCHART过程步 作频数统计和条形图第二节 常用描述性统计量计算 概述、用INSIGHT计算常用描述性统计量、用分析员应 用计算常用描述性统计量、用UNIVARIATE、MEANS 过程步计算常用描述性统计量第三节 直方图、盒形图和分布拟合 用INSIGHT作分布图形、用分析员应用作分布图形、用 CAPABILITY过程步作分布图形,2.1 频数统计与柱状图,2.1.1 概述2.1.2 用INSIGHT作频数统计和直方图2.1.3 用分析员应用作频数统计和直方图2.1.4 用编程作频数统计和直方图,2.1.1 概述,样本数据集若关心的是总体中每个个体的若干个指标(即SAS数据集中的变量)

3、,例如某个学生的姓名(NAME)、性别(SEX)、年龄(AGE)、身高(HIGHT)和体重(WEIGHT)等等,随机抽样后得到一个样本数据集,如表2.1。其中每一行是一个观测,是某个学生的各个指标(变量)的值。把调查数据已存为SAS数据集:exec.Bclass.,表2.1:exec.Bclass纪录的数据,频数统计:用来了解变量都取什么值,取各个值的频数或百分比。,例如,从数据集Bclass中要得到(其中一个变量)年龄的如下统计表:,表2.2:年龄频数表,频数统计给我们的信息:第二列频数表示整个样本数据中,12岁的学生有8个,13岁的学生有7个等等。第三列百分数表示整个样本数据中,12岁的学

4、生占20%,13岁的学生占17.5%等等。85%在12-15岁之间。,柱状图(也称条形图),柱状图常用于两个或多个组某指标(频数或百分数等)大小的比较.在垂直柱状图里,有多个宽度相同的柱并列,对变量取到的每个值,都用一个柱描绘。柱的高度表示频数(或百分数)。从柱的不同高度可以对变量取值的频数分布有一个整体的印象。以下是相应于频数表2.2的柱状图,比频数表更直观。,柱状图,下面通过sas系统的insight,分析员应用及编程三种不同方法作出频数表和柱状图,定义SAS数据库,File Open object Create new library Name:exec(打勾)Enable at sta

5、rtupPath:D:exec OK,以后目录D:exec列为SAS数据库,其中永久SAS数据集在INSIGHT和分析员环境中总是可以直接打开并进行操作。在编辑窗可以不用LIBNAME语句直接利用SAS数据库exec中SAS数据集。例如,Proc print data=exec.bclass;run;,Analyze Distribution(Y),在分布(Distribution(Y)窗中选 AGE Y,SEX Y,Output在弹出的输出(Output)窗中,点击频数表(Frequency Counts)前的小方框使之打勾(表示要输出频数表)OK OK,用INSIGHT作频数统计(p38)

6、,2.1.2 用INSIGHT作频数统计和柱状图,计算Bclass中SEX和AGE的频数和百分数.打开数据集后,在下拉菜单选:,希望百分数和频数都是四舍五入的整数时:点击频数表左上角 Format 8.0,SEX和AGE的频数和百分数表,用INSIGHT作柱状图(p36),在INSIGHT环境下打开数据集 exec.Bclass。显示变量SEX(性别)和WEIGHT(体重)的柱状图:,1.Analyze Histogram/Bar Chart(Y);弹出Histogram/Bar Chart(Y)窗2.左侧BCLASS框中选变量SEX Y,WEIGHT Y;3.选左下侧OK.,因为WEIGHT

7、是连续型随机变量,软件自动适当分组后作出柱状图。如要改变分组方式,可点击图框左下角的尖头,并在弹出的菜单中选Ticks,再在弹出的刻度(Ticks)窗口中进行设定。如要改为由28到76,每间隔6为一组?连动功能?改变为水平柱状图?,注:对列名型变量刻度位在条形底边的中间,对区间型变量位在条形底边的左端.,2.1.3 用分析员应用作频数统计和柱状图(p39),用分析员应用作频数统计在分析员应用环境下,要对数据集exec.Bclass统计AGE和SEX的频数。可由以下几步完成:,Statistics Descriptive Frepuency CountsAGE Frequencies,SEX F

8、requencies.3.OK.,用分析员应用作柱状图(p41),在分析员应用环境下,条形图是频数统计的图形表现。要对数据集exec.Bclass中变量AGE制作水平条形图。可由以下几步完成:Statistics Descriptive Frepuency Count在弹出的单向频数表(1-Way Frequencies)菜单中选:AGE Frequencies.Plots.在弹出菜单的条形图(Bar charts)框中,点击水平(Horizontal)框或垂直框前的方框,使之打勾。OK OK.随即显示的是一份频数统计表。在主画面左侧的树中,点击以Horizontal Bar Chart of

9、 AGE(或Vertical Bar Chart of AGE)命名的分支目录立即显示相应的条形图;如点击以Code命名的分支目录立即显示相应的程序。,思考与练习,试用INSIGHT和分析员应用分别输出数据集xuelin中 变量x和group的频数统计表和柱状图.发现了什么问题?,小结,在INSIGHT环境下频数统计菜单过程前两步:Analyze Distribution(Y)在INSIGHT环境下柱状图菜单过程前两步:Analyze Histogram/Bar Chart(Y),在分析员应用环境下频数统计、柱状图菜单过程前三步相同:Statistics Descriptive Frepuen

10、cy Counts,2.1.4 用编程作频数统计和柱状图(FREQ过程;GCHART过程),FREQ过程(频数过程.可输出频数表,列联表及独立性检验结果):,Proc freq;tables 变量名列;Run;,1.Data=数据集名 若省略,用最近建立的SAS数据集。2.Order=Freq|Data|Internal|Formatted 规定变量水平的记录次序(排列次序)。Order=Freq 表示按频数降序排列,因此最大频数的水 平第一个出现;Order=Data 表示按输入数据集中值的出现次序排列;Order=Internal 表示按变量的值排序;Order=Formatted 表示按

11、变量格式化值的次序。,Proc freq主语句中可使用的选项:,3.Formchar(1,2,7)=字符串,规定用来构造列联表单元的轮廓线和分隔线的字符。字符串的长度为三个字符长,这些字符用来表示(1)垂直线,(2)水平线,(7)水平与垂直的交叉线。若规定 Formchar(1,2,7)=(三个空格)则生成的表格没有轮廓线和分隔线。默认的该选项为 Formchar(1,2,7)=|,4.Page 要求Freq过程每页只输出一张表。,By 语句,使用此语句时,对由BY变量定义的分组观测分别进行频数分析。当使用BY语句时,过程要求数据集已按BY变量排序。,by 变量名;,Proc freq;tab

12、les 变量名列;Run;,使用by语句例:对男生和女生分别作年龄的频数表.,Proc sort data=exec.Bclass;by sex;Run;Proc freq data=exec.Bclass;by sex;tables age;Run;,对By变量的每个值作出频数表,即对男生和女生分别作出年龄的频数表,排序过程,-性别=男-The FREQ Procedure 年龄 Cumulative Cumulative AGE Frequency Percent Frequency Percent 12 3 13.64 3 13.64 13 4 18.18 7 31.82 14 7 31

13、.82 14 63.64 15 5 22.73 19 86.36 16 1 4.55 20 90.91 17 2 9.09 22 100.00,-性别=女-The FREQ Procedure 年龄 Cumulative Cumulative AGE Frequency Percent Frequency Percent 12 5 27.78 5 27.78 13 3 16.67 8 44.44 14 5 27.78 13 72.22 15 2 11.11 15 83.33 16 2 11.11 17 94.44 17 1 5.56 18 100.00,频数表(单向表),tables 变量名列

14、;,变量名列:列出要输出频数表的变量名,变量名之间要空格.在PROC FREQ 的一次执行中可以包括任意多个tables语句。如果没有tables语句,FREQ过程对数据集中每个变量都生成一个单向频数表。如果需要两个变量的交叉表(列联表),只要在tables语句中用星号*隔开两个变量名。,例如:作数据集Bclass中性别和年龄的列联表:,Tables 语句,Proc freq data=exec.Bclass Formchar(1,2,7)=|;tables sex*age;Run;,第一个变量的值形成表的行,第二个变量的值形成表的列。,Proc freq;tables 变量名列;Run;,T

15、he FREQ Procedure Table of SEX by AGE SEX(性别)AGE(年龄)Frequency|Percent|Row Pct|Col Pct|12|13|14|15|16|17|Total-+-+-+-+-+-+-+男|3|4|7|5|1|2|22|7.50|10.00|17.50|12.50|2.50|5.00|55.00|13.64|18.18|31.82|22.73|4.55|9.09|37.50|57.14|58.33|71.43|33.33|66.67|-+-+-+-+-+-+-+女|5|3|5|2|2|1|18|12.50|7.50|12.50|5.0

16、0|5.00|2.50|45.00|27.78|16.67|27.78|11.11|11.11|5.56|62.50|42.86|41.67|28.57|66.67|33.33|-+-+-+-+-+-+-+Total 8 7 12 7 3 3 40 20.00 17.50 30.00 17.50 7.50 7.50 100.00,列联表(双向表),在tables语句的斜杠/后面能使用的选项有三类共24项,其中常用的有:1.规定统计分析的选项 CHISQ不同值取值比率相等检验,独立性的Pearson的检验,对于22表进行Fisher的精确检验2.EXACT对大于22的表进行Fisher的精确检验

17、3.要求进一步信息的选项 EXPECTED在独立性假设下,输出单元频数的期望值4.控制输出的选项 NOCUM不输出单向频数表和列表格式下的累计频数和累计百分数 NOCOL不输出单元列百分数 NOROW 不输出单元行百分数 NOPERCENT 不输出单元百分数,tables 变量名列;,Proc freq;tables 变量名列;Run;,例 输出频数和列联表的例子。,Data one;do i=1 to 1000;x=int(uniform(78997)*3)+1;y=int(uniform(78997)*4)+1;output;end;drop i;Run;,Proc freq data=o

18、ne;title 没有tables语句;Run;title;,备用数据集:随机产生1至3之间自然数1000个和1至4之间自然数1000个.,(1)输出x和y的频数表(单向表),SAS函数:uniform(seed)产生均匀分布U(0,1)随机数.其中Seed可以是任一大于等于0的整数.如取0,下次重新运行data步发生的随机数值就会与这次不同.Int(x)取x的整数部分.,没有tables语句 Cumulative CumulativeX Frequency Percent Frequency Percent-1 337 33.7 337 33.72 341 34.1 678 67.83 32

19、2 32.2 1000 100.0 Cumulative CumulativeY Frequency Percent Frequency Percent-1 253 25.3 253 25.32 240 24.0 493 49.33 264 26.4 757 75.74 243 24.3 1000 100.0,Proc freq data=one;title 没有tables语句;Run;,打印结果:频数表,(2)输出x的频数表,x和y的列联表,2检验结果及期望值.,Proc freq data=one;tables x x*y/chisq expected;Run;,Cumulative C

20、umulativeX Frequency Percent Frequency Percent-1 337 33.7 337 33.72 341 34.1 678 67.83 322 32.2 1000 100.0 Chi-Square Test for Equal Proportions-Statistic=0.602 DF=2 Prob=0.740,输出结果之一:频数表和不同值取值比率相同原假设的2检验值,TABLE OF X BY Y X YFrequency|Expected|Percent|Row Pct|Col Pct|1|2|3|4|Total-+-+-+-+-+1|90|75|9

21、0|82|337|85.261|80.88|88.968|81.891|9.00|7.50|9.00|8.20|33.70|26.71|22.26|26.71|24.33|35.57|31.25|34.09|33.74|-+-+-+-+-+2|84|81|98|78|341|86.273|81.84|90.024|82.863|8.40|8.10|9.80|7.80|34.10|24.63|23.75|28.74|22.87|33.20|33.75|37.12|32.10|-+-+-+-+-+3|79|84|76|83|322|81.466|77.28|85.008|78.246|7.90|8

22、.40|7.60|8.30|32.20|24.53|26.09|23.60|25.78|31.23|35.00|28.79|34.16|-+-+-+-+-+Total 253 240 264 243 1000 25.30 24.00 26.40 24.30 100.00,输出结果之二:列联表,包括X与Y独立时期望值,STATISTICS FOR TABLE OF X BY YStatistic DF Value Prob-Chi-Square 6 3.666 0.722Likelihood Ratio Chi-Square 6 3.673 0.721Mantel-Haenszel Chi-Sq

23、uare 1 0.051 0.822Phi Coefficient 0.061Contingency Coefficient 0.060Cramers V 0.043Sample Size=1000,输出结果之三:两变量X与Y独立性检验值,Data one;input decision$defrace$num;Cards;是 白人 19 是 黑人 17 否 白人 141 否 黑人 149;run;proc print;run;Proc freq data=one;tables decision*defrace;weight num;Run;,Weight语句(已知频数时可利用),每个观测代表的

24、不是一个样品,而是多个样品或汇总数。例如右表。通过SAS输出如下的列联表。,decision defraceFrequency|Percent|Row Pct|Col Pct|白人|黑人|Total-+-+-+否|141|149|290|43.25|45.71|88.96|48.62|51.38|88.13|89.76|-+-+-+是|19|17|36|5.83|5.21|11.04|52.78|47.22|11.88|10.24|-+-+-+Total 160 166 326 49.08 50.92 100.00,例输出Bclass中年龄和体重的频数表,Proc freq data=exec

25、.bclass;tables age weight;Run;,对连续型变量(如weight),不同观测的变量值同常不同。因此直接作频数表意义不大。通常按变量取值范围分成若干组后,统计变量在各个组取值的频数等。若要同表2.4的分组:由24公斤至80公斤,每8公斤为一组,常用以下两种程序之一.,Data tmp;set exec.bclass;gweight=int(weight-16)/8);label gweight=体重分组值;Run;,Proc freq data=tmp;tables gweight;Run;,(1)定义一新变量gweight来把体重分组,使体重在24-32时取gweig

26、ht=1,32-40时gweight=2,等等,(2)也可使用Format过程来分组,Proc format;value wfmt low-32=24-32 32-40=32-40 40-48=40-48 48-56=48-56 56-64=56-64 64-72=64-72 72-high=72-80;Run;Proc freq data=exec.bclass;tables weight;format weight wfmt.;Run;,Proc freq;tables 变量名列;Run;,GCHART过程基本形式:(图表过程),Proc gchart;hbar 变量名;/*水平条形图*/

27、vbar 变量名;/*垂直条形图*/block 变量名;/*区域图*/pie 变量名;/*圆形图(饼图)*/*图案模型*/*每个变量值画一组条形图*/Run;,注意:hbar、vbar、block、pie中至少要写一个语句。,Proc gchart 主语句中可使用的选项1:,1.Data=数据集名 若省略,用最近建立的SAS数据集。2.Gout=数据集名 图形存入数据集名下。比如:Proc gchart data=one gout=two;,1.Discrete:画出不连续、不累积的条形图.(常用于离散型变量)2.Type=Freq|Cfreq|Percent|Cpercent|Sum|Mea

28、n 默认为 Freq(输出频数表)。3.Sumvar=变量名:已求和或均值的变量名。4.Midpoints=中点列:指定中点值。例如:Vbar score/Midpoints=80 90;Vbar score/Midpoints=50 to 90 by 10;5.Levels=n:将区间变量的数据分为n组画条图。例如:Vbar score/Levels=3;6.Group=z:给变量z的每个值画一组条形(即分组画条形图)。注:by语句也是分组画条形图,但是每页只画一个组的条形图,而此选项在同一页画出多个组的条形图。7.Space=数值:数值是条与条之间距离。,Hbar 和 Vbar 语句中可使

29、用的选项2:,Block与Hbar中的选项大多数相同。其独有的选项:Blockmax=n:区域图的长方块高度 n个字符高度。Coutline=C:C为长方块前侧表面轮廓的颜色。,Block 语句中可使用的选项3:,PIE 语句中可使用的选项4:,Percent=Arrow|Inside|None|Outside:百分比的标法Slice=Arrow|Inside|None|Outside:各扇区的标法Fill=Solid:使扇区实心,PATTERNn 语句中可使用的选项5:,PATTERNn 语句中 n可以是1-99之间整数.常用选项有:C=颜色:规定图案色彩。V=花纹值:规定图案花纹。花纹值为

30、:E:空的,无花纹.S:实心的,用同一颜色涂满.Ln:向左斜线,n表示线的密度,可取1-5之间一整数.Rn:交叉斜线,n表示线的密度,可取1-5之间一整数.Xn:向右斜线,n表示线的密度,可取1-5之间一整数.,例画出数据集Bclass中年龄(age)的柱状图、饼图和区域图.,Proc gchart data=exec.bclass;vbar age;pie age/percent=inside;block age;Run;,Proc gchart data=exec.bclass;vbar age;by sex;Run;,Proc gchart data=exec.bclass;vbar a

31、ge/group=sex;Run;,对男女生分组画年龄的柱状图:,在SAS的过程步中,若使用by语句,数据集事先必须按by变量进行排序(sort过程),by语句把不同组柱状图分别输出在不同页上;选项group把不同组柱状图输出在同一页上。,由图观察 人数最多的年龄?男生中最多的年龄?女生中最多的年龄?,例2.1.4.画出柱状图显示各组的产量。已知各组产量(频数):,A组:15个;B组:10个;C组:11个,data one;input yeild group$;cards;15 A 10 B 11 C;run;Proc gchart data=one;vbar group/sumvar=yei

32、ld;Run;,2.1 频数统计与柱状图,在INSIGHT环境下频数统计菜单过程前两步:Analyze Distribution(Y)在INSIGHT环境下柱状图菜单过程前两步:Analyze Histogram/Bar Chart(Y),在分析员应用环境下频数统计、柱状图菜单过程前三步相同:Statistics Descriptive Frepuency Counts,画图过程,Proc gchart;hbar 变量名;/*水平条形图*/vbar 变量名;/*垂直条形图*/block 变量名;/*区域图*/pie 变量名;/*圆形图(饼图)*/*图案模型*/*每个变量值画一组条形图*/Run;,频数过程,Proc freq;tables 变量名列;Run;,思考与练习,一.考虑数据集xuelin.用编程方法(1)对变量group输出频数表和柱状图、饼图及区域图,并指出调查数据中患者和健康人所占百分比。(2)对血磷值x 分5个组输出频数表和柱状图及饼图.(3)关于血磷值x对患者和健康人分别输出柱状图(两组柱状图在同一页)和饼图.由图得到的信息?二.在数据集Bclass中对性别和年龄做列联表。14岁的学生有多少人?男生所占百分比?13岁女生在样本总数中所占百分比?在男生中15岁的学生所占百分比?16岁学生中女生所占百分比?,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号