《二项分布的有关假设测验.PPT》由会员分享,可在线阅读,更多相关《二项分布的有关假设测验.PPT(46页珍藏版)》请在三一办公上搜索。
1、二项分布的有关假设测验,单个处理的随机化试验结果有时用百分率表示,如结实率、发芽率、杀虫率、病株率,以及杂交后代分离成不同类型的百分率等这些资料属间断性的计数资料,应按二项分布分析由于当np或nq(p=1-q)均大于5时,二项分布趋近于正态分布,因此,当np或nq均大于30时,可直接按正态分布处理;否则需进行连续性校正后,再按正态分布对待,例:一批果树种子的平均发芽率为0.75现随机取100粒,用福尔马林浸种,得发芽种子86粒,问福尔马林浸种对种子发芽有无效果(=0.05)?,因 np=100 0.75=75,nq=n(1p)=25 30,故需进行连续性校正:,故福尔马林浸种对促进种子发芽有显
2、著效果,例:某一养猪场第一年饲养225头猪,死亡23头;第二年饲养368头猪,死亡28头,试检验两年的死亡率有无显著差异,推断结果:两年的死亡率无显著差异,或者说第二年的死亡率与第一年相比没有明显的下降。,参数估计,,2的点估计量分别为:,点估计量的标准:无偏性、有效性、相合性,区间估计,参数点估计的缺点是:点估计是一个统计量,据不同样本估计的值一般是不一样的;其二是估计值的可信度很小给出一个具有较大可信度的范围,区间估计的定义:,则称此区间为的置信水平1-a的置信区间,1-a称为置信区间的置信度或真实水平,在置信水平1-a的前提下,置信区间越短越好,一个正态总体的参数估计,一个正态总体的参数
3、估计2,两个正态总体参数的区间估计,You can do it!,两个总体方差比的区间估计,利用F分布的性质:,区间估计总结见课本P57:表2-2-1,非参数假设测验卡平方(2)测验,分布的假设测验符合性测验独立性测验(列联表分析),分布的假设测验,婴儿出生时刻观察值,试检验:“出生时刻服从0到24小时内的均匀分布”是否正确?,H0:出生时刻服从0到24小时内的均匀分布;HA:出生时刻不服从0到24小时内的均匀分布,在H0之下,每小时出生概率均为:,理论出生数为,查附表得,故在水平0.05上否定H0,在水平0.01上接受H0,表1-2-4 120个黄瓜叶片中叶绿素a含量(/g鲜重)的频率分布表
4、,组数m=16,组距 c=R/m0.02史力得可氏经验公式=1+3.322 log n;组距以s/4为宜。,,,注:为了提高检验效果,还要求Pi5,否则应并组。,黄瓜叶片叶绿素a含量观察分布与理论正态分布的适合性检验,符合性测验,调查玉米受玉米螟为害情况,抽取100株,受害株22试检验H0:每次抽一株得到受害株的概率 P=0.2(=0.05),查附表得,故应接受H0,注:在次数资料的2检验中,当自由度为1时,样本2值要进行校正,例:孟德尔在其著名的豌豆杂交试验中,用结黄色圆形种子与结绿色皱形种子的纯种豌豆作为亲本进行杂交将F1代进行自交,得到F2代共556株豌豆,发现其中有四种类型植株:结黄色
5、圆形种子的315株,结黄色皱形种子的101株,结绿色圆形种子的108株,结绿色皱形种子的32株试问这些植株是否符合孟德尔所提出的 9:3:3:1的理论比例?(=0.05),,,,,,,查附表得,故在0.05水平上应接受H0,即试验结果是符合9:3:3:1的理论比例的,理论植株分别为,H0:试验结果符合9:3:3:1的理论比例;HA:试验结果不符合9:3:3:1的理论比例,独立性测验(2 x 2列联表分析),表2-3-3 结核类型与性别关系的观察结果,试检验假设H0:造成病牛死亡的结核类型与性别无关(=0.05),理论数计算:,故应否定H0,即死于各种类型结核的牛的公母比例是不同的,独立性测验(
6、r x c列联表分析),在假设H0:“纵行情况与横行情况无关”之下,皮尔逊2统计量为:,近似服从,水稻在不同灌溉方式下叶片的衰老情况,假设H0:稻叶衰老情况与灌溉方式无关,HA:稻叶衰老情况与灌溉方式有关,故应接受H0,即不同的灌溉方法对稻叶衰老情况没显著的影响,小结,SAS(Statistics Analysis System),SAS系统最早由美国北卡罗来纳州立大学的两位生物统计学研究生编制,并于1976年成立了SAS软件研究所,正式推出SAS软件。SAS现在的最新版本为9.1版,根据不同的安装方式,所占硬盘空间大约为1-2G。目前应用比较广泛的版本还有6.12版和8.2版。SAS是目前世
7、界排名第一的统计软件。SAS系统是一个组合软件系统,它由多个功能模块组合而成,其基本部分是BASE SAS模块。BASE SAS模块是SAS系统的核心,承担着主要的数据管理任务,并管理用户使用环境,进行用户语言的处理,调用其他SAS模块和产品。SAS系统具有灵活的功能扩展接口和强大的功能模块,在 BASE SAS的基础上,还可以增加如下不同的模块而增加不同的功能:SAS/STAT(统计分析模块)、SAS/GRAPH(绘图模块)、SAS/QC(质量控制模块)、SAS/ETS(经济计量学和时间序列分析模块)、SAS/OR(运筹学模块)、SAS/IML(交互式矩阵程序设计语言模块)、SAS/FSP(
8、快速数据处理的交互式菜单系统模块)、SAS/AF(交互式全屏幕软件应用系统模块)等。同时SAS公司为了与SPSS相对抗,与SAS的庞大的功能相对应推出JMP全菜单操作的个人及小企业应用统计软件。,如何学好SAS,-SAS语句多,涉及知识面广,资料翻译繁杂(随版本不同也有差异),不易理解。-应熟悉SAS操作环境,掌握一些重要概念,学会DATA步数据的输入、读入、修改、加工(数据管理),-学会使用几个PROC STEP 进行数据分析-学会使用帮助查询(help)原理、句法、分析举例),SAS启动时,默认会打开以下五个窗口:,增强型程序编辑器(Enhanced Editor)窗口日志(Log)窗口结
9、果输出(Output)窗口资源管理器(Explorer)窗口结果(Results)窗口,Data testdata;/*命名要建立的数据集*/Input x y;/*指定输入变量名*/Cards;/*数据块开始*/6.3 3.7/*直接输入数据*/4.2 2.6;/*数据结束*/Run;/*数据程序结束*/Proc print data=testdata;/*(2)过程步*/Run;,SAS数据的建立与编辑,关键字为蓝色,如果拼错,则变红色。,实例1:用rannor函数产生正态分布随机数DATA AA;RETAIN SEED 0;MU=O;SIGMA=1;DO I=1 TO 1000;NORM
10、AL=MU+SIGMA*RANNOR(SEED);OUTPUT;END;DROP SEED I MU SIGMA;RUN;,实例2:计算标准正态分布随机变量小于x的概率PROBNORM(X)程序如下:/*计算三个特殊的正态概率值*/data a;p1=probnorm(0);p2=probnorm(1.96);p3=probnorm(2.576);put p1=p2=p3=;run;结果显示:p1=0.5 p2=0.9750021049 p3=0.9950024677,实例3:T分布的概率值计算T分布概率值计算:prob(x,df,nc)计算自由度为df,非中心参数为nc的t分布随机变量小于x
11、的概率。举例:计算自由度为6的中心t分布绝对值大于2.8的概率。data a;p=1-probt(abs(-2.8),6)*2;put p=;run;运行结果显示p=-0.968836052,实例4:卡方分布的概率值计算/*计算自由度88,非中心参数为11的卡方分布小于31的概率值*/data a;p=1-probchi(33,88,11);put p=;run;运行结果显示:p=0.9999999996实例5:F分布的概率值计算PROCF(x,ndf,ddf,nc)计算自由度为(ndf,ddf)的F分布随机变量小于x的概率。自变量nc是非中心参数,默认时nc=0,即中心F分布。自由度可以是非
12、参数。举例:计算自由度为31和2,非中心参数为30的F分布小于3的概率。data a;p=probf(3,32,2,30);put p=;run;运行结果显示:p=0.529389383,实例6:二项分布的概率值计算PROBBNML(P,n,M)计算参数为p和n的二项分布随机变量x小于M的概率。举例:计算成功概率为0.6,试验次数为20次的二项分布成功次数等于8的概率。data a;p=probbnml(0.6,20,8)-probbnml(0.6,20,7);put p=;run;运行结果显示p=0.0354974396,实例7:泊松分布的概率值计算POISSON(入,n)计算泊松分布随机变
13、量小于等于n的概率。举例:计参数为0.88的泊松分布小于6的概率。data a;p=poisson(0.88,6);put p=;run;运行结果显示p=0.9999622708,SAS 描述性统计:MEANS、SUMMARY和UNIVARIATE三个过程的功能,MEANS举例Data h;Input name$sex$score;cards;zhang m 98 li f 95 wang m 90 liu f 89;run;Proc sort out=s_h;by descending sex score;run;Proc print data=s_h;run;Proc means data
14、=s_h;*class sex;var score;output out=s_m;run;proc print;run;,DATA aa;INPUT y;CARDS;177 215 197 97 123 159 194 227 141 169 124 159;PROC SUMMARY PRINT;VAR y;RUN;如果不用PRINT选项,也可按下面的办法进行。PROC SUMMARY;VAR y;OUTPUT OUT=stat MEAN=ymean STD=ystd CV=ycv;PROC PRINT DATA=stat;RUN;,UNIVARIATE过程应用-服从正态分布检验DATA tb
15、31;INPUT y;CARDS;18 15 17 19 16 L 18 17 17 16 19 17;PROC UNIVARIATE FREQ PLOT NORMAL;RUN;注意:UNIVARIATE过程中不能指定基本统计数(如N,MEAN,MODE,SKEWNESS,MEDIUM等),如果指定则程序将出错,这一点与MEANS和SUMMARY过程不同。,t-测验单组或两组资料均数的比较,1单样本平均数测验Data new;input x;y=x-34;cards;35.6 37.6 33.4 35.1 32.7 36.8 35.9 34.6;run;(1)利用means:proc mean
16、s data=new mean std stderr t prt alpha=0.05;var y;run;(2)利用ttest:proc ttest data=new H0=34;var x;run;,2 配对数据均数测验data nummber;input x1 x2;y=x1-x2;cards;10 25 13 12 8 14 3 15 5 12 20 27 6 18;run;proc means mean std stderr t prt;var y;run;proc ttest H0=0;paired x1*x2;run;,3 两组资料平均数比较:只能用ttest.应首先检查方差奇性
17、检验,然后决定采用测验结果data chanliang;do midu=x1,x2;do i=1 to 5;input y;output;end;end;cards;800 840 870 920 850 900 880 890 890 840;run;proc ttest;var y;class midu;run;,实例8:测得铅作业与非铅作业工人的血铅值,问两组工人的血铅值有无差别?铅作业 组:0.82 0.87 0.97 1.21 1.64 2.08 2.13 非铅作业组:0.24 0.24 0.29 0.33 0.44 0.58 0.63 0.72 0.87 1.01 解:程序如下:d
18、ata a.wt4_3;group=1;if _n_7 then group=2;input value;cards;0.82 0.87 0.97 1.21 1.64 2.08 2.130.24 0.24 0.29 0.33 0.44 0.58 0.630.72 0.87 1.01;proc gchart;/*分组做条图,观察数据的分布*/vbar value/group=group;proc npar1way data=a.wt4_3 WILCOXON;class group;var value;run;,SAS数据集建立的途径:,1.直接建立(editor)格式:DATA 表示一数据集的开
19、始,定义数据集名。选项(drop=/keep=/rename=)Input 给出变量表,类型,及读入方式Cards(或Datalines)表示数据块的开始,数据间用空格分开;数据块结束(必须另占一行)Run 表示数据步结束,2.选择工具条ToolsTable editor进入界面,定义变量,输入数据,3.已有SAS数据集的读入-SET语句的应用Data read_sasdat;set sasdat4_1;run;proc print data=read_sasdat;run,SAS数据集的保存-Libname语句的应用libname sav d:data_manage;/*逻辑名(sav)和
20、路径*/data sav.dat6/*真实的数据集名是 dat6*/;set sasdat4_1;run;或者:Data d:chinadat6_1;/*路径和数据集名*/set sasdat4_1;run;,永久数据集的建立(存盘)及引用建立:Libname tempF:jisuanji;Data temp.dat_1;Input x y;Cards;2 3 6 7;Run;引用:Libname tempF:jisuanji;proc print data=temp.dat_1;run;,利用外部(纯文本文件)已存在数据文件-Infile语句的应用Data name;Infile name(
21、已存在);可用keep,drop,if delete,rename 等语句加工Run;Data in_txt;Infile F:jisuanjidata_managewages.txt;Input name$sex$y z;Run;proc print data=in_txt;run;,外部数据文件与SAS数据集的转换,1.文本文件与SAS文件转换(以TAB间隔数据)1.1文本文件向SAS文件转换Proc import out=work.txt_imp/*定义新建数据集的类型和名称*/Datafile=”f:data_managetext.txt”/*指出原文件名存放位置,类型和名称*/Dbm
22、s=tab replace;/*指出被转换文本文件数据以tab 间隔*/Getnames=yes;/*是否显示源文件中列名称*/Datarow=2;/*指定数据从第二行开始*/Run;proc print data=txt_imp;run;1.2 SAS数据文件向文本文件转换(以TAB间隔数据)Proc export data=work.txt_imp/*定义被转换的数据SAS集名称*/outfile=”f:data_managetext_z.txt”/*指出输出文件名和存放位置*/Dbms=tab replace;/*指出文本文件数据以tab 间隔*/Run;,2 文本文件与SAS文件转换-
23、(以空格间隔数据)2.1文本文件向SAS文件转换Proc import out=work.txt_imp/*定义新建数据集的类型和名称*/Datafile=”f:data_managetext_kg.txt”/*指出原文件名存放位置,类型和名称*/Dbms=DIM replace;/*指出变量之间以空格 间隔*/delimiter=;/*指出被转换数据之间以空格间隔及数目*/Getnames=yes;/*是否显示源文件中列名称*/Datarow=2;/*指定数据从第二行开始*/Run;proc print data=txt_imp;run;-被输入的数据文件必须关闭-定义空格须与文件中实际空格
24、数一致-变量名需是英文字母-多数情况下可省去Getnames,Datarow=2;2.2 SAS文件文本文件向转换Proc export data=work.txt_imp/*定义被转换的数据SAS集名称*/outfile=”f:data_managetext_y.txt”/*指出输出文件名和存放位置*/Dbms=DIM replace;/*指出文本文件变量以空格 间隔*/delimiter=;/*指出被转换数据之间以空格 间隔 及空格数*/Run;,Excel文件向SAS数据集转换Proc import out=work.xls_imp/*定义新建数据集类型与名称*/Datafile=”f:data_managestudent.xls”/*指出原文件名,类型和存放位置*/Dbms=excel replace;/*指出被转换文件的格式*/Getnames=yes;/*是否显示源文件中列名称*/Run;proc print data=xls_imp;run;,作业,5,6,9;12,15,