《matlab数学实验七.ppt》由会员分享,可在线阅读,更多相关《matlab数学实验七.ppt(89页珍藏版)》请在三一办公上搜索。
1、1,实验七 MATLAB在概率统计中的应用,21实验目的,概率论与数理统计是研究随机现象统计规律性的学科,随着现代科学技术的迅猛发展,它的理论与方法已广泛地应用于许多科学技术领域。本实验的目的是学会用MATLAB软件求解一些随机性问题,特别是解决数理统计中的大量问题。,2.2实验内容,一、随机变量分布及数字特征,随机变量的分布主要有随机变量的概率密度函数与分布函数,所谓随机变量的数字特征是指能够描述随机变量某些特征的数量指标,随机变量常用的数字特征有均值(数学期望)、方差和矩等。,2,下面给出几个常用的概率分布,1、正态分布,若随机变量,的概率密度为,其中,和,为常数,且,,则称随机变量,参数
2、为,和,的正态分布,或高斯(Gauss)分布,,记为,服从,正态分布的分布函数为,3,当参数 时,称 服从标准正态分布,记为 其密度函数记为,分布函数记为,即有,正态分布是概率统计中最重要的一种分布,它的重要性不仅在于自然解中许多随机变量服从正态分布,而且它具有许多良好的性质。,4,2、二项分布,若随机变量,的分布律为,其中,则称,服从参数为,的二项分布,记为,3、泊松分布,若随机变量,的分布律为,其中,是常数,则称,服从参数为,的泊松分布,,记为,5,4、均匀分布,若随机变量,的概率密度为,则称,在区间,上服从均匀分布,记为,5、指数分布,若随机变量,的概率密度为,其中,是常数,则称,服从参
3、数为,的指数分布。,6,6、,分布,(n),若随机变量X1,X2,Xn相互独立,都服从标准,服从自由度为n的,分布,记为,7、t分布 t(n),若X,Y,且相互独立,则随机变量,服从自由度为n的t分布,记为Tt(n).,正态分布N(0,1),则随机变量,7,8、F分布 F(),若X,(n1),Y,(n2),且相互独立,则随机变量,服从自由度为(n1,n2)的F分布,记作,F F().,8,用MATLAB求随机变量分布及数字特征的常用函数。,9,下面给出如何利用MATLAB中的函数来计算两个常用分布的分布函数、概率密度函数值、均值、方差等,其它分布的计算方法基本相同。,(1)正态分布 X,1)概
4、率密度函数:,例1 画出正态分布,和,的概率密度函数图形.,在MATLAB中输入以下命令:,x=-6:0.01:6;,y=normpdf(x);,z=normpdf(x,0,2);,plot(x,y,x,z),结果见图7.1,10,2)概率分布函数:,例2计算标准正态分布的概率P-1X1.,输入命令为:,P=normcdf(1)-normcdf(-1),结果为:P=0.8413-0.1587=0.6826,3)分位数:,即求出x,使得PXx=p.,例3 取,,求,的含义是:,PX,=,时,P=0.975,norminv(0.975)=1.96,11,例4 公共汽车门的高度是按成年男子与车门顶碰
5、头的机会不超过1%设计的。设男子身高X(单位:cm)服从正态分布N(175,36),求车门的最低高度。,解:设h为车门高度,X为身高,求满足条件,的h,,即,所以命令:,h=norminv(0.99,175,6),h=188.9581,12,命令为:,m,v=normstat(3,5),结果为:m=3,v=25,如果命令为:,m,v=normstat(1:4,2:5),m=1 2 3 4v=4 9 16 25,结果为:,5)随机数生成:,.,产生mn阶的正态分布随机数矩阵.,例5 求正态分布N(3,)的均值与方差.,4)均值与方差:,13,例6 命令:M=normrnd(1,0.1,2,3),
6、结果为:,M=0.9904 1.0294 1.0714 0.9168 0.8664 1.1624,(2),1)概率密度函数:,例7 画出卡方分布,和,的概率密度函数图形.,在Matlab中输入以下命令:,x=0:0.01:20;,y=chi2pdf(x,2);,z=chi2pdf(x,10);,plot(x,y,x,z),结果见图7.2,分布,(n),x,14,2)概率分布函数:,例8,命令为:,P=chi2cdf(10,5)-chi2cdf(3,5),结果为:P=0.9248-0.3000=0.6248,3)分位数:,即求出x,使得,.,例9 取,.,的含义是:,即有,时,n=10,=chi
7、2inv(0.95,10)=18.3070,设X,15,4)均值与方差:,例10 求卡方分布,的均值与方差.,命令为:,m,v=chi2stat(6),结果为:m=6,v=12,如果命令为:,m,v=chi2stat(1:5),结果为:,m=1 2 3 4 5v=2 4 6 8 10,16,5)随机数生成:,.产生ms阶的卡方分布随机数矩阵.,例11 命令:M=chi2rnd(7,2,3),结果为:,M=17.9138 6.3660 12.8508 1.0171 4.8249 8.8440,17,二、数据特征,一个简单随机样本,在n次,抽样以后得到样本的一组观察值,样本是总体的代表及反映,但在
8、抽取样本后,并不直接利用样本的n个观察值进行推断,而需要对这些值进行提炼和加工,把样本所包含的我们所关心的事物的信息集中起来,这便是针对不同问题构造样本的某种函数,这种样本函数称为统计量。,对容量为,的样本,其常用的统计量如下:,平均值:(或均值,数学期望):,。,18,中位数:,将数据由小到大排序后位于中间位置的那个数值.,标准差:,它是各个数据与均值偏离程度的度量.,方差:,标准差的平方.,极差:,样本中最大值与最小值之差.,几何平均:,19,调和平均:,20,常用的数据特征MATLAB命令如下表7.2:,21,例12 已知数据:459 362 624 542 509 584 433 74
9、8 815 505 612 452 434 982 640 742 565 706 593 680 926 653 164 487 734 608 428 1153 593 844 527 552 513 781 474 388 824 538 862 659 775 859 755 649 697 515 628 954 771 609 402 960 885 610 292 837 473 677 358 638 699 634 555 570 84 416 609 1062 484 120 447 654 564 339 280 246 687 539 790 581 621 724 5
10、31 577 496 468 499 544 645 764 558 378 765 666 763 217 715 310 851 计算其数据特征。,22,解:输入命令,a=459 362 624 542 509 584 433 748 815 505 612 452 434 982 640 742 565 706 593 680 926 653 164 487 734 608 428 1153 593 844 527 552 513 781 474 388 824 538 862 659 775 859 755 649 697 515 628 954 771 609 402 960 885
11、 610 292 837 473 677 358 638 699 634 555 570 84 416 609 1062 484 120 447 654 564 339 280 246 687 539 790 581 621 724 531 577 496 468 499 544 645 764 558 378 765 666 763 217 715 310 851;,y1=mean(a),结果:y1=600.9192,y2=median(a),结果:y2=608,y3=geomean(a),结果:y3=560.2135,算术平均,中位数,几何平均,23,y4=harmmean(a),结果:y
12、4=498.9577,y5=range(a),结果:y5=1069,调和平均,极差,方差,y6=var(a),结果:y6=3.8978e+004,标准差,y7=std(a),结果:y7=197.4288,平均绝对偏差,y8=mad(a),结果:y8=151.5160,24,三、直方图与概率纸检验函数,为了直观地了解随机变量的分布特征,如对称性,峰值等,频数直方图是广泛使用的方法。,直方图是将样本的观察值数据按顺序分成若干间隔相等的组,以组距为底边,以落入各组的数据频数为依据,按比例构成的若干矩形条排列的图形。,若,是取自总体X的一组样本值,把样本,值 进行分组,先将它们依大小次序排列,得,25
13、,在包含,的区间a,b内插入一些等分点:,注意要使每一个区间,(i=1,2,k-1)内,都有样本观测值xi(i=1,2,n-1)落入其中.,统计出样本观测值在每个区间,中出现的次数,,它就是这区间或这组的频数,计算频率.,在直角坐标系的横轴上,标出,各点,,为底边,作高为,(或,)的矩形,,即得频数(或频率)直方图.,分别以,26,直方图能够直观地表述数据的整体分布情况,它能够显示各组频数的分布情况,并且易于显示各组间的频数的差别。,(1)绘制直方图格式:hist(data,k).,附加有正态密度曲线的直方图格式 histfit(data,k).,说明:data 是原始数据,该命令将区间(mi
14、n(data),max(data)分成k等份,并且绘出频数直方图,k 的缺省值为10。,(2)概率纸检验函数格式(仅给两种):,1)normplot(data):如果数据data 服从正态分布,则作出的图基本上都位于一条直线上。,2)weibplot(data):如果数据data 服从威布尔分布,则作出的图基本上都位于一条直线上。,27,例3 为了研究400m赛跑后学生心率变化情况,体育老师统计了全班45名同学在赛跑后分钟内的脉搏次数,结果如下:,按组距为绘制频数分布直方图。,解:由给定数据可知,最小数据为132,最大数据为168,按组距为5,可取区间130,170分为8等分,输入命令如下:,
15、28,a=132 136 138 141 143 144 144 146 146 147 148 149 149 151 151 152 153 153 154 154 154 156 156 157 157 157 158 158 158 159 159 159 161 161 162 162 163 163 164 164 164 164 166 168;,hist(a,8),可得频数直方图如图7-3所示.,29,histfit(a,8),可得附加有正态密度曲线的频数直方图如图7-4所示.,30,例14 作出例12中数据的直方图,该数据服从正态分布还是威布尔分布?,输入命令hist(a,3
16、0),可得图7.3,a=459 362 624 542 509 584 433 748 815 505 612 452 434 982 640 742 565 706 593 680 926 653 164 487 734 608 428 1153 593 844 527 552 513 781 474 388 824 538 862 659 775 859 755 649 697 515 628 954 771 609 402 960 885 610 292 837 473 677 358 638 699 634 555 570 84 416 609 1062 484 120 447 654
17、 564 339 280 246 687 539 790 581 621 724 531 577 496 468 499 544 645 764 558 378 765 666 763 217 715 310 851;,31,从图7.3可看出数据比较接近正态分布,如何检验这一猜测,我们利用MATLAB命令normplot(a)进行检验。,从图7.4中可见数据点基本上都位于直线上,故可认为数据服从正态分布。由例12已经计算出该数据的均值为600.9192,标准差为197.4288,所以数据服从,。,32,四、参数估计,参数估计是数理统计中的一个基本概念,它是指用样本对总体分布中的未知参数作出估计
18、,这种估计我们常见的有点估计和区间估计两种。,1、极大似然法的思想是:,若抽样的结果得到样本观测值x1,x2,xn,则我们,的值,使这组样本观测值出现的,应当这样选取参数,可能性最大.,构造似然函数:,33,使,达到最大,从而得到参数,的估计值,此估计值叫极大似然估计值.,称为似然函数.,函数,求极大似然估计值的问题,就是求似然函数,的最大值的问题,,则由,即,求出参数,的估计值,34,2、区间估计的思想:,设总体X的分布中含有未知参数,若对于给定的概率,存在两个统计量,X1,X2,Xn)和,X1,X2,Xn),使得,为参数,的置信水平为,的置信区间.,称为置信下限;,称为置信上限.,则随机,
19、区间(,区间估计常见的有正态总体均值与方差的区间估计。,35,设已给定置信水平,并设,为总体,的样本,和,和样本方差.,分别是样本均值,(1),已知,均值,的置信区间,由于,因此,对给定的,由标准正态分布的上,分位点的定义,有,即,36,所以,的一个置信水平为,的置信区间为,这样的置信区间通常也写成,(2),未知,均值,的置信区间,当,未知时,由于,由,分布的上,分位点的定义,有,37,即,所以,的一个置信水平为,的置信区间为,(3)方差,的置信区间,从理论上讲,对总体方差,作区间估计,也应分成,已知和,未知两种情况.此处只讨论,未知的情况.,由于,由,分布的上,分位点的,定义,有,38,所以
20、,的置信水平为,的置信区间为,的置信水平为,的置信区间为,39,3、MATLAB软件提供的一些常见分布的参数估计函数命令。,(1)正态分布数据的参数估计函数,muhat,sigmahat,muci,sigmaci=normfit(x,alpha),此命令表示在显著性水平alpha下估计数据X的参数(alpha缺省时设定为0.05),返回值muhat是X的均值的点估计值,sigmahat是标准差的点估计值,,muci是均值的区间估计,sigmaci是标准差的区间估计。,40,(2)指数分布数据的参数估计函数,muhat,muci=expfit(X,alpha),此命令表示在显著性水平alpha下
21、,求指数分布的数据X的均值的点估计值muhat及其区间估计值muci.,(3)泊松分布数据的参数估计函数,lambdahat,lambdaci=poissfit(X,alpha),此命令表示在显著性水平alpha下,求泊松分布的数据X 的参数的极大似然估计值muhat及其置信区间muci.,(4)Weibull分布数据的参数估计函数,phat,pci=weibfit(X,alpha),此命令表示在显著性水平alpha下,求Weibull分布的数据X 的参数的点估计值phat及其区间估计值pci.,41,(5)均匀分布数据的参数估计函数,ahat,bhat,aci,bci=unifit(x,al
22、pha),此命令表示在显著性水平alpha下估计数据X的参数(alpha缺省时设定为0.05),返回值ahat是X的参数a的极大似然估计值,bhat是X的参数b的极大似然估计值,,aci是参数a的置信区间,bci是参数b的置信区间。,(6)二项分布数据的参数估计函数,phat,pci=binofit(X,n,alpha),此命令表示在显著性水平alpha下,求二项分布的数据X 的参数的极大似然估计值phat及其置信区间pci.,(7)分布数据的参数估计函数,phat,pci=betafit(X,alpha),此命令表示在显著性水平alpha下,求分布的数据X 的参数的极大似然估计值phat及其
23、置信区间pci.,42,说明:以上命令中alpha缺省时设定为0.05;样本数据如果是以矩阵形式给出,则按每列数据分别给出参数估计。,例15 分别随机产生50、500和5000个分布数据,相应的分布参数真值为4和3。分别求出参数4和3的最大似然估计值和置信度为99%的置信区间。,解,分布函数为,其中,先用命令betarnd生成50个分布的随机数,,x=betarnd(4,3,1,50),43,x=0.4000 0.7035 0.4543 0.5349 0.4157 0.4263 0.5844 0.3610 0.7694 0.8602 0.7495 0.4248 0.7065 0.7527 0.
24、3133 0.6375 0.3220 0.5204 0.8064 0.4764 0.5058 0.6150 0.6958 0.34290.6011 0.7345 0.3654 0.4775 0.6416 0.5163 0.3777 0.4200 0.6083 0.8478 0.3248 0.66410.2957 0.6422 0.5341 0.7043 0.5058 0.9168 0.7545 0.7168 0.4546 0.6105 0.3664 0.51090.7234 0.5026,phat,pci=betafit(x,0.01)%求置信度为99%的置信区间和参数a、b的估计值,结果显示
25、,44,估计值4.7632的置信区间是3.2117 6.3147,,phat=4.7632 3.5199,pci=3.2117 2.2797 6.3147 4.7601,估计值3.5199的置信区间是2.2797 4.7601。,若用命令betarnd生成500个分布的随机数,x=betarnd(4,3,1,500);%不显示数据,phat,pci=betafit(x,0.01),结果显示,45,phat=4.1209 2.9496,pci=3.4283 2.4630 4.8136 3.4361,估计值4.1209的置信区间是3.4283 4.8136,,估计值2.9496的置信区间是2.46
26、30 3.4361。,若用命令betarnd生成5000个分布的随机数,x=betarnd(4,3,1,5000);%不显示数据,phat,pci=betafit(x,0.01),结果显示,46,phat=4.0057 3.0140,pci=3.8043 2.8659 4.2071 3.1622,估计值4.0057的置信区间是3.8043 4.2071,,估计值3.0140的置信区间是2.8659 3.1622。,由此可知,数据越多,结果越好。,47,例16 用产生正态分布随机数命令生成一组正态分布样本,用normfit函数给出该正态分布的参数估计。,解:先用命令normrnd生成一组正态分布
27、样本,xx=normrnd(4,2,60,1)%生成一组=4,=2的正态随机样本,执行结果:,48,xx=3.1349 0.6688 4.2507 4.5754 1.7071 6.3818 6.3783 3.9247 4.6546 4.3493 3.6266 5.4516 2.8234 8.3664 3.7272 4.2279 6.1335 4.1186 3.8087 2.3353 4.5888 1.3276 5.4286 7.2471 2.6164 5.7160 6.5080 0.8125 1.1181 5.1423 3.2002 5.3800 5.6312 5.4238 6.5805 5.
28、3372 6.3817 1.5951 3.9604 3.6866 0.7918 4.5146 1.8871 6.8303 2.3898 5.0575 4.4386 2.1562-0.3413 3.8816 1.9787 5.2289 5.0155 7.3849 5.1826 2.7128 4.7607 1.9818 3.9610 3.9036,若取=0.05,执行命令,muhat,sigmahat,muci,sigmaci=normfit(xx,0.05),执行结果:,muhat=4.1007,49,sigmahat=1.8965,muci=3.6108 4.5906,sigmaci=1.60
29、75 2.3130,这里给出和的估计值分别为muhat=4.1007和 sigmahat=1.8965,和的置信度为95%的置信2区间分别为3.6108,4.5906和1.6075,2.3130。,若取=0.01,执行命令,muhat,sigmahat,muci,sigmaci=normfit(xx,0.01),执行结果:,muhat=4.1007,50,sigmahat=1.8965,muci=3.4490 4.7524,sigmaci=1.5294 2.4704,这里给出和的估计值分别为muhat=4.1007和 sigmahat=1.8965,和的置信度为99%的置信区间分别为3.449
30、0,4.7524 和1.5294,2.4704。,若取=0.005,执行命令,muhat,sigmahat,muci,sigmaci=normfit(xx,0.005),执行结果:,muhat=4.1007,sigmahat=1.8965,51,muci=3.3867 4.8148,sigmaci=1.5018 2.5339,这里给出和的估计值仍分别为muhat=4.1007和 sigmahat=1.8965,和的置信度为99.5%的置信区间分别为3.3867,4.8148 和1.5018,2.5339。,从上面执行的结果我们可以看出,要求的置信度越高,给出的置信区间就越宽(区间长度加大),但
31、都包含了真实的参数值。,52,例17 分别使用金球和铂球测定引力常数(1)用金球测定观察值为:6.683 6.681 6.676 6.678 6.679 6.672;(2)用铂球测定观察值为:6.661 6.661 6.667 6.667 6.664;设测定值总体为,对(1)、(2)两种情况分别求和的置信度为0.9的,,和为未知。,置信区间。,解:建立M文件:LX0833.m,X=6.683 6.681 6.676 6.678 6.679 6.672;,Y=6.661 6.661 6.667 6.667 6.664;,mu,sigma,muci,sigmaci=normfit(X,0.1),%
32、金球测定的估计,53,muhat,sigmahat,muci,sigmaci=normfit(Y,0.1),%铂球测定的估计,运行后结果显示如下:,sigmaci=0.0019 0.0071,mu=6.6782,sigma=0.0039,muci=6.6750 6.6813,sigmaci=0.0026 0.0081,muhat=6.6640,sigmahat=0.0030,muci=6.6611 6.6669,由上可知,,金球测定的估计值为6.6782,置信区间为6.6750,6.6813;,的估计值为0.0039,置信区间为0.0026,0.0081。,泊球测定的估计值为6.6640,置信
33、区间为6.6611,6.6669;,的估计值为0.0030,置信区间为0.0019,0.0071。,54,五、假设检验,假设检验就是对总体X的分布律或分布参数作某种假设,根据抽取的样本观察值,运用数理统计的分析方法,检验这种假设是否正确,从而决定接受假设或拒绝假设.,如果观测的分布函数类型已知,这时构造出的统计量依赖于总体的分布函数,这种检验称为参数检验.参数检验的目的往往是对总体的参数及其有关性质作出明确的判断.,如果所检验的假设并非是对某个参数作出明确的判断,因而必须要求构造出的检验统计量的分布函数不依赖于观测值的分布函数类型,这种检验叫非参数检验.如要求判断总体分布类型的检验就是非参数检
34、验.,55,假设检验的一般步骤是:,1、根据实际问题提出原假设H0与备择假设H1,即说明需要检验的假设的具体内容;,2、选择适当的统计量,并在原假设H0成立的条件下确定该统计量的分布;,3、按问题的具体要求,选取适当的显著性水平,并根据统计量的分布查表,确定对应于,的临界值.,取0.05,0.01或0.10。,一般,4、根据样本观测值计算统计量的观测值,并与临界,条件下对拒绝或接受原,值进行比较,从而在检验水平,假设H0作出判断.,56,设取出一容量为n的样本,得到均值,和标准差s,,是否等于某给定值,进行检验.,现要对总体均值,记,;,称H0为原假设,H1为备择假设,两者择其一:接受H0;拒
35、绝H0。,下面仅给出几个正态总体的参数检验公式,设正态总体,是,的样本,是否已知,关于均值,的假设检验分为,根据总体方差,两种情况.,57,1、,已知,关于,的假设检验(,检验),检验假设,其中,是已知常数.这种形式的假设检验称为双边,假设检验.,选取检验统计量,当原假设,成立时,于是,对于给定的显著性水平,有,58,所以拒绝域为,在实际问题中,有时我们只关心总体均值是否增大或减小.例如,生产过程中新工艺的采用是否提高产品的质量.,此时,需要检验假设,其中,为已知常数,此时的假设进行的检验称为右边,检验。,59,如果我们关心的是总体均值是否减少,则需要检验假设,此时的假设进行的检验称为左边检验
36、.,左边检验和右边检验统称为单边检验.,对于假设,由于,是,的无偏估计,因此当,为真时,统计量,的值不应太大,而当,偏大时,应拒绝,拒绝域的形式为,所以,待定.,60,为了确定,事先给定显著性水平,使得在,为真时,满足条件,又因为当,成立时,且,所以由,得,从而拒绝域为,61,类似地,可以讨论左边检验问题,其检验统计量仍取为,拒绝域为,62,2、,未知,关于,的假设检验(,检验),当,未知时,检验假设,其中,是已知常数.,由于,未知,因此不能取,作为检验统计量.,注意到,是,的无偏估计量,因而选取检验统计量,当原假设,成立时,于是对于给定的显著性水平,有,63,所以拒绝域为,类似地,可以对单边
37、检验问题进行讨论,右边检验,的拒绝域为,左边检验,的拒绝域为,64,3、.关于,的假设检验(,检验),4、两个正态总体均值差的假设检验,5、两个正态总体方差的假设检验(,检验),(见讲义),65,下面是MATLAB软件提供的一些常见分布的假设检验函数命令。,在总体服从正态分布的情况下,可用以下命令进行假设检验.,1、总体方差sigma2已知时,总体均值检验使用 z-检验,z检验是在方差已知的情况下检验数据是否服从给定均值的正态分布。其调用格式为:,h,sig,ci=ztest(x,m,sigma,alpha,tail),66,tail=0,检验假设“x 的均值等于 m”tail=1,检验假设“
38、x 的均值大于 m”tail=-1,检验假设“x 的均值小于 m”tail的缺省值为 0,alpha的缺省值为 0.05.,返回值 h 为一个布尔值,h=1 表示可以拒绝假设,h=0 表示不可以拒绝假设,sig 为假设成立的概率,ci 为均值的 1-alpha 置信区间.,检验数据 x 的关于均值的某一假设是否成立,其中sigma 为已知方差,alpha 为显著性水平,究竟检验什么假设取决于 tail 的取值:,h,sig,ci=ztest(x,m,sigma,alpha,tail),67,例18 某车间用一台包装机包装葡萄糖,包得的袋装糖重是一个随机变量,它服从正态分布。当机器正常时,其均值
39、为0.5公斤,标准差为0.015。某日开工后检验包装机是否正常,随机地抽取所包装的糖9袋,称得净重为(公斤)0.497,0.506,0.518,0.524,0.498,0.511,0.52,0.515,0.512问机器是否正常?,解:,总体和已知,该问题是当,为已知时,在,下,根据样本值判断=0.5还是,水平,为此提出假设:,原假设:,备择假设:,68,X=0.497,0.506,0.518,0.524,0.498,0.511,0.52,0.515,0.512;,h,sig,ci,zval=ztest(X,0.5,0.015,0.05,0),结果显示为,h=1,sig=0.0248%样本观察值
40、的概率,ci=0.5014 0.5210%置信区间,均值0.5在此区间之外.,zval=2.2444%统计量的值,结果表明:,h=1,说明在水平,下,可拒绝原假设,,即认为包装机工作不正常。,69,例19 下面列出的是某工厂随机选取的20只部件的装配时间(分):99.8 10.4 10.6 9.6 9.7 9.9 10.9 11.1 9.6 10.2 10.3 9.6 9.9 11.2 10.6 9.8 10.5 10.1 10.5 9.7 设装配时间的总体服从正态分布,标准差为0.4,是否可以认为装配时间的均值在0.05的水平上显著地大于10。,解:作假设:m=10.,x=9.8 10.4
41、10.6 9.6 9.7 9.9 10.9 11.1 9.6 10.2 10.3 9.6 9.9 11.2 10.6 9.8 10.5 10.1 10.5 9.7;,h,sig,ci=ztest(x,10,0.4,0.05,1),返回:,h=1,sig=0.0127,70,ci=10.0529 Inf,检验结果:,布尔变量h=1,表示拒绝零假设.说明不可以认为装配时间的均值在0.05的水平上显著地大于10。,2、总体方差sigma2未知时,总体均值检验使用t-检验,h,sig,ci=ttest(x,m,alpha,tail),检验数据 x 的关于均值的某一假设是否成立,其中alpha 为显著性
42、水平,究竟检验什么假设取决于 tail 的取值:,tail=0,检验假设“x 的均值等于 m”tail=1,检验假设“x 的均值大于 m”tail=-1,检验假设“x 的均值小于 m”tail的缺省值为 0,alpha的缺省值为 0.05.,返回值 h 为一个布尔值,h=1 表示可以拒绝假设,h=0 表示不可以拒绝假设,sig 为假设成立的概率,ci 为均值的 1-alpha 置信区间.,71,例20 某种电子元件的寿命X(以小时计)服从,问是否有理由认为元件的平均寿命大于225(小时)?,正态分布,,均未知。现测得16只元件的寿命如下,159 280 101 212 224 379 179
43、264 222 362 168 250 149 260 485 170,解:,未知,,在水平,下检验假设:,:,:,X=159 280 101 212 224 379 179 264 222 362 168 250 149 260 485 170;,h,sig,ci=ttest(X,225,0.05,1),结果显示为:,72,H=0表示在水平,下应该接受原假设,即认为元件的平均寿命不大于225小时。,h=0,sig=0.2570,ci=198.2321 Inf%均值225在该置信区间内,结果表明:,73,例21 测得一批钢件的20个样品的屈服点(单位:T/mm2)为:4.98 5.11 5.2
44、0 5.11 5.00 5.61 4.88 5.27 5.38 5.20 5.46 5.27 5.23 4.96 5.35 5.15 5.35 4.77 5.33 5.54并假设屈服点服从正态分布。已知总体均值为5.20,问是否可以认为该样本的均值在0.05的水平上等于5.20。,解 作假设:m=5.20,,x=4.98 5.11 5.20 5.11 5.00 5.61 4.88 5.27 5.38 5.20 5.46 5.27 5.23 4.96 5.35 5.15 5.35 4.77 5.33 5.54;,h,sig,ci=ttest(x,5.20,0.05,0),返回:,74,h=0,s
45、ig=0.8796,ci=,检验结果:,1).布尔变量h=0,表示接受零假设.可以认为该样本的均值在0.05的水平上等于5.20。,2).95%的置信区间为5.1052,5.3098,它包括5.20,能接受假设.,3).sig-值为0.8796,远大于0.5,接受零假设.,75,3、两总体均值的假设检验使用 t-检验,h,sig,ci=ttest2(x,y,alpha,tail),检验数据 x,y 的关于均值的某一假设是否成立,其中alpha 为显著性水平,究竟检验什么假设取决于 tail 的取值:,tail=0,检验假设“x 的均值等于 y 的均值”tail=1,检验假设“x 的均值大于 y
46、 的均值”tail=-1,检验假设“x 的均值小于 y 的均值”tail的缺省值为 0,alpha的缺省值为 0.05.,返回值 h 为一个布尔值,h=1 表示可以拒绝假设,h=0 表示不可以拒绝假设,sig 为假设成立的概率,ci 为与x与y均值差的的 1-alpha 置信区间.,76,例22 在平炉上进行一项试验以确定改变操作方法的建议是否会增加钢的产率,试验是在同一只平炉上进行的。每炼一炉钢时除操作方法外,其他条件都尽可能做到相同。先用标准方法炼一炉,然后用建议的新方法炼一炉,以后交替进行,各炼10炉,其产率分别为(1)标准方法:78.1 72.4 76.2 74.3 77.4 78.4
47、 76.0 75.5 76.7 77.3(2)新方法:79.1 81.0 77.3 79.1 80.0 79.1 79.1 77.3 80.2 82.1 设这两样本相互独立,且分别来自正态总体,和,能否提高产率?(取=0.05),均未知。问建议的新操作方法,77,解:,两个总体方差不变时,在水平,下检验假设:,:,:,X=78.1 72.4 76.2 74.3 77.4 78.4 76.0 75.5 76.7 77.3;,Y=79.1 81.0 77.3 79.1 80.0 79.1 79.1 77.3 80.2 82.1;,h,sig,ci=ttest2(X,Y,0.05,-1),结果显示为
48、:,h=1,sig=2.1759e-004%说明两个总体均值相等的,概率很小,ci=-Inf-1.9083,结果表明:H=1表示在水平,原假设,即认为建议的新操作方法提高了产率,因此,,下,应该拒绝,比原方法好。,78,例23 有两种不同的水稻品种A,B分别统计了8个地区的单位面积产量(单位:kg)。品种A 86 87 56 93 84 93 75 79 品种B 80 79 58 91 77 82 76 66要求检验两个水稻品种的单位面积产量之间在0.05的水平上是否有显著差异。,解 用以下命令检验,x=86 87 56 93 84 93 75 79;,y=80 79 58 91 77 82
49、76 66;,h,sig,ci=ttest2(x,y,0.05),返回:,h=0,sig=0.3393,79,ci=-6.4236 17.4236,检验结果:,布尔变量h=0,表示不能拒绝零假设.认为两个水稻品种的单位面积产量之间没有显著差异.,80,4、两个总体一致性的检验秩和检验,函数 ranksum,格式 p=ranksum(x,y,alpha),x、y为两个总体的样本,可以不等长,alpha为显著性水平,h为检验结果,h=0表示X与Y的总体差别不显著h=1表示X与Y的总体差别显著,p,h=ranksum(x,y,alpha),stats中包括:ranksum为秩和统计量的值以及zval
50、为过去计算p的正态统计量的值,p,h,stats=ranksum(x,y,alpha),说明:P为两个总体样本X和Y为一致的显著性概率,若P接近于0,则不一致较明显。,81,例24 某商店为了确定向公司A或公司B购买某种商品,将A和B公司以往的各次进货的次品率进行比较,数据如下所示,设两样本独立。问两公司的商品的质量有无显著差异。设两公司的商品的次品的密度最多只差一个平移,取=0.05。A:7.0 3.5 9.6 8.1 6.2 5.1 10.4 4.0 2.0 10.5B:5.7 3.2 4.1 11.0 9.7 6.9 3.6 4.8 5.6 8.4 10.1 5.5 12.3,解:,设,