《实验九数据的统计与分析.ppt》由会员分享,可在线阅读,更多相关《实验九数据的统计与分析.ppt(37页珍藏版)》请在三一办公上搜索。
1、1,实验九 数据的统计与分析,一、统计作图,二、参数估计,三、假设检验,四、回归分析,2,1、频率直方图,将数据的取值范围等分为若干个小区间,以每个小区间为底,以落在这个区间内数据的个数(频数)为高作小矩形,这若干个小矩形组成的图形称为频率直方图。,用MATLAB软件作直方图,首先将数据按行或列写入一个数据文件备用,然后用hist函数作出图形。,一、统计作图,在实际问题中,要求某一随机变量的概率分布,往往建立在试验的基础上,即根据随机变量的部分观测值用频率或频数直方图、样本分布函数图,分别近似代替概率密度图和分布函数图。,3,4,例1 某厂一流水线生产大批220伏,25瓦的白炽灯泡,其光通量(
2、单位:流明)用X表示,X即是总体。现在从总体X中抽取容量n=120为的样本(由于个体数量很大,可用不放回抽样),进行一次观测得光通量的120个数据,它们就是容量为n=120的样本观测值,数据列于下表:,216 203 197 208 206 209 206 208 202 203 206 213 218 207 208 202 194 203 213 211 193 213 208 208 204 206 204 206 208 209 213 203 206 207 196 201 208 207 213 208 210 208 211 211 214 220 211 203 216 224
3、 211 209 218 214 219 211 208 221 211 218 218 190 219 211 208 199 214 207 207 214 206 217 214 201 212 213 211 212 216 206 210 216 204 221 208 209 214 214 199 204 211 201 216 211 209 208 209 202 211 207 202 205 206 216 206 213 206 207 200 198 200 202 203 208 216 206 222 213 209 219,根据表中的数据作出总体X的频数直方图,
4、样本分布函数图。,5,(1)频数直方图,A=216 203 197 208 206 209 206 208 202 203 206 213 218 207 208 202 194 203 213 211 193 213 208 208 204 206 204 206 208 209 213 203 206 207 196 201 208 207 213 208 210 208 211 211 214 220 211 203 216 224 211 209 218 214 219 211 208 221 211 218 218 190 219 211 208 199 214 207 207 21
5、4 206 217 214 201 212 213 211 212 216 206 210 216 204 221 208 209 214 214 199 204 211 201 216 211 209 208 209 202 211 207 202 205 206 216 206 213 206 207 200 198 200 202 203 208 216 206 222 213 209 219,在命令窗口中输入:,6,figure(1),hist(A,12),figure(1),hist(A,20),figure(1),hist(A,10),7,由上面三个图形可见,k的大小要根据数据的取
6、值范围而定。,为了更清楚地反映出总体X的特性,通常每个小区间至少包含24个数据。,另外,把频数直方图的纵坐标上的频数换为相应小区间上的频率,频数直方图即为频率直方图。,(2)样本分布函数图,编写程序把数据按大小排列起来,for i=1:119for j=120:-1:i+1if A(j)A(j-1)y=A(j);A(j)=A(j-1);A(j-1)=y;endendend,disp A,8,作频数累积图,x=linspace(189.5,224.5,30),%在189.5与224.5之间等间隔地产生30个点y=1 2 3 4 5 6 8 10 13 18 24 28 29 41 48 62 6
7、9 71 83 85 93 100 107 108 112 115 116 118 119 120;plot(x,y),9,作样本分布函数图,c=y/120;x=linspace(189.5,224.5,30);plot(x,c),由频数累积图和样本分布图可见,它们的形状是完全相同的,只要把频数累积图纵坐标上的频数换为相应的累积频率,就得到了样本分布函数图。,10,数理统计中常用的统计量有:,2、统计量,(1)样本均值和中值,(2)样本方差样本标准差和极差,样本方差,样本标准差,极差,11,常用的函数,在例1中,A的均值中位数极差方差标准差分别为:,M=mean(A)median(A)rang
8、e(A)var(A)std(A)M=208.8167 208.0000 34.0000 39.9829 6.3232,12,3、几个重要概率分布,正态分布 分布t分布F分布是经常用到的四种分布。,13,x=-5:0.01:5;p1=normpdf(x,0,0.8);p2=normpdf(x,0,1);p3=normpdf(x,-1,1);p4=normpdf(x,1,1.6);figure(1),plot(x,p1,x,p2,x,p3,x,p4),概率密度图,例2 在同一张图上作出正态分布 的概率密度图。,14,比较概率密度图中这四条曲线,观察参数mu,参数sigma的意义是什么?,mu表示数
9、据的分布中心,sigma表示数据对于mu的离散程度。,15,(2)进行n次重复独立的掷硬币实验,分别用,表示这n次试验的结果,求它们的均值及方差。,例3 通过计算机模拟掷硬币实验。用1代替徽花向上,0代替,徽花向下,n表示试验次数。,(1)随着试验次数的增加,观察徽花向上的一面频率的变化情况。,得到的结果称为这次试验的结果。做N次这样的试验,将,的分布函数的变化情况并与标准正态分布函数相比较。,16,n=1000,p=0.5090;n=10000,p=0.5007,解:,(1)n=100,x=rand(1,100);y=fix(2*x);p=0;for i=1:100;p=p+y(1,i);e
10、nd,disp(p/100)0.5700,通过模拟试验可见,随着试验次数的增大,徽花向上的频率逐渐逼近它的概率0.5,从直观上验证了频率的稳定性。,%fix(A)对A中的元素进行朝零方向取整。,%rand(1,100)产生(0,1)之间的均匀分布列。,在命令窗口输入:,把上述程序中的n换为1000,10000,可得,17,(2)取n=10000,x=rand(1,10000);y=fix(2*x);a=mean(y)var(y)a=0.5007 0.2500,x=zeros(1,500);y=fix(2*rand(500,2500);for i=1:500 for j=1:2500;x(1,i
11、)=x(1,i)+y(i,j);end x(1,i)=(2*(x(1,i)-1250)/50;end,disp(x),18,disp(x),取适当的数d,对任意实数x(最好不超出样本观测值的最大,密度与标准正态分布的概率密度图。,for i=1:499;for j=500:-1:i+1;if x(1,j)x(1,j-1);t=x(1,j);x(1,j)=x(1,j-1);x(1,j-1)=t;end endend,19,x=-3:0.3:3;y1=1 6 13 32 48 79 117 147 183 211 222 204 199 146 97 72 35 23 10 8 4/500;y2=
12、normpdf(x);plot(x,y1,x,y2),n=2500,N=1000,的概率密度图,20,变量的个数n由2500增大至10000时,态分布的概率密度函数。这一事实,从直观上验证了中心极限定理。而,程度会更好。,与标准正态分布的概率密度函数逼近,的概率密度函数逐渐逼近标准正,21,二、参数估计,参数估计问题分为两类:一类是用某一函数值作为总体未知参数的估计值,即点估计。点估计又分为矩估计和极大似然估计。另一类是区间估计,就是对于未知参数给出一个范围,并且在一定的可靠度下使这个范围包含未知参数的真值。,MATLAB统计工具箱中,给出了计算总体均值、标准差和区间估计的函数。,22,23,
13、例4 从一批零件中,抽取9个零件,测得直径(mm)为 19.7 20.1 19.8 19.9 20.2 20.0 19.9 20.2 20.3设零件直径服从正态分布,求这批零件的直径的均值,方差 的最大似然估计值,及置信水平为0.95和0.99的置信区间。,解:当置信水平为0.95时,在命令窗口输入:,x=19.7 20.1 19.8 19.9 20.2 20.0 19.9 20.2 20.3;mu,sigma,muci,sigmaci=normfit(x),mu=20.0111sigma=0.2028muci=19.8553 20.1670sigmaci=0.1370 0.3884,置信水平
14、为0.95时,均值及标准差的最大似然估计值分别是20.0111,0.2028。均值及标准差的置信区间分别是(19.8553,20.1670),(0.1370,0.3884),24,当置信水平为0.99时,在命令窗口输入:,x=19.7 20.1 19.8 19.9 20.2 20.0 19.9 20.2 20.3;mu,sigma,muci,sigmaci=normfit(x,0.99),mu=20.0111sigma=0.2028muci=20.0102 20.0120sigmaci=0.2109 0.2123,置信水平为0.99时,均值及标准差的最大似然估计值分别是20.0111,0.20
15、28。均值及标准差的置信区间分别是(20.0102,20.0120),(0.2109,0.2123),25,三、假设检验,假设检验的基本思想是为检验一个假设H0是否正确,在假定该假设正确的条件下,利用样本的统计量构造一个小概率事件,根据样本观测值验证这个小概率事件是否发生。如果一次抽样使得小概率事件发生了,则认为不合理的现象发生了,拒绝假设H0,否则接受假设H0。,1.单个正态总体均值的假设检验,总体方差 已知时,均值的检验用U检验法,命令为,h,p,ci=ztest(x,mu,sigma,alpha,tail),其中输入参数x是样本(数组或矩阵);mu是原假设H0中的,sigma是总体的标准
16、差;alpha是显著性水平;tail是对备则假设H1的选择。,26,原假设当tail=0时,备则假设当tail=1时,备则假设当tail=-1时,备则假设,p为当原假设H0为真时,样本均值出现的概率,p越小,H0越值得怀疑;ci是 的置信区间。,输出参数h=0表示”在显著性水平alpha的情况下,接受H0”,输出参数h=1表示”在显著性水平alpha的情况下,拒绝H0”。,总体方差 未知时,均值的检验用T检验法,命令为,h,p,ci=ttest(x,mu,alpha,tail),与上面的函数ztest相比,除了不需要输入总体的标准差外,其余完全一样。,27,x=497 506 518 524
17、488 511 510 515 512;h,p,ci=ztest(x,500,12,0.05,0)h=1p=0.0244ci=501.1601 516.8399,28,h,p,ci=ttest(x,500,0.05,0)h=1p=0.0382ci=500.6236 517.3764,29,2.单个正态总体方差的假设检验,假设检验,例6 在例5中能否认为每袋葡萄糖质量的标准差为12g?,解 编写程序如下,30,x=497 506 518 524 488 511 510 515 512;chi2=8*var(x)/122u1=chi2inv(0.05/2,8)u2=chi2inv(1-0.05/2
18、,8)if chi2u2h=1elseh=0end,chi2=6.5972u1=2.1797u2=17.5345h=0,由此知可认为标准差为12g,其中函数x=chi2inv(p,n)是求 时,P(Xx)=p中的x,31,3.两个正态总体均值的假设检验,假设检验,h,p,ci=ttest2(x,y,alpha,tail),32,四、回归分析,33,例7 下表为1980-1991年间以1987年不变价计算的美国个人消费支出Y与国内生产支出X的数据。(单位:10亿美元),(1)在直角坐标系下,作X与Y的散点图,并判断Y与X是否存在线性相关关系。(2)试求Y与X的一元线性回归方程。,34,x=377
19、6.3 3843.1 3760.3 3906.6 4148.5 4279.8 4404.5 4539.9 4718.6 4838.0 4877.5 4821.0;y=2447.1 2476.9 2503.7 2619.4 2746.1 2865.8 2969.1 3052.2 3162.4 3223.3 3260.4 3240.8;plot(y,x,+),(1)输入数据,观察散点图,由散点图可知,Y与X存在线性相关关系,35,(2)求回归方程,X=ones(length(x),1)x;Y=y;regress(Y,X)ans=-231.7951 0.7194,即回归系数,回归方程为,36,实验任
20、务,1.某班级上学期末的数学成绩如下:57 65 90 74 83 34 62 88 70 72 64 74 95 43 67 84 76 58 81 66 89 54 70 65 92 97 73 69 51 80(1)画出成绩的频数直方图和样本分布函数图(2)计算成绩的均值、中值、极差、方差、标准差,2.作出下列分布的概率密度图:,(大一的只做1、2题),37,3.从同一批次的某种饮料中抽取16瓶,测得其VC含量数据(单位:mg)如下:17 22 21 20 23 21 19 15 13 17 23 20 18 22 16 25已知VC含量服从正态分布,求VC含量的均值、方差的最大似然估计值及置信水平为0.98的置信区间。,4.某工厂用自动包装机包装葡萄糖,规定每袋500g,现在随机抽取10袋,测得各袋葡萄糖的质量为(单位:g)485 510 505 488 503 482 502 505 487 506设每袋葡萄糖的质量服从正态分布,如果已知,问包装机是否能正常工作(分别取),