matlab概率分布拟合.ppt

上传人:小飞机 文档编号:5439158 上传时间:2023-07-07 格式:PPT 页数:71 大小:1.04MB
返回 下载 相关 举报
matlab概率分布拟合.ppt_第1页
第1页 / 共71页
matlab概率分布拟合.ppt_第2页
第2页 / 共71页
matlab概率分布拟合.ppt_第3页
第3页 / 共71页
matlab概率分布拟合.ppt_第4页
第4页 / 共71页
matlab概率分布拟合.ppt_第5页
第5页 / 共71页
点击查看更多>>
资源描述

《matlab概率分布拟合.ppt》由会员分享,可在线阅读,更多相关《matlab概率分布拟合.ppt(71页珍藏版)》请在三一办公上搜索。

1、从2009国赛B题 眼科病床的合理安排说起。,从1500到1931年的432年间,每年爆发战争的次数可以看作一个随机变量,椐统计,这432年间共爆发了299次战争,具体数据如下:,在概率论中,大家对泊松分布产生的一般条件已有所了解,容易想到,每年爆发战争的次数,可以用一个泊松随机变量来近似描述.也就是说,我们可以假设每年爆发战争次数分布X近似泊松分布.,现在的问题是:上面的数据能否证实X 具有泊松分布的假设是正确的?,又如,某钟表厂对生产的钟进行精确性检查,抽取100个钟作试验,拨准后隔24小时以后进行检查,将每个钟的误差(快或慢)按秒记录下来.,问该厂生产的钟的误差是否服从正态分布?,再如,

2、某工厂制造一批骰子,声称它是均匀的.,为检验骰子是否均匀,要把骰子实地投掷若干次,统计各点出现的频率与1/6的差距.,也就是说,在投掷中,出现1点,2点,6点的概率都应是1/6.,得到的数据能否说明“骰子均匀”的假设是可信的?,问题是:,现实生活中的许多数据都是随机产生的,如考试分数、月降雨量、灯泡寿命等。从数理统计角度来看,这些数据其实都是符合某种分布的,这种规律就是统计规律。,本专题的主要目的是:熟悉Matlab相关命令;熟悉各种常见分布的概率密度函数及其曲线,会利用数据分布的形态猜测其分布类型;能够对密度函数进行参数估计;进行简单的假设检验(以正态检验为主)。,内容提纲,1.Matlab

3、相关命令介绍2.常见概率分布3.频数直方图与频数表4.参数估计5.假设检验,Matlab相关命令,最值:max(x),min(x)(1)max(X):返回向量X的最大值,如果X中包含复数元素,则按模取最大值。(2)max(A):返回一个行向量,向量的第i个元素是矩阵A的第i列上的最大值。(3)Y,U=max(A):返回行向量Y和U,Y向量记录A的每列的最大值,U向量记录每列最大值的行号。(4)max(A,dim):dim取1或2。dim取1时,该函数和max(A)完全相同;dim取2时,该函数返回一个列向量,其第i个元素是A矩阵的第i行上的最大值。,数据统计处理基本命令,Matlab相关命令,

4、求和:(1)sum(X),返回向量X各元素的和。(2)sum(A),返回一个行向量,其第i个元素是 A的第i列的元素和。(3)sum(A,dim),当dim为1时,该函数等同于sum(A);当dim为2时,返回一个列向量,其第i个元素是A的第i行的各元素之和。乘积:(1)prod(X),返回向量X各元素的乘积。(2)prod(A),返回一个行向量,其第i个元素是A的第i列元素的乘积。(3)prod(A,dim),当dim为1时,该函数等同于prod(A);当dim为2时,返回一个列向量,其第i个元素是A的第i行的各元素之乘积。,数据统计处理基本命令,Matlab相关命令,累加和与累乘积 在MA

5、TLAB中,使用cumsum和cumprod函数能方便地求得向量和矩阵元素的累加和与累乘积向量,函数的调用格式为:cumsum(X):返回向量X累加和向量。cumprod(X):返回向量X累乘积向量。cumsum(A):返回一个矩阵,其第i列是A的第i列的累加和向量。cumprod(A):返回一个矩阵,其第i列是A的第i列的累乘积向量。cumsum(A,dim):当dim为1时,该函数等同于cumsum(A);当dim为2时,返回一个矩阵,其第i行是A的第i行的累加和向量。cumprod(A,dim):当dim为1时,该函数等同于cumprod(A);当dim为2时,返回一个向量,其第i行是A

6、的第i行的累乘积向量。,数据统计处理基本命令,Matlab相关命令,相关系数 MATLAB提供了corrcoef函数,可以求出数据的相关系数矩阵。corrcoef函数的调用格式为:corrcoef(X):返回从矩阵X形成的一个相关系数矩阵。此相关系数矩阵的大小与矩阵X一样。它把矩阵X的每列作为一个变量,然后求它们的相关系数。corrcoef(X,Y):在这里,X,Y是向量,它们与corrcoef(X,Y)的作用一样。,数据统计处理基本命令,Matlab相关命令,排序 MATLAB中对向量X是排序函数是sort(X),函数返回一个对X中的元素按升序排列的新向量。sort函数也可以对矩阵A的各列或

7、各行重新排序,其调用格式为:Y,I=sort(A,dim)其中dim指明对A的列还是行进行排序。若dim=1,则按列排;若dim=2,则按行排。Y是排序后的矩阵,而I记录Y中的元素在A中位置。,数据统计处理基本命令,Matlab相关命令,类似的用法,请自己借助matlab在线帮助功能自己了解:中位数:median(x)标准差:std(x)方差:var(x)偏度:skewness(x)峰度:kurtosis(x),数据统计处理基本命令,偏度和峰度的说明,Matlab相关命令,例 生成满足正态分布的100005随机矩阵,然后求各列元素的均值和标准方差,再求这5列随机数据的相关系数矩阵。命令如下:X

8、=sqrt(3)*randn(10000,5)+4;M=mean(X)D=std(X)R=corrcoef(X),数据统计处理基本命令,Matlab相关命令介绍,pdf 概率密度函数,y=pdf(name,x,A),y=pdf(name,x,A,B)或 y=pdf(name,x,A,B,C),返回由 name 指定的单参数分布的概率密度,x为样本数据,name 用来指定分布类型,其取值可以是:beta、bino、chi2、exp、ev、f、gam、gev、gp、geo、hyge、logn、nbin、ncf、nct、ncx2、norm、poiss、rayl、t、unif、unid、wbl。,返回

9、由 name 指定的双参数或三参数分布的概率密度,常见的概率分布,Matlab相关命令介绍,例:,x=-8:0.1:8;y=pdf(norm,x,0,1);y1=pdf(norm,x,1,2);plot(x,y,x,y1,:),注:,y=pdf(norm,x,0,1),y=normpdf(x,0,1),相类似地,,y=pdf(beta,x,A,B),y=betapdf(x,A,B),y=pdf(bino,x,N,p),y=binopdf(x,N,p),概率密度函数,【例】绘制卡方分布密度函数在自由度分别为1、5、15的图形x=0:0.1:30;y1=chi2pdf(x,1);plot(x,y1

10、,:)hold on,【例】绘制标准正态分布的概率密度图.x=-4:0.1:4;y=normpdf(x,0,1);plot(x,y)title(N(0,1)的概率密度曲线图),累积分布函数(cdf),【例】求服从标准正态分布的随机变量落在区间2,2上的概率.P=normcdf(-2,2)ans=0.0228 0.9772 P(2)-P(1)ans=0.9545,累积分布函数(cdf),u_alpha=norminv(0.9,0,1)u_alpha=1.2816 t_alpha=tinv(0.25,4)t_alpha=-0.7407 F_alpha=finv(0.1,14,10)F_alpha=

11、0.4772 X2_alpha=chi2inv(0.025,50)X2_alpha=32.3574,累积分布函数(cdf),连续分布:正态分布,正态分布(连续分布),如果随机变量 X 的密度函数为:,则称 X 服从正态分布。记做:,标准正态分布:N(0,1),正态分布也称高斯分布,是概率论中最重要的一个分布。,如果一个变量是大量微小、独立的随机因素的叠加,那么它一定满足正态分布。如测量误差、产品质量、月降雨量等,正态分布举例,x=-8:0.1:8;y=normpdf(x,0,1);y1=normpdf(x,1,2);plot(x,y,x,y1,:),例:标准正态分布和非标准正态分布密度函数图形

12、,连续分布:均匀分布,均匀分布(连续分布),如果随机变量 X 的密度函数为:,则称 X 服从均匀分布。记做:,均匀分布在实际中经常使用,譬如一个半径为 r 的汽车轮胎,因为轮胎上的任一点接触地面的可能性是相同的,所以轮胎圆周接触地面的位置 X 是服从 0,2r 上的均匀分布。,连续分布:指数分布,指数分布(连续分布),如果随机变量 X 的密度函数为:,则称 X 服从参数为 的指数分布。记做:,在实际应用问题中,等待某特定事物发生所需要的时间往往服从指数分布。如某些元件的寿命;随机服务系统中的服务时间;动物的寿命等都常常假定服从指数分布。,指数分布具有无记忆性:,指数分布举例,x=0:0.1:3

13、0;y=exppdf(x,4);plot(x,y),例:=4 时的指数分布密度函数图,离散分布:几何分布,几何分布是一种常见的离散分布,在贝努里实验中,每次试验成功的概率为 p,设试验进行到第 次才出现成功,则 的分布满足:,其右端项是几何级数 的一般项,于是人们称它为几何分布。,x=0:30;y=geopdf(x,0.5);plot(x,y),例:p=0.5 时的几何分布密度函数图,离散分布:二项式分布,二项式分布属于离散分布,如果随机变量 X 的分布列为:,则称这种分布为二项式分布。记做:,x=0:50;y=binopdf(x,500,0.05);plot(x,y),例:n=500,p=0

14、.05 时的二项式分布密度函数图,离散分布:Poisson 分布,泊松分布也属于离散分布,是1837年由发个数学家 Poisson 首次提出,其概率分布列为:,记做:,泊松分布是一种常用的离散分布,它与单位时间(或单位面积、单位产品等)上的计数过程相联系。如:单位时间内,电话总机接到用户呼唤次数;1 平方米内,玻璃上的气泡数等。,Poisson 分布举例,x=0:50;y=poisspdf(x,25);plot(x,y),例:=25 时的泊松分布密度函数图,离散分布:均匀分布,如果随机变量 X 的分布列为:,则称这种分布为离散均匀分布。记做:,n=20;x=1:n;y=unidpdf(x,n)

15、;plot(x,y,o-),例:n=20 时的离散均匀分布密度函数图,抽样分布:2分布,设随机变量 X1,X2,Xn 相互独立,且同服从正态分布 N(0,1),则称随机变量 n2=X12+X22+Xn2服从自由度为 n 的 2 分布,记作,亦称随机变量 n2 为 2 变量。,x=0:0.1:20;y=chi2pdf(x,4);plot(x,y),例:n=4 和 n=10 时的 2 分布密度函数图,x=0:0.1:20;y=chi2pdf(x,10);plot(x,y),抽样分布:F 分布,设随机变量,且 X 与 Y 相互独立,则称随机变量,x=0.01:0.1:8.01;y=fpdf(x,4,

16、10);plot(x,y),例:F(4,10)的分布密度函数图,为服从自由度(m,n)的 F 分布。记做:,抽样分布:t 分布,设随机变量,且 X 与 Y 相互独立,则称随机变量,x=-6:0.01:6;y=tpdf(x,4);plot(x,y),例:t(4)的分布密度函数图,为服从自由度 n 的 t 分布。记做:,频数直方图或频数表,对于给定的数据集,假设它们满足以上十种分布之一,如何确定属于哪种分布?,x=load(data1.txt);x=x(:);hist(x),例 1:某次笔试的分数见 data1.txt,试画出频数直方图,绘制频数直方图,或列出频数表,从图形上看,笔试成绩较为接近正

17、态分布,hist 绘制给定数据的直方图,hist(x,m)xlsread(e:book1,sheet1)Textread(,频数直方图或频数表,x=load(data2.txt);x=x(:);hist(x),例 2:某次上机考试的分数见 data2.txt,试画出频数直方图,从图形上看,上机考试成绩较为接近离散均匀分布,x=load(data3.txt);x=x(:);hist(x),例 3:上海1998年来的月降雨量的数据见 data3.txt,试画出频数直方图,从图形上看,月降雨量较为接近 2 分布,频数直方图或频数表,在重复数据较多的情况下,我们也可以利用Matlab自带的 tabul

18、ate 函数生成频数表,并以频数表的形式来发掘数据分布的规律。,x=load(data4.txt);x=x(:);tabulate(x)hist(x),频数直方图或频数表,面列出了84个伊特拉斯坎(Etruscan)人男子的头颅的最大宽度(mm),试检验这些数据是否来自正态总体(取=0.1).141 148 132 138 154 142 150 146 155 158150 140 147 148 144 150 149 145 149 158143 141 144 144 126 140 144 142 141 140145 135 147 146 141 136 140 146 142

19、137148 154 137 139 143 140 131 143 141 149148 135 148 152 143 144 141 143 147 146150 132 142 142 143 153 149 146 149 138142 149 142 137 134 144 146 147 140 142140 137 152 145x=load(data4.txt);x=x(:);tabulate(x)hist(x),频数直方图或频数表,学生的身高和体重:学校随机抽取100名学生,测量他们的身高和体重,所得数据如表身高体重 身高 体重 身高 体重 身高 体重 身高 体重172 7

20、5 169 55 169 64 171 65 167 47171 62 168 67 165 52 169 62 168 65166 62 168 65 164 59 170 58 165 64160 55 175 67 173 74 172 64 168 57155 57 176 64 172 69 169 58 176 57173 58 168 50 169 52 167 72 170 57166 55 161 49 173 57 175 76 158 51170 63 169 63 173 61 164 59 165 62167 53 171 61 166 70 166 63 172 5

21、3173 60 178 64 163 57 169 54 169 66178 60 177 66 170 56 167 54 169 58173 73 170 58 160 65 179 62 172 50163 47 173 67 165 58 176 63 162 52165 66 172 59 177 66 182 69 175 75170 60 170 62 169 63 186 77 174 66163 50 172 59 176 60 166 76 167 63172 57 177 58 177 67 169 72 166 50182 63 176 68 172 56 173 59

22、 174 64171 59 175 68 165 56 169 65 168 62177 64 184 70 166 49 171 71 170 59,频数直方图或频数表,一道工序用自动化车床连续加工某种零件,由于刀具损坏等会出现故障.故障是完全随机的,并假定生产任一零件时出现故障机会均相同.工作人员是通过检查零件来确定工序是否出现故障的.现积累有100次故障纪录,故障出现时该刀具完成的零件数如下,试观察该刀具出现故障时完成的零件数属于哪种分布?459 362 624 542 509 584 433 748 815 505612 452 434 982 640 742 565 706 593

23、680926 653 164 487 734 608 428 1153 593 844527 552 513 781 474 388 824 538 862 659775 859 755 49 697 515 628 954 771 609402 960 885 610 292 837 473 677 358 638699 634 555 570 84 416 606 1062 484 120447 654 564 339 280 246 687 539 790 581621 724 531 512 577 496 468 499 544 645764 558 378 765 666 763

24、217 715 310 851,频数直方图或频数表,x=load(data5.txt);x=x(:);hist(x)fiugrehistfit(x)%加入较接近的正态分布密度曲线,试画出其直方图。,从图形上看,较为接近正态分布,频数直方图或频数表,也可以用 bar 函数。bar(x,y)绘制分别以x和y为横纵坐标的二维条形图cdfplot(x)绘制样本x的经验分布函数图Fn,x0=ecdf(x)得到样本x的经验分布函数值Fn,当x中有m个不同的数(记为向量x0)时,则Fn的个数为m+1个,x=6 4 5 3 6 8 6 7 3 4;Fn,x0=ecdf(x)Fn=0 0.2000 0.4000

25、 0.5000 0.8000 0.9000 1.0000 x0=3 3 4 5 6 7 8 cdfplot(x),例,累积分布函数(cdf),To Matlab ZhiFangTu_Main,参数估计,当我们可以基本确定数据集 X 符合某种分布后,我们还需要确定这个分布的参数。,由于正态分布情况发生的比较多,故我们主要考虑正态分布的情形。,对于未知参数的估计,可分两种情况:,点估计 区间估计,参数估计:点估计,构造样本 X 与某个统计量有关的一个函数,作为该统计量的一个估计,称为点估计。,Matlab 统计工具箱中,一般采用最大似然估计法给出参数的点估计。,泊松分布 P()的 最大似然估计是,

26、指数分布 Exp()的 最大似然估计是,点估计举例,正态分布 N(,2)中,最大似然估计是,2 的最大似然估计是,x=load(data1.txt);x=x(:);mu,sigma=normfit(x),例 6:已知例 1 中的数据服从正态分布 N(,2),试求其参数 和 的值。,使用 normfit 函数,参数估计:区间估计,构造样本 X 与某个统计量有关的两个函数,作为该统计量的下限估计与上限估计,下限与上限构成一个区间,这个区间作为该统计量的估计,称为区间估计。,区间估计举例,x=load(data6.txt);x=x(:);mu,sigma,muci,sigmaci=normfit(x

27、,0.01),例 8:从自动机床加工的同类零件中抽取16件,测得长度值见 data6.txt,已知零件长度服从正态分布 N(,2),试求零件长度均值 和标准差 的置信度为 99%的置信区间。,Matlab相关命令介绍,normfit 正态分布中的参数估计,muhat,sigmahat,muci,sigmaci=normfit(x,alpha),对样本数据 x 进行参数估计,并计算置信度为 1-alpha 的置信区间 alpha 可以省略,缺省值为 0.05,即置信度为 95%,Matlab相关命令介绍,其它分布中的参数估计,Matlab相关命令介绍,说明:(1)unifit和normfit的格

28、式与其它函数均不同,此二者要求左边的输出变量必须将参数或分别列出.(2)binofit(x,n,alpha)根据试验成功的次数x和总的试验次数n,对中的p进行最大似然估计,同时返回置信度为100(1-alpha)%的置信区间pci.,phat,pci=binofit(4,100,0.05)phat=0.0400pci=0.0110 0.0993由于置信区间的上限超出了规定指标(不合格率在5%以下),因此不能出厂,例 对一批产品,欲通过抽样检查其合格率.若产品不合格率在5%以下,则该批产品可出厂.检验时要求结果具有0.95的置信水平.今抽取产品100件,发现不合格品有4件,问这批产品能否出厂?,

29、假设检验,对总体的分布律或分布参数作某种假设,根据抽取的样本观察值,运用数理统计的分析方法,检验这种假设是否正确,从而决定接受假设或拒绝假设,这就是假设检验问题。,以正态假设检验为例,来说明假设检验的基本过程。,正态假设检验,正态假设检验的一般过程:,假设检验:利用 Matlab 统计工具箱给出的常用的假设检验方法的函数 ttest,进行显著性水平为 alpha 的 t 假设检验,以检验正态分布样本 x(标准差未知)的均值是否为 m。运行结果中,当 h=1 时,表示拒绝零假设;当 h=0 时,表示不能拒绝零假设。,对比正态分布的概率密度函数分布图,判断某统计量的分布可能服从正态分布,利用统计绘

30、图函数 normplot 进行正态分布检验,Matlab相关命令介绍,normplot(x),统计绘图函数,进行正态分布检验。研究表明:如果数据是来自一个正态分布,则该线为一直线形态;如果它是来自其他分布,则为曲线形态。,wblplot(x),统计绘图函数,进行 Weibull 分布检验。,正态假设检验举例,x=load(data5.txt);x=x(:);normplot(x),例 9:试说明例 5 中的刀具使用寿命服从正态分布,并且说明在方差未知的情况下其均值 m 取为 597 是否合理。,(1)对比刀具使用寿命分布图与正态分布的概率密度分布函数图,得初步结论:该批刀具的使用寿命可能服从正

31、态分布。,解:,(2)利用统计绘图函数 normplot 进行分布的正态性检验,结果显示:这 100 个离散点非常靠近倾斜直线段,即图形为线性的,因此可得结论:该批刀具的使用寿命近似服从正态分布。,总体方差sigma2未知时,总体均值的检验使用t-检验,h,sig,ci=ttest(x,m,alpha,tail)检验数据 x 的关于均值的某一假设是否成立,其中alpha 为显著性水平,究竟检验什么假设取决于 tail 的取值:tail=0,检验假设“x 的均值等于 m”tail=1,检验假设“x 的均值大于 m”tail=-1,检验假设“x 的均值小于 m”tail的缺省值为 0,alpha的

32、缺省值为 0.05.,返回值 h 为一个布尔值,h=1 表示可以拒绝假设,h=0 表示不可以拒绝假设,sig 为假设成立的概率,ci 为均值的 1-alpha 置信区间.,ttest说明,正态假设检验举例,x=load(data5.txt);x=x(:);h=ttest(x,597,0.05),(3)利用函数 ttest 进行显著性水平为 alpha 的 t 假设检验,检验结果:h=0。表示不拒绝零假设,说明所提出的假设“寿命均值为 597”是合理的,例 Matlab统计工具箱中的数据文件gas.mat.中提供了美国1993年一月份和二月份的汽油平均价格(price1,price2分别是一,二

33、月份的油价,单位为美分),它是容量为20的双样本.假设一月份油价的标准偏差未知,试检验一月份油价的均值是否等于115.,解 作假设:m=115.首先取出数据,用以下命令:load gas然后用以下命令检验 h,sig,ci=ttest(price2,115),返回:h=1,sig=4.9517e-004,ci=116.8 120.2.,检验结果:1.布尔变量h=1,表示拒绝零假设.说明提出的假设油价均值115是不合理的.2.95%的置信区间为116.8 120.2,它不包括115,故不能接受假设.3.sig-值为4.9517e-004,远小于0.5,不能接受零假设.,ttest举例,Matla

34、b中假设检验相关命令,例 由十台电机组成的机组进行工作,在2000小时中有五台发生故障,其故障发生的时间为1350,965,427,1753,665试问这些电机在2000小时前发生故障的时间T是否服从平均寿命为1500小时的指数分布?(显著性水平0.10),解:命令如下:x=1350,965,427,1753,665;h,p,ksstat,cv=kstest(x,x,expcdf(x,1500),0.1,0),解:编写命令:x=0.05,4.29,5.22,6.10,6.93,6.96,11.11,11.78,14.18,16.12.16.53,19.43,26.15,26.59,28.06,

35、35.40,39.64,40.63,51.43,56.79.57.62,64.99,69.63,78.73,98.07,98.11,98.84,114.16,123.62,124.20.125.12,133.10,138.15,145.12,155.12,156.41,161.02,203.27,203.30,210.44.14.51,228.69,234.95,251.246,260.79,272.85,276.26,300.59,301.50,306.54;normplot(x)pauseqqplot(x)h_jbtest,p,jbstat,cv=jbtest(x,0.05)%偏度峰度检验

36、h_lillitest,p,lstat,cv=lillietest(x,0.05)%Lillifors检验,作业与练习,练习1 从某地区随机抽取50户农民,调查其年收入情况,得到下列数据(每户人均元):924 800 916 704 870 1040 824 690 574 490 972 988 1266 684 764 940 408 804 610 852602 754 788 962 704 712 854 888 768 848 882 1192 820 878 614 846 746 828 792 872696 644 926 808 1010 728 742 850 864 7

37、38试编制程序,完成下列两个任务:(1)绘制收入的经验分布函数图形(包括能处理有相同值的情形);(2)并绘制直方图(包括自动确定直方图所在区间a,b,具有可调的样本容量参数n,分组参数k和绘图比例尺).,练习2 从一批滚珠中随机抽取了50个,测得它们的直径为(单位:mm):15.0,15.8,15.2,15.1,15.9,14.7,14.8,15.5,15.6,15.315.1,15.3,15.0,15.6,15.7,14.8,14.5,14.2,14.9,14.915.2,15.0,15.3,15.6,15.1,14.9,14.2,14.6,15.8,15.215.9,15.2,15.0,14.9,14.8,14.5,15.1,15.5,15.5,15.115.1,15.0,15.3,14.7,14.5,15.5,15.0,14.7,14.6,14.2是否可认为这批滚珠直径服从正态分布?(显著水平0.05),(1)用t检验ttest()命令(2)请查阅Matlab帮助信息,了解偏度峰度检验j命令btest()以及Lilliefors检验命令lillietest()的用法,并对该问题作相应的检验。,Thanks!,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号