数据的统计分析与描述-matlab.ppt

上传人:小飞机 文档编号:5985981 上传时间:2023-09-11 格式:PPT 页数:46 大小:360.50KB
返回 下载 相关 举报
数据的统计分析与描述-matlab.ppt_第1页
第1页 / 共46页
数据的统计分析与描述-matlab.ppt_第2页
第2页 / 共46页
数据的统计分析与描述-matlab.ppt_第3页
第3页 / 共46页
数据的统计分析与描述-matlab.ppt_第4页
第4页 / 共46页
数据的统计分析与描述-matlab.ppt_第5页
第5页 / 共46页
点击查看更多>>
资源描述

《数据的统计分析与描述-matlab.ppt》由会员分享,可在线阅读,更多相关《数据的统计分析与描述-matlab.ppt(46页珍藏版)》请在三一办公上搜索。

1、2023/9/11,1,数据的统计描述和分析,实验目的,实验内容,2、掌握用数学软件包求解统计问题。,1、直观了解统计基本内容。,1、统计的基本理论。,3、实验作业。,2、用数学软件包求解统计问题。,2023/9/11,3,统计的基本概念,参数估计,假设检验,数据的统计描述和分析,2023/9/11,4,统计工具箱中的基本统计命令,1.数据的录入、保存和调用,2.基本统计量,3.常见概率分布的函数,4.频 数 直 方 图 的 描 绘,5.参数估计,6.假设检验,返回,2023/9/11,5,一、数据的录入、保存和调用,例1 上海市区社会商品零售总额和全民所有制职工工资总额的数据如下,统计工具箱

2、中的基本统计命令,2023/9/11,6,1、年份数据以1为增量,用产生向量的方法输入。命令格式:x=a:h:b t=78:87,2、分别以x和y代表变量职工工资总额和商品零售总额。x=23.8,27.6,31.6,32.4,33.7,34.9,43.2,52.8,63.8,73.4 y=41.4,51.8,61.7,67.9,68.7,77.5,95.9,137.4,155.0,175.0,3、将变量t、x、y的数据保存在文件data中。save data t x y,4、进行统计分析时,调用数据文件data中的数据。load data,方法1,2023/9/11,7,1、输入矩阵:data

3、=78,79,80,81,82,83,84,85,86,87,88;23.8,27.6,31.6,32.4,33.7,34.9,43.2,52.8,63.8,73.4;41.4,51.8,61.7,67.9,68.7,77.5,95.9,137.4,155.0,175.0,2、将矩阵data的数据保存在文件data1中:save data1 data,3、进行统计分析时,先用命令:load data1 调用数据文件data1中的数据,再用以下命令分别将矩阵data的第一、二、三行的数据赋给变量t、x、y:t=data(1,:)x=data(2,:)y=data(3,:)若要调用矩阵data的第

4、j列的数据,可用命令:data(:,j),方法2,二、统计量,mean(x),median(x),std(x),var(x),偏度:skewness(x)峰度:kurtosis(x),矩的计算,1.随机变量的k阶中心矩-Bk=moment(X,k)2.随机变量的k阶原点矩-Ak=sum(X.k)/length(X),常见分布的期望和方差,1.二项分布-E,D=binostat(n,p)说明:n,p可以是标量,向量,矩阵,则E,D是对应的标量,向量,矩阵2.超几何分布-E,D=hygestat(M,N,K)3.泊松分布-E,D=poissstat(lambda)4.均匀分布-E,D=unifst

5、at(a,b)5.指数分布-E,D=expstat(lambda)6.正态分布-E,D=normstat(mu,sigma)其他:gamstat(),tstat(),fstat(),chi2stat()等等,协方差与相关系数的计算,1.随机变量的协方差-cov(X,Y)=E(X-EX)(Y-EY)2.随机变量的相关系数-=cov(X,Y)/sqrt(DX*DY)3.统计数据的协方差cov(X)-当X为向量时,cov(X)=var(X);当X为矩阵时,结果为X的协方差矩阵.对角线是X每列的方差,Xij为X的第i列和第j列的协方差值。cov(X,Y)-计算向量X和Y的协方差值4.统计数据的相关系数

6、corrcoef(X),corrcoef(X,Y)-说明与用法与cov()相同,2023/9/11,13,三、常见概率分布的函数,Matlab工具箱对每一种分布都提供五类函数,其命令字符为:概率密度:pdf 概率分布:cdf逆概率分布:inv 均值与方差:stat随机数生成:rnd,(当需要一种分布的某一类函数时,将以上所列的分布命令字符与函数命令字符接起来,并输入自变量(可以是标量、数组或矩阵)和参数即可.),2023/9/11,14,在Matlab中输入以下命令:x=-6:0.01:6;y=normpdf(x);z=normpdf(x,0,2);plot(x,y,x,z),1、密度函数:p

7、=normpdf(x,mu,sigma)(当mu=0,sigma=1时可缺省),如对均值为mu、标准差为sigma的正态分布,举例如下:,2023/9/11,15,3、逆概率分布:x=norminv(P,mu,sigma).即求出x,使得PXx=P.此命令可用来求分位数.,2、概率分布:P=normcdf(x,mu,sigma),2023/9/11,16,4、均值与方差:m,v=normstat(mu,sigma),例5 求正态分布N(3,52)的均值与方差.命令为:m,v=normstat(3,5)结果为:m=3,v=25,5、随机数生成:normrnd(mu,sigma,m,n).产生mn

8、阶的正态分布随机数矩阵.,例6 命令:M=normrnd(1 2 3;4 5 6,0.1,2,3)结果为:M=0.9567 2.0125 2.8854 3.8334 5.0288 6.1191,此命令产生了23的正态分布随机数矩阵,各数分别服从N(1,0.12),N(2,22),N(3,32),N(4,0.12),N(5,22),N(6,32),2023/9/11,17,1、给出数组data的频数表的命令为:N,X=hist(data,k)此命令将区间min(data),max(data)分为k个小区间(缺省为10),返回数组data落在每一个小区间的频数N和每一个小区间的中点X.,2、描绘数

9、组data的频数直方图的命令为:hist(data,k),四、频 数 直 方 图 的 描 绘,Matlab相关命令介绍,频数直方图或频数表,对于给定的数据集,假设它们满足以上十种分布之一,如何确定属于哪种分布?,x=load(data1.txt);x=x(:);hist(x),例 1:某次笔试的分数见 data1.txt,试画出频数直方图,绘制频数直方图,或列出频数表,从图形上看,笔试成绩较为接近正态分布,频数直方图或频数表,x=load(data2.txt);x=x(:);hist(x),例 2:某次上机考试的分数见 data2.txt,试画出频数直方图,从图形上看,上机考试成绩较为接近离散

10、均匀分布,x=load(data3.txt);x=x(:);hist(x),例 3:上海1998年来的月降雨量的数据见 data3.txt,试画出频数直方图,从图形上看,月降雨量较为接近 2 分布,频数直方图或频数表,在重复数据较多的情况下,我们也可以利用Matlab自带的 tabulate 函数生成频数表,并以频数表的形式来发掘数据分布的规律。,x=load(data4.txt);x=x(:);tabulate(x)hist(x),例 4:给出数据 data4.txt,试画出其直方图,并生成频数表,频数直方图或频数表,x=load(data5.txt);x=x(:);hist(x)fiugr

11、ehistfit(x)%加入较接近的正态分布密度曲线,例 5:现累积有100次刀具故障记录,当故障出现时该批刀具完成的零件数见 data5.txt,试画出其直方图。,从图形上看,较为接近正态分布,参数估计,当我们可以基本确定数据集 X 符合某种分布后,我们还需要确定这个分布的参数。,由于正态分布情况发生的比较多,故我们主要考虑正态分布的情形。,对于未知参数的估计,可分两种情况:,点估计 区间估计,参数估计:点估计,构造样本 X 与某个统计量有关的一个函数,作为该统计量的一个估计,称为点估计。,Matlab 统计工具箱中,一般采用最大似然估计法给出参数的点估计。,泊松分布 P()的 最大似然估计

12、是,指数分布 Exp()的 最大似然估计是,常用分布的参数估计,1.正态分布的参数估计格式:muhat,sigmahat,muci,sigmaci=normfit(X,alpha)功能:数组X服从正态分布,给定显著水平alpha,缺省时为0.05,前二项给出点估计,后二项给出区间估计。X为矩阵时,针对列进行计算。2.二项分布的参数估计(n重已知,p未知)格式:phat,puci=binofit(X,n,alpha)3.泊松分布的参数估计格式:lbdhat,lbdci=poissfit(X,alpha)4.均匀分布的参数估计格式:ahat,bhat,aci,bci=unifit(X,alpha)

13、,5.指数分布的参数估计格式:lbdhat,lbdci=expfit(X,alpha)6.通用命令mle()格式:输出参数项=mle(分布函数名,X,alpha,N)说明:分布函数名有:bino(二项),geo(几何),hyge(超几何)poiss(泊松),uinf(均匀),unid(离散均匀),exp(指数)norm(正态),t(T分布),f(F分布),beta(贝塔),gam(伽吗)N当二项时需要,其他没有。,注:取容量充分大的样本(n50),按中心极限定理,它近似地服从正态分布;,点估计举例,正态分布 N(,2)中,最大似然估计是,2 的最大似然估计是,x=load(data1.txt)

14、;x=x(:);mu,sigma=normfit(x),例 6:已知例 1 中的数据服从正态分布 N(,2),试求其参数 和 的值。,使用 normfit 函数,参数估计:区间估计,构造样本 X 与某个统计量有关的两个函数,作为该统计量的下限估计与上限估计,下限与上限构成一个区间,这个区间作为该统计量的估计,称为区间估计。,Matlab 统计工具箱中,一般也采用最大似然估计法给出参数的区间估计。,区间估计举例,x=load(data1.txt);x=x(:);mu,sigma,muci,sigmaci=normfit(x),例 7:已知例 1 中的数据服从正态分布 N(,2),试求出 和 2

15、的置信度为 95%的区间估计。,x=load(data6.txt);x=x(:);mu,sigma,muci,sigmaci=normfit(x,0.01),例 8:从自动机床加工的同类零件中抽取16件,测得长度值见 data6.txt,已知零件长度服从正态分布 N(,2),试求零件长度均值 和标准差 的置信度为 99%的置信区间。,假设检验,对总体的分布律或分布参数作某种假设,根据抽取的样本观察值,运用数理统计的分析方法,检验这种假设是否正确,从而决定接受假设或拒绝假设,这就是假设检验问题。,以正态假设检验为例,来说明假设检验的基本过程。,假设检验,在Matlab中,假设检验问题都提出两种假

16、设:即原假设和备择假设。对于正态总体均值的假设检验给出了检验函数:ztest 已知,检验正态总体均值;ttest 未知,检验正态总体均值;ttest2 两个正态总体均值比较。,1 单个正态总体N()的假设检验,已知,对期望 的假设检验Z检验法 调用函数 H=ztest(X,m,sigma)H=ztest(X,m,sigma,alpha)H,sig,ci=ztest(X,m,sigma,alpha,tail)说明:X:样本;m:期望值;sigma:正态总体标准差;alpha:经验水平;tail:备择假设的选项,若tail=0(缺省),则;若tail=1,则;若tail=-1,则。即tail=0(

17、缺省)为双边检验,其余为单边检验问题。H:检验结果,分两种情况:若H=0,则在水平 下,接受原假设;若H=1,则在水平 下,拒绝原假设。sig为当原假设为真时(即 成立),得到观察值的概率,当sig为小概率时,则对原假设提出质疑。Ci:均值 的1-alpha置信区间。,应用举例,例71 某车间用一台包装机包装葡萄糖,包得的袋装糖重是一个随机变量,它服从正态分布。当机器正常时,其均值为0.5公斤,标准差为0.015。某日开工后检验包装机是否正常,随机地抽取所包装的糖9袋,称得净重为:(公斤)0.497 0.518 0.524 0.498 0.511 0.52 0.515 0.512问机器是否正常

18、?,解:已知,在水平=0.05下检验假设:原假设:备择假设:程序:X=0.497,0.506,0.518,0.524,0.498,0.511,0.52,0.515,0.512;H,SIG=ztest(X,0.5,0.015,0.05,0)运行后显示结果如下:H=1 SIG=0.0248结果表明:H=1,说明在水平=0.05下,可拒绝原假设,即认为包装机工作不正常。,1 单个正态总体N()的假设检验,未知,对期望 的假设检验t检验法调用函数 H=ttest(X,m,sigma)%在水平=sigma下检验是否成立。说明:X:样本;m:期望值;alpha:经验水平;tail:备择假设的选项,若tai

19、l=0(缺省),则备择假设为;若tail=1,则;若tail=-1,则。即tail=0(缺省)为双边检验,其余为单边检验问题。H:检验结果,分两种情况:若H=0,则在水平 下,接受原假设;若H=1,则在水平 下,拒绝原假设。sig为当原假设为真时(即 成立),得到观察值的概率,当sig为小概率时,则对原假设提出质疑。Ci:均值 的1-alpha置信区间。,应用举例,例7.2 某种电子元件的寿命X(以小时计)服从正态分布,均未知,现测得16只元件寿命如下:159 280 101 212 224 379 179 264 222 362 168 250 149 260 485 170问是否有理由认为

20、元件的平均寿命大于225(小时)?,解:未知,在水平=0.05下检验假设:程序:X=159 280 101 212 224 379 179 264 222 362 168 250 149 260 485 170;H,SIG=ttest(X,225,0.05,1)运行后显示结果如下:H=0 SIG=0.2570结果表明:H=0,说明在水平=0.05下,应接受原假设,即认为元件的平均寿命不大于225小时。,2、两个正态总体均值差的检验(t检验),调用函数 h,sig,ci=ttest(X,Y)h,sig,ci=ttest2(X,Y,alpha)h,sig,ci=ttest2(X,Y,alpha,t

21、ail)说明:原假设为:当tail=0时,表示(缺省);当tail=1时,表示;当tail=-1时,表示。为X,Y的期望,h,sig,ci与前面相同。,应用举例,例7.3 在平炉上进行一项试验以确定改变操作方法的建议是否会增加钢的得率,试验是在同一平炉上进行的。每炼一炉钢时除操作方法外,其它条件都尽可能做到相同。先用标准方法炼一炉,然后用建议的新方法炼一炉,以后交替进行,各炼10炉,其得率分别为标准方法:78.1 72.4 76.2 74.3 77.4 78.4 76.0 75.5 76.7 77.3新方法:79.1 81.0 77.3 79.1 80.0 79.1 77.3 80.2 82.

22、1 设这两个样本相互独立,且分别来自正态总体N()和N(),均未知。问建议的新方法能否提高得率?(取=0.05),解:两个总体方差不变时,在水平=0.05下经验假设:程序:X=78.1 72.4 76.2 74.3 77.4 78.4 76.0 75.5 76.7 77.3;Y=79.1 81.0 77.3 79.1 80.0 79.1 77.3 80.2 82.1;H,SIG,CI=ttest2(X,Y,0.05,-1)运行后显示结果如下:H=1SIG=3.6151e-004CI=-Inf-1.8683结果表明:H=1,说明在水平=0.05下,应拒绝原假设,即认为建议的新方法能提高得率,因此

23、,比原方法好。,2023/9/11,41,非参数检验:总体分布的检验,Matlab工具箱提供了两个对总体分布进行检验的命令:,(1)h=normplot(x),(2)h=weibplot(x),此命令显示数据矩阵x的正态概率图.如果数据来自于正态分布,则图形显示出直线性形态.而其它概率分布函数显示出曲线形态.,此命令显示数据矩阵x的Weibull概率图.如果数据来自于Weibull分布,则图形将显示出直线性形态.而其它概率分布函数将显示出曲线形态.,2023/9/11,42,例 一道工序用自动化车床连续加工某种零件,由于刀具损坏等会出现故障.故障是完全随机的,并假定生产任一零件时出现故障机会均

24、相同.工作人员是通过检查零件来确定工序是否出现故障的.现积累有100次故障纪录,故障出现时该刀具完成的零件数如下:459 362 624 542 509 584 433 748 815 505 612 452 434 982 640 742 565 706 593 680 926 653 164 487 734 608 428 1153 593 844 527 552 513 781 474 388 824 538 862 659 775 859 755 49 697 515 628 954 771 609 402 960 885 610 292 837 473 677 358 638 699

25、 634 555 570 84 416 606 1062 484 120 447 654 564 339 280 246 687 539 790 581 621 724 531 512 577 496 468 499 544 645 764 558 378 765 666 763 217 715 310 851试观察该刀具出现故障时完成的零件数属于哪种分布.,2023/9/11,43,解 1、数据输入,2、作频数直方图 hist(x,10),3、分布的正态性检验 normplot(x),4、参数估计:muhat,sigmahat,muci,sigmaci=normfit(x),(看起来刀具寿命

26、服从正态分布),(刀具寿命近似服从正态分布),估计出该刀具的均值为594,方差204,均值的0.95置信区间为 553.4962,634.5038,方差的0.95置信区间为 179.2276,237.1329.,2023/9/11,44,5、假设检验,已知刀具的寿命服从正态分布,现在方差未知的情况下,检验其均值 m 是否等于594.,结果:h=0,sig=1,ci=553.4962,634.5038.,检验结果:1.布尔变量h=0,表示不拒绝零假设.说 明提出的假设寿命均值594是合理的.2.95%的置信区间为553.5,634.5,它 完全包括594,且精度很高.3.sig-值为1,远超过0

27、.5,不能拒绝零假 设.,返回,H,sig,ci=ttest(X,594,0.05),2023/9/11,45,1、某校60名学生的一次考试成绩如下:93 75 83 93 91 85 84 82 77 76 77 95 94 89 91 88 86 83 96 81 79 97 78 75 67 69 68 84 83 81 75 66 85 70 94 84 83 82 80 78 74 73 76 70 86 76 90 89 71 66 86 73 80 94 79 78 77 63 53 55,1)计算均值、标准差、极差、偏度、峰度,画出直方图;2)检验分布的正态性;3)若检验符合正

28、态分布,估计正态分布的参数并检验参数.,作 业,2023/9/11,46,2、据说某地汽油的价格是每加仑115美分,为了验证这种说法,一位学者开车随机选择了一些加油站,得到某年一月和二月的数据如下:一月:119 117 115 116 112 121 115 122 116 118 109 112 119 112 117 113 114 109 109 118二月:118 119 115 122 118 121 120 122 128 116 120 123 121 119 117 119 128 126 118 125,1)分别用两个月的数据验证这种说法的可靠性;2)分别给出1月和2月汽油价格的置信区间;3)给出1月和2月汽油价格差的置信区间.,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号