《概率论与数理统计第四章统计量及其分布.docx》由会员分享,可在线阅读,更多相关《概率论与数理统计第四章统计量及其分布.docx(24页珍藏版)》请在三一办公上搜索。
1、概率论与数理统计第四章统计量及其分布幻灯片 1 第4章统计量及其分布幻灯片 2 本章转入课程的第二部分数理统计从历史的典籍中,人们不难发现许多关于钱粮、户口、地震、水灾等等的记载,说明人们很早就开始了统计的工作. 但是当时的统计,只是对有关事实的简单记录和整理,而没有在一定理论的指导下,作出超越这些数据范围之外的推断.到了十九世纪末二十世纪初,随着近代数学和概率论的发展,才真正诞生了数理统计学这门学科.幻灯片 3 数理统计学是通过收集数据、分析数据并以此对所研究的问题推断出所需结论的科学. 数理统计不同于一般的资料统计,它更侧重于应用随机现象本身的规律性进行资料的收集、整理和分析.数理统计对数
2、据的分析处理要借助于概率论方法和计算机的计算. 计算机的发展为数据处理提供了强有力的技术支持,这就大大促进了数理统计学的发展.然而数理统计所考察的数据都带有随机性(偶然性) 的误差. 这就使得根据这种数据所作出的结论具有不确定性.幻灯片 4 4.1 总体与样本由于大量随机现象必然呈现出它的规律性,因而从理论上讲,只要对随机现象进行足够多次观察,被研究的随机现象的规律性一定能清楚地呈现出来.4.1.1 总体与个体一个统计问题总有它明确的研究对象. 我们把所研究对象的全体称为总体.总体中包含的每个元素称为个体.幻灯片 5 如将“一批灯泡的寿命”作为研究对象总体,用X表示.则灯泡的个数就是总体容量.
3、 总体的特征属性必然反映到每一个个体上, 我们通过对个体特征的观测,汇集总体的特征属性.然而每一个个体在呈现总体共性的同时会呈现出其独有的个性. 随机抽取一支灯泡,其寿命显然不能代表“一批灯泡的寿命”,它只是总体X 的一个取值,因而总体X是一个随机变量每支灯泡的寿命是由总体寿命X的分布规律所决定的. 所以对总体的研究就相当于对随机变量X的研究X 的分布称为总体分布.幻灯片 6 4.1.2 样本为推断总体的特征,需按一定规则从总体中抽取若干个体进行观测试验,以获得有关总体的信息,这一抽取过程称为“抽样”,所抽取的部分个体称为样本. 样本中所包含的个体数目称为样本容量.由于样本是从总体表示中随机抽
4、取的,抽取前不能预知抽取的结果,即样本也是随机变量,通常表示为X1,X2,Xn(n为样本容量)抽取5个灯泡测试寿命样本容量为5.幻灯片 7 由于抽样的目的是为了对总体进行统计推断,为使抽取的样本能很好地反映总体的信息,所以抽样时要使总体中每个个体抽到的机会均等,并且每次抽样的结果不互相影响.这样抽取的样本X1,X2,Xn满足:1.代表性:样本中每一个Xi 都与总体X 的分布相同.2.独立性:X1,X2,Xn相互独立.这样的样本称为简单随机样本. 一旦取得一个样本,就得到的是n个具体的数据x1, x2, xn,称之为样本观测值,简称样本值, 记作(x1,x2,xn) .幻灯片 8 随机抽样分类1
5、简单随机抽样:在总体中直接抽取样本.2.分层随机抽样:将总体分类,在不同类中分别抽取样本3整群随机抽样:将总体分“块”,将每一块作为一个个体;整块抽样4多阶随机抽样:先作整群随机抽样,在抽取得“群体”中再随机抽样.5系统随机抽样(等距抽样):将总体随机排序编号,按一定的步长抽样.幻灯片 9 设X1,X2,L,Xn为取自总体X 的样本,则F(x1,x2,L,xn)=F(xi)i=1n称为X1,X2,L,Xn的样本分布函数对于离散总体X, 其分布列为P(Xi=xi)=p(xi)p(x1,x2,L,xn)=p(xi)i=1n称为X1,X2,L,Xn的样本分布列对于连续总体X, 其密度函数为f(x)f
6、(x1,x2,L,xn)=f(xi)i=1n称为X1,X2,L,Xn的样本密度函数幻灯片 10 需要强调说明一点:数理统计具有“部分推断整体”的特征.但客观上我们抽取的样本是有限的,也就是说, 我们获得的只是局部观测资料,它不可能包括研究对象的全部信息. 因而由此作出的推断必然具有一定的片面性.因此由样本推断总体是“不完全归纳推理”. 它不同于经典数学中的“演绎推理”.即由“条件”并非必然导致“结论”,而我们要做的是使由“条件”导致“结论”的可能性(概率)尽可能大.幻灯片 11 4.2 统计量及其分布4.2.1 统计量与枢轴量要使由样本推断总体得出的结论可靠性大,就需要对样本进行“加工处理”,
7、即构造一些样本函数,把样本中所含的“有用信息”集中起来.定义设X1,X2,LXn是取自总体X 的一个样本,若样本函数g( )X1,X2,LXn中不包含任何未知参数,则称g( )X1,X2,LXn为统计量若(x1,x2,Lxn)是一组样本观测值,则称g(x1,x2,Lxn)为统计值.幻灯片 12 定义设X1,X2,Xn是取自总体X 的一个样本, h(X1,X2,Xn;)是含有未知参数的样本函数,若h(X1,X2,Xn;)的概率分布已知,则称h(X1,X2,Xn;)为枢轴量.2例1 设总体XN(m,s0s02),其中未知,已知,X1,X2,L,Xn是取自总体的一个样本.判断统计量和枢轴量.11nX
8、is2ni=10Xi=1n2iX1-ms0n1n2(X-m)in-1i=1解前两个为统计量,第三个为枢轴量.幻灯片 13 4.2.2 样本均值与样本方差样本均值它反映了总体方差的信息21nX=Xini=1它反映了总体均值的信息样本方差1n2S=(X-X)n-1i=1i201n2未修正的样本方差S=(Xi-X)ni=1幻灯片 14 4.2.3总体矩与样本矩由随机变量X矩的概念,对于总X体,若Xk 的期望存在(k为非负整数),则称E(Xk) 为总体k 阶原点矩. 记作 mk=E(Xk)若X-E(X)k的期望存在,则E称X-E(X)kuk=EX-E(X)k为总体k 阶中心矩. 记作 幻灯片 15 4
9、.2.3 样本矩1nk样本k 阶原点矩Uk=Xini=1k=1,2,它反映了总体K阶矩的信息1n样本k 阶中心矩Vk=(Xi-X)kni=1k=1,2,它反映了总体K阶中心矩的信息幻灯片 16 4.3 抽样分布统计量为样本的函数,由样本是随机变量,故统计量也是随机变量,因而具有概率分布,统计量的分布称为“抽样分布”.抽样分布就是通常的随机变量函数的分布. 这一分布取决于统计量的形式. 研究统计量的性质和评价一个统计推断的优良性,完全取决于其抽样分布的性质.幻灯片 17 24.3.2c分布(1)定义:设X1,X2,L,Xn独立且同为标准正态分布,则称c=Xi22i=12n22服从n个自由度的c分
10、布,记作cc(n)注“自由度”是指能够自由取值的变量的个数.(2)性质:c(ni),(i=1,2,k),则1X1, X2,Xk独立, Xi 2Xc(n1+n2+.+nk)ii=1k2c(n),则有E(X)=n, D(X)=2n2若X 幻灯片 18 2c2(n)的密度函数曲线(3) f(x)(n=1)(n=10)0x随着n的增大,曲线逐渐趋于平缓,对称.幻灯片 19 例1(1)设X1,X2,L,Xn是来自总体N(m,s2)的样本, nXi-m2服从( )分布.则i=1s(2)设X1,X2,X3,X4是取自总体N (0,4) 的样本,0.05(X1-2X2)2+0.01(3X3-4X4)2服从(
11、)分布.解(1)c2(n)X1-2X2N(0,20)(2) 由题意得3X3-4X4N(0,100)0.05(X1-2X2)N(0,1)即0.01(3X3-4X4)N(0,1)幻灯片 20 2故服从c(2)4.3.3 t分布Yc2(n)且X,Y 互相独立,(1)定义设XN(0,1), 则称T=XYn服从n 个自由度的t 分布,记作Tt(n).(2) 性质:nn-22当n充分大时,t 分布近似于标准正态分布.1当T t(n)时,E(T)=0, D(T)=幻灯片 21 (3)t 分布的密度函数曲线:f(x)(n=2)(n=6)0x幻灯片 22 例2 设随机变量X服从正态分布N(0,9),X1,X2L
12、,X18是自总体X 的样本, 则下列统计量服从( )分布.X1+L+X9U=22X10+L+X189Xi解:N(0,1),(i=1,2,L,18),XiN(0,81),3i=1189Xi211822且Y=Xic(9)由Xi与Y独立,39i=10i=10i=1所以U=X1+L+X9X+L+X210218=(X1+L+X9)99Y9 Y9t(9)幻灯片 23 2例3 设X1,L,X9是来总体XN(m,s)的样本,Y1=211(X1+L+X6),Y2=(X7+X8+X9)636(Y1-Y2)Y13Y=(Xi-Xi+3)2,Z=2i=1证明:Zt (3)证:Y1N(m,则s26),Y2N(m,s2Y1
13、-Y2N(0,s22)即32(Y1-Y2)sN(0,1)幻灯片 24 又Xi-Xi+3N(0,2s),(Xi-Xi+3)22c(3)即22si=132Xi-Xi+32sN(0,1)2(Y1-Y2)则s(Xi-Xi+3)222si=13=36(Y1-Y2)t(3)Y幻灯片 25 标准正态分布的分位数定义设01, 对随机变量X,称满足的点xa为X 的概率分布的上侧分位数. 故有P(Xxa)=1-a设X N(0, 1),ua为上侧分位数,即对0xa)=aP(Xua)=a则F(ua)=P(Xua)=1-a例如:u0.05=1.641-auau0.025=1.96幻灯片 26 x设ua2为标准正态分布的
14、上侧分位数,即f(x)22则有 P(Xua)=aa2a1-a-ua22ua2x幻灯片 27 c2分布的分位数设ca(n)为c(n)分布的上侧分位数22即 PXca(n)=a2f(x)例如:aO2ca(n)2c0.025(3)=9.348x2c0.975(3)=0.216幻灯片 28 222c(n), cc对于分布,若取上侧分位数1-aa(n)使得 PXc12-a(n)=1-a,222PXca(n)=a,2222f(x)a2a22c12-a(n)ca(n)x2222此时称c1-a(n), ca(n)为“概率对称”的分位数.22幻灯片 29 t分布的分位数设ta(n)为t (n)分布上侧分位数,即
15、 PXta(n)=af(x)例如 t0.05(6)=1.9432t0.025(8)=2.3061-ata(n)x设ta2(n)为t (n)分布的上侧分位数,即PXta(n)=a222则有 PXta(n)=1-a幻灯片 30 4.3.5 正态总体的抽样分布定理1(样本均值的分布)设X1,X2,Xn是取自正态总体N(m,s2)的样本,则有XN(m,X-ms2n)snN(0,1)幻灯片 31 定理2(样本方差的分布)设X1,X2,Xn是取自正态总体N(m,s2)的样本,X和S2分别为样本均值和样本方差,则有(1)(2)注:在n(n-1)S2s21c2(n-1)X 和 S2相互独立.(n-1)S2s2
16、i=s2(Xi=1ni-X)2中,由于受到(Xi=1-X)=0的限制,故自由度减少一个.幻灯片 32 证明:令Zi=(n-1)S2Xi-msnN(0,1);则Z=2nX-mss-1N(0,)nX-ms2=i=11s(Xi-X)=(2i=1Xi-ms)2=(Zi-Z)=Zi2-nZ22i=1i=1nn由 Zi2c2(n);i=1nnnZ2c2(1);则 Zi2-nZ2c2(n-1)i=1X和S2的独立性利用正交矩阵可证.幻灯片 33 2定理3设X1,X2,Xn是取自正态总体N(m,s)的样本,X和S2分别为样本均值和样本方差,则有X-mSX-mnt(n-1)证明:由定理1和定理2,有snN(0,1);(n-1)S2s2=X-mSnc2(n-1)故X-msn(n-S12s2)n-1tn-(1)