《概率论与数理统计第15讲.ppt》由会员分享,可在线阅读,更多相关《概率论与数理统计第15讲.ppt(60页珍藏版)》请在三一办公上搜索。
1、1,概率论与数理统计第15讲,本文件可从网址http:/上下载,2,协方差与相关系数,3,定性的思考,通常人们在研究单个的随机变量的时候,并不关心它们的分布,而是关心它们的数学期望和方差,这也是因为分布携带了太多的信息,很难给人们一个快捷的印象.,4,而人们在研究两个随机变量的关系的时候,也不关心它们的联合分布,这是携带了更多信息的内容.人们关心的是,这两个随机变量是联系非常紧密呢?还是毫无关系?即相互独立?人们希望用一个数字就能够在相当程度上描述两个随机变量的联系程度.,5,当然,从数学上看,这是不可能的,因为联合分布的信息量为许多个数,甚至无穷多个数,因此一个数不可能反映出无穷多个数携带的
2、信息.,6,但是我们仍然希望能够找到描述它们之间相互关系的一个数,至少在大多数实际情况下能够描绘两个随机变量联系的紧密程度,例如,如果这个数字越接近于零,说明这两个随机变量的联系越差,越接近于相互独立,反之则联系越紧密,越接近于相互之间有关系.,7,例如,一个人的身高和体重是非常有关系的,但是又并不完全是严格的函数关系,那么关系程度究竟有多大呢?一个人的吸烟量和他的平均寿命是有关系的,这个关系量又有多大呢?,8,一种化肥的施用量和农作物的产量是有关系的,这个关系的大小又是如何呢?这样一些问题都希望能够用一个数字就表示出来,这就是人们想到要用协方差和相关系数的原因.,9,对于两个随机变量X和Y,
3、当它们是完全相等的时候,联系是最紧密的了.而当它们相互独立的时候,联系是最差的了.我们先研究它们的和X+Y的方差:,10,D(X+Y)=EX+Y-E(X+Y)2=EX-E(X)+Y-E(Y)2=EX-E(X)2+Y-E(Y)2+2X-E(X)Y-E(Y)=EX-E(X)2+EY-E(Y)2+2EX-E(X)Y-E(Y)=D(X)+D(Y)+2EX-E(X)Y-E(Y),11,D(X+Y)=D(X)+D(Y)+2EX-E(X)Y-E(Y)关键在后一项2EX-E(X)Y-E(Y),我们定义EX-E(X)Y-E(Y)为X和Y的协方差,用cov(X,Y)表示.则D(X+Y)=D(X)+D(Y)+2co
4、v(X,Y),12,D(X+Y)=D(X)+D(Y)+2cov(X,Y)当X和Y相互独立时,联系最不紧密,这时候cov(X,Y)=0,因此D(X+Y)=D(X)+D(Y)而当X=Y时,联系最紧密,这时候D(X)=D(Y)=cov(X,Y),因此D(X+Y)=D(2X)=4D(X),13,因此,协方差cov(X,Y)的大小可以反映X和Y之间联系紧密程度的大小.当cov(X,Y)=0的时候,X和Y联系最不紧密,而当cov(X,Y)的绝对值较大的时候,X和Y的联系较为紧密,但紧密的程度,却和X与Y的方差D(X)和D(Y)有关.,14,为去除这个因素,因此定义,15,现证明|1,令X=X-E(X),Y
5、=Y-E(Y),则X,Y都是期望值为0的随机变量.对于任给的实数t,相信E(X+tY)20,即E(X2)+2tE(XY)+t2E(Y2)0,即是说关于t的一元二次方程E(X2)+2tE(XY)+t2E(Y2)=0最多只有单个实根或者没有实根,也就说明判别式b2-4ac0,16,E(X2)+2tE(XY)+t2E(Y2)=0b2-4ac0,17,再考虑当|=1时会是什么情况,这时方程,E(X2)+2tE(XY)+t2E(Y2)=0存在着一个单根,假设这单根为t0,则有E(X2)+2t0E(XY)+t02E(Y2)=0即E(X+t0Y)2=0,18,E(X+t0Y)2=0,而当一个总是取非负值的随
6、机变量的期望值为0时,答案只能是此随机变量就是常数0,即存在着实数t0使得X+t0Y=0,即X和Y的离差是正好成比例的,我们将这种情况称作X与Y呈线性关系,因此就有定理(接后页),19,定理,两个随机变量X和Y呈线性关系的充分必要条件,是它们的相关系数的绝对值为1,即|=1而另一方面,如果X与Y相互独立,则它们的相关系数必为0,即=0.,20,当然,数学家们会喋喋不休地宣传当=0时未见得X与Y相互独立,并在作业或者例子中经常给出反例.但是,作为经验之谈,当=0时,两个随机变量确实关系不大了.这也是相关系数被广泛使用的原因.,21,协方差的统计,对协方差EX-E(X)Y-E(Y)的统计是这样,先
7、是通过试验获得了X和Y的n对数据(x1,y1),(x2,y2),.,(xn,yn)然后令,22,23,几种重要的分布,二项分布,24,在第一章介绍过独立试验概型,作n次相互独立的试验,每次试验事件A出现的概率为p,不出现的概率为q=1-p,事件A出现的次数X为一离散型随机变量,则我们已经知道,25,如假设第i次试验时事件A发生的次数为随机变量Xi,则Xi服从0-1分布,PXi=1=p,PXi=0=q=1-p,(i=1,2,.,n)因此有X=X1+X2+.+Xn,26,定义 如果随机变量X有概率函数,其中0p1,q=1-p,则称X服从参数为n,p的二项分布.简记作Xb(n,p)或XB(n,p),
8、27,在这里PX=k的值恰好是二项式(q+px)n展开式中第k+1项xk的系数.,28,如果Xb(n,p),则X可看作是由n个取1概率为p的相互独立的0-1分布的随机变量Xi,i=1,2,.,n的和,X=X1+X2+.+Xn,29,X的分布函数为,30,31,例 某工厂每天用水量保持正常的概率为3/4,求最近6天内用水量正常的天数的分布.,32,解 设最近6天内用水量保持正常的天数为X,则Xb(6,0.75),因此,33,其分布表如下表所示,34,分布图:,35,例 10部机器各自独立工作,因修理调整的原因,每部机器停车的概率为0.2.求同时停车数目X的分布.,36,解 Xb(10,0.2),
9、用贝努里公式计算pk如下表所示,37,概率分布图如下图所示,38,例 一批产品的废品率p=0.03,进行20次重复抽样(每次抽一个,观察后放回去再抽下一个),求出现废品的频率为0.1的概率.,39,解 令X表示20次重复抽取中废品出现的次数,Xb(20,0.03),40,二项分布的期望和方差如Xb(n,p),则X可看作n个相互独立的0-1分布的随机变量X1,X2,.,Xn之和,X=X1+X2+.+Xn,41,而且我们知道0-1分布的期望为p,方差为pq,其中q=1-p.因此易得E(X)=E(X1)+E(X2)+.+E(Xn)=npD(X)=D(X1)+D(X2)+.+D(Xn)=npq即,42
10、,也可根据定义直接计算二项分布的数学期望和方差,43,44,考虑EX(X-1)=E(X2)-E(X),45,令i=k-2,46,即E(X2)-E(X)=n2p2-np2,因此E(X2)=n2p2-np2+npD(X)=E(X2)-E(X)2=np-np2=np(1-p)=npq,47,二项分布的最可能值使概率PX=k取最大值的k记作k0,称k0为二项分布的最可能值,如图示意,由上图可知P(X=k0)P(X=k0+1)且P(X=k0)P(X=k0-1),48,49,50,分析np+p-1k0np+p,知道np+p比np+p-1大了1,因此挤在这两个数中间的整数有1个还是2个取决于np+p是否正好
11、是整数.,51,如果正好是整数,则无论是np+p还是np+p-1都满足上面的不等式,这个时候就有两个最可能值np+p-1和np+p.,52,如果np+p不是整数,则k0取被np+p-1和np+p夹在中间的整数才能够满足上面的不等式.因此可以看作是不大于np+p的最大整数,记作np+p,53,一些例子,如果是反复地掷硬币试验掷了100次,则Xb(100,0.5),最可能值是1000.5+0.5=50+0.5=50如果Xb(1000,0.3),则最可能值是10000.3+0.3=300,54,例4 某批产品有80%的一等品,对它们进行重复抽样检验,共取出4个样品,求其中一等品数X的最可能值k0,并用贝努里公式验证.,55,解 Xb(4,0.8),因np+p=40.8+0.8=4是整数,所以k0=4和k0=3时PX=k为最大,即3和4为最可能值.,56,一般说来,在n很大时,不等式,57,58,59,(1999年考研题)设随机变量X和Y的方差存在且不等于0,则D(X+Y)=DX+DY是X和Y的().A.不相关的充分条件,但不是必要条件B.独立的必要条件,但不是充分条件C.不相关的充分必要条件D.独立的充分必要条件.,60,作业 第25页开始 习题2-2第9,10题第70页开始 习题4-3第2,3题.学号小于2003021561的学生交作业,