《南昌大学概率论协方差和相关系数ppt课件.ppt》由会员分享,可在线阅读,更多相关《南昌大学概率论协方差和相关系数ppt课件.ppt(66页珍藏版)》请在三一办公上搜索。
1、1,B(n, p),(01),U(a, b),E( ),p pq np npq,P( ), 2,N(, 2),体现了随机变量数字特征的重要性,常用随机变量的期望与方差,可以互相确定,均和参数关联,2,对于随机变量(X,Y)而言: E(X)、E(Y)反映分量X、Y各自的平均值 D(X)、D(Y)反映分量X、Y各自的平均偏离程度,并未反映X、Y之间的相互关系,4.3 协方差和相关系数,这就是本章的又一个问题 协方差与相关系数,3,即 cov(X,Y) = E (X-EX)(Y-EY).,1. 定义设二维随机变量(X,Y),一、协方差,记为 cov(X,Y).,若 E(X-EX)(Y-EY) 存在,
2、则称 E(X- EX)(Y- EY) 为 X,Y 的协方差,离散型,连续型,二维随机变量函数(X-EX)(Y-EY)的期望,4,Cov(X,Y)=E(XY) -E(X)E(Y),可见,若X 与 Y 独立, Cov(X,Y)= 0 .,2. 计算协方差的一个简单公式,由协方差的定义及期望的性质,可得,Cov(X,Y)=E X-E(X)Y-E(Y) ,=E(XY)-E(X)E(Y)-E(Y)E(X)+E(X)E(Y),=E(XY)-E(X)E(Y),即,特别地,5,协方差的性质,性质1 协方差的计算与X,Y 的次序无关,Cov(X, Y) = Cov(Y, X),性质3 对任意常数 a1,a2,b
3、1,b2 有,Cov(a1X+b1, a2Y+b2) = a1a2Cov(X, Y),性质4 设X1,X2 , Y1,Y2为随机变量,则有,Cov(X1+X2, Y)=Cov(X1, Y)+Cov(X2, Y),Cov(X, Y1+Y2)=Cov(X, Y1)+Cov(X, Y2),性质2 Cov(X, a) =0,6,性质5 设X,Y 为随机变量,则有,D(XY)=D(X)+D(Y)2Cov(X,Y),性质6 设X,Y 为任意随机变量,则有,Cov(X, Y)2 D(X) D(Y),Cov(X, Y)2 =(E X-E(X)Y-E(Y)2,= D(X)D(Y),证明:, EX-E(X)2EY
4、-E(Y)2,柯西-许瓦兹不等式,7,注:,1 协方差可正、可负、可为零。,2 的大小刻划了X与Y线性关系的强弱。,3 受量纲的影响,不便于实际应用。,8,协方差的大小在一定程度上反映了X和Y相互间的关系,但它还受X与Y 自身取值的影响。,Cov(kX, kY)=k2Cov(X,Y),为了克服这一缺点,就需要对协方差进行标准化处理,这就引入了相关系数的概念。,例如:当X与Y同时增大k倍时, kX与kY之间的相互联系和X与Y之间的相互联系应该是一样的,但反映这种联系的协方差却增大了k2倍,即,9,随机变量的标准化,设随机变量X的数学期望E(X),方差D(X)均存在,且D(X) 0,定义一个新的随
5、机变量,则 EX*=0,DX*=1。称X*是随机变量X的标准化了的随机变量。,消除受量纲的影响,10,标准化以后的随机变量协方差,常数,二、相关系数,定义:,若D(X)0,D(Y)0,则称,为X,Y的相关系数或标准协方差,记为XY ,即,12,2. 相关系数的性质,证 由方差与协方差的关系知,X 和Y 以概率1线性相关,D(X *Y * )= DX *+ DY * 2 cov(X *, Y * ),= 1+ 1 2 cov(X *, Y *),= 2(1 XY ),证 “”:,“”:设|XY| = 1,,若 a 0 和 b, P(Y = aX +b)= 1,若 XY = 1,,由(1)的证明可
6、知 D(Y *-X *)= 0,则有 P(Y = aX + b)= 1,P(X=C)=1 DX = 0,类似可证 XY = -1 时的情形.,a,b,相关系数从概率角度刻划了X 和Y 之间 “线性相关”的程度,13, X 与Y 独立时,cov(X,Y) = E(XY) EXEY = 0,由 XY= 0 不一定能推出X 和Y 独立.,定义3. 当 XY = 0 时, 称 X 与Y 是不相关的或无关的.,例 设 X U(- , ), Y = X 2,则 EX =,0 ,故 cov(X,Y) = E(XY)EXEY = 0,即X 和Y 不相关 .,但 Y 与 X 有严格的函数关系.,无 关 未 必
7、独 立!,(3) X 和Y 独立 = 0;,独立必无关,但其逆不真,X 与Y 不相关仅是指 X 与 Y 之间没有线性关系,E(XY)=,= 0 , = 0 ,独立性与相关性从不同角度刻划了随机变量 之间的联系程度,X,Y 统计规律之间的联系,X,Y 之间的线性关系,若(X,Y)正态分布,则X与Y不相关等价于X,Y相互独立,例1 设(X,Y)的概率密度为,求Cov(X,Y)、XY,解:,同理,得:,有: Cov(X, Y)=E(XY)E(X)E(Y),同理,得:,D(X)=E(X2)E2(X),同理,得:,有:,17,解,例2,18,19,20,结论,21,解,例3,22,23,24,练习,25
8、,解:,26,例 设 (X,Y)的概率密度为,证 (1),0 , 其他 , EX = EY = 0,= 0 , cov(X,Y)= 0, = 0 ,, X 与 Y 不相关.,(2), f (x, y), X 与 Y 不独立.,证明 (1) X 与 Y 不相关;(2) X 与 Y 不独立.,27,28,(一) 数学期望(均值),29,(3)数学期望的性质:,假设以下随机变量的数学期望均存在 1. E(C)=C, (C 是常数) 2. E(CX )=CE(X ), (C 是常数) 3. E(XY )=E(X ) E(Y ), 4. 设X与Y 相互独立,则 E(XY )=E(X )E(Y),30,(
9、二)方差,1。若X: 离散型.,2。若X: 连续型.概率密度为 f(x),(1),计算公式:,3。均方差或标准差:,31,假设下列方差均存在 1。 D(C)=0, (C为常数) 2。 D(CX)=C2 D(X), (C为常数) 3。 设X与Y是两个随机变量,则有 特别,若X与Y相互独立: D(XY)=D(X)+D(Y) 4。 D(X)=0 PX=E(X)=1.,(2)方差的性质,32,B,2.已知随机变量X在-1,1 上服从均匀分布, Y=X3 , 则 X与 Y ( ) (A)不相关且相互独立; (B)不相关且相互不独立; (C)相关且相互独立; (D)相关且相互不独立。,D,第四章 习题课,
10、33,3.设X,Y为随机变量,若E(XY)=E(X)E(Y) ,则有( ) (A) D(XY)=D (X) D(Y) (B) D(X+Y)=D (X)+D (Y) (C) X和Y相互独立. (D) X和Y不独立.,B,4.设X,Y是两个随机变量,如果存在常数a,b ( )使得 PY=aX+b=1,且 0D (X)+ ,那么 为( ) (A) 1; (B) -1; (C) ; (D) .,C,34,二、填空题,1. 设X1 , X2 , X3相互独立, X1 U(0, 6), X2N(0,4), X3P(3), 则D(X1 -2 X2 + 3 X3) = .,2. 设一次试验成功的概率为p, 进
11、行100次独立重复 试验. 当 p = 时,成功次数的标准差的值最 大. 最大值为 .,46,1/2,5,3. 设XP(), 且 E(X-1)(X -2)=1. 则 = .,1,35,6. 设X的概率密度为 且 E(X)=1/2, D(X)=3/20, 则 a = , b= , c= .,-12,12,-1,4. 设E(X)=2, E(Y)=4, D(X)=4, D(Y)=9, xy=0.5, 则 E(3X2 -2XY+Y2- 3)= , D(3X Y )= .,36,27,5. 设XU(0,1), YU(1,3), X与Y相互独立,则 E(XY )= , D(XY )= .,1,4/9,36
12、,极限定理包含的内容很广泛,只有在相同的条件下进行大量重复试验时, 随机现象的规律性才会呈现出来.,概率论与数理统计是研究随机现象统计规律性的学科.,研究大量的随机现象, 极限工具无疑是最有效的方法.,大数定律 与 中心极限定理,我们先介绍,也就是说,要从随机现象中寻求必然的法则, 应该研究大量随机现象.,这导致了对极限定理的研究.,其中最重要的有两类:,5.1 大数定律,37,设随机变量X 有期望 和方差,,由切比雪夫不等式可看出:DX 越小,则事件|X-E(X)| 的概率越大,或,由此可体会方差的概率意义:它刻划了随机变量取值的离散程度,一、切比雪夫不等式,则 0,证 (仅就连续的情形给出
13、证明),则 0,设X 的密度函数为 f ( x),即随机变量X 集中在期望附近的可能性越大.,在未知分布的情形下估计 P(|X-EX| ),38,例1 已知E(X)=100, D(X)=30,试估计X落在(70,130)内的概率,解:,P70X130,=P|X100|30,由契比雪夫不等式,得:,0.967,契比雪夫不等式给出了在随机变量X的分布未知情况下,事件|X|或|X|的概率的一种估计方法,39,例2 设有一大批种子,其中良种占1/6. 试估计在任选的 6000 粒种子中, 良种所占比例与1/6 比较上下小于1%的概率.,解 设 X 表示 6000 粒种子中的良种数 ,X B (6000
14、,1/6 ),40,实际精确计算,用Poisson 分布近似计算,取 = 1000,41,1. 设,相互独立,,,,,则根据切贝谢夫不等式, 对于任意给定的,,有_.,42,它们的方差都存在,设 Xn 是相互独立的随机变量序列,则 Xn 服从大数定律.,定理1(Chebyschev切比雪夫大数定律 ),且有公共上界,即对任意的 0, 有,证明切比雪夫大数定律主要的数学工具是切比雪夫不等式,证 由Chebyschev不等式,由极限夹逼准则知结论成立.,任意事件的概率 1,特别地, 改方差的限定条件为: 设Xn 独立且有相同的期望 和方差 2 ,则 0, 有,在独立和同期望、方差的条件下, n 个
15、随机变量的算术平均值当 n 时, 依概率收敛于它的期望 .,即存在常数 C , 使得 DX i C , i =1, 2, ,当n 充分大时几乎不再是随机的了,43,切比雪夫大数定律给出了平均值稳定性的科学描述,44,2. 设随机变量序列,相互独立,它们满足切贝谢夫大数定律, 则,的分布可以是_.,(A),服从,上的均匀分布.,服从参数为,的泊松分布.,服从参数为,的泊松分布.,服从正态分布,45,贝努里大数定律,设n次独立重复试验中事件A发生nA次, 在每次试验中事件A发生的概率为p,则 0,有:,46,令,由契比雪夫大数定律得出结论,E(Xi)=p, D(Xi)=p(1p),又,47,关于贝
16、努利定理的说明:,故而当n很大时, 事件发生的频率与概率有较大偏差的可能性很小. 在实际应用中, 当试验次数很大时, 便可以用事件发生的频率来代替事件的概率.,Bernoulli大数定律提供了通过试验来确定事件概率方法的理论依据,即用频率估计概率是合理的.,48,下面给出的独立同分布下的大数定律,不要求随机变量的方差存在.,设随机变量序列X1,X2, 独立同分布,具有有限的数学期E(Xi)=, i=1,2,,则对任给 0 ,,定理3(辛钦大数定律),这为在不知分布的情形下, 取多次重复观测的算术平均值 作为 EX 的较为精确的估计提供了理论保证.,辛钦大数定律为寻找随机变量的期望值, 提供了一
17、条实际可行的途径:,则当 n 时, 对X 的 n 次观察结果的算术平均值 以概率收敛于 X 的期望值 EX = .,若视 X i 为重复试验中对随机变量 X 的第 i 次观察,49,这一讲我们介绍了大数定律,大数定律以严格的数学形式表达了随机现象最根本的性质之一:,它是随机现象统计规律的具体表现.,大数定律在理论和实际中都有广泛的应用.,平均结果的稳定性,50,在实际问题中,常常需要考虑许多随机因素所产生总影响.,例如, 炮弹射击的落点与目标的偏差, 就受着许多随机因素的影响.,5.2 中 心 极 限 定 理,如瞄准时的误差,空气阻力所产生的误差,炮弹或炮身结构所引起的误差等等.,对我们来说重
18、要的是这些随机因素的总影响.,中心极限定理的客观背景,51,观察表明, 如果一个量是由大量相互独立的随机因素的影响所造成,而每一个别因素在总影响中所起的作用不大. 则这种量一般都服从或近似服从正态分布.,我们就来研究独立随机变量之和所特有的规律性问题:,当 n 无限增大时, 这个和的极限分布是什么呢?,在什么条件下极限分布会是正态的呢?,自从高斯指出测量误差服从正态分布之后, 人们发现正态分布在自然界中极为常见.,在一般情况下, 我们很难求出 X1 + X2 + + Xn 分布的确切形式,但当 n 很大时, 可以求出这个和的近似分布.,52,由于无穷个随机变量之和可能趋于,故我们不研究n个随机
19、变量之和本身而考虑它的标准化的随机变量,的分布函数的极限.,可以证明,满足一定的条件,上述极限分布是标准正态分布.,中心极限定理,53,在概率论中,习惯于把和的分布收敛于正态分布这一类定理都叫做中心极限定理.,我们只讨论几种简单情形.,下面给出的独立同分布随机变量序列的中心极限定理,也称列维一林德伯格(LevyLindberg)定理.,54,设Xi是独立同分布的随机变量序列,定理1(独立同分布的中心极限定理),N(0, 1);, N(n, n 2);,N( , 2/n).,可近似认为:,且EXi=, DXi=2 0, i =1, 2, ,n,的分布函数 Fn(x)满足,的标准化随机变量,则 0
20、 ,n 个独立同分布的随机变量, 不论原来服从什么分布, 当 n 充分大时, 其和的标准化 总可近似地认为是服从标准正态分布.,正是大量随机变量服从正态分布的理论解释,反映了中心极限定理的客观背景,55,例如,PaXb,56,一箱内装 200 瓶,所以每瓶的口服液净重为随机变量,例1用机器把口服液装瓶. 由于机器会有误差,期望值为 100g , 标准差为 10g .,求一箱口服液净重大于 20500g 的概率.,解 设一箱口服液净重为 X 克,箱中第 i 瓶净重为 X i ( i = 1, 200 ),显然诸 X i 独立且同分布,,且 EX i = 100, DX i = 10 2 (i =
21、 1, , 200).,记,则所求概率为 P( X 20500 ),n = 200,20000,= 0. 0002 .,由独立同分布中心极限定理知,57,例2 某大型商场每天接待顾客10000人,设每位顾客的消费额(元)服从200, 2000上的均匀分布,且顾客的消费额是相互独立的, 试求该商场的销售额(元)在平均销售额上、下浮动不超过30000元的概率,解:,设第k位顾客的消费额为Xk (k=1,2,10000),商场日销售额为X,则,58,由已知,=100001100=11106,由独立同分布中心极限定理,有:,59,P1110630000X11106+30000,2(0.58) 1,0.
22、44,60,事件 A 发生的次数 n,设随机变量序列Xn 相互独立, 且都服从参数为 p(0p1)的二点分布, 则对任意的 x, 有,即 n 很大, 0p1是一定值时, 二项分布近似于正态分布 N(np, np(1-p).,定理(De Moivre-Laplas(棣莫佛拉普拉斯),或 近似服从 N(0,1),正态分布是二项分布的极限,下面举例说明中心极限定理的应用,独立同分布中心极限定理的特例,记住,61,求夜晚同时开着的灯数在 6800 到 7200 之间的概率.,夜晚每盏灯开着的概率为0.7 ,解 设 X 为夜晚同时开着的灯数,例3 一供电网共有 10000 盏功率相同的灯,假设各盏灯开、
23、关彼此独立,由DL定理重要公式知,(n = 10000, p = 0.7),应用中的概率解释:,尽管该电网负责供应一万盏灯所需的电力,则 X B(n,p),以题意知所求概率为 P(6800 X 7200),但提供 7200 盏灯所需的电力就能以 99.99 % 的概率保证需求.,62,试以99% 的把握断定:,从这批电子元件中任取6000 只, 其中次品所占比例与 1/6 的差不超过多少?,例4 已知一批同型号的电子元件的次品率为1/6,这时 6000 只电子元件中次品数的范围是什么?,解 设6000之中次品数为X ,则 X B(n, p),n = 6000, p = 1/6,6000只元件中
24、次品所占的比例为 ,由题意知要求 , 使得,查表知,6000之中次品数应在 926 只到 1074 只之间.,由DL定理重要公式,= 0. 0124 ;,63,题 设有一批种子,其中良种占1/6. 试估计在任选的6000粒种子中,良种比例与 1/6 比较上下不超过1%的概率.,解 设 X 表示6000粒种子中的良种数 ,X B( 6000 , 1/6 ),由德莫佛拉普拉斯中心极限定理,则,有,64,65,比较几个近似计算的结果,中心极限定理,二项分布(精确结果),Poisson 分布,Chebyshev 不等式,66,这一讲我们介绍了中心极限定理,在后面的课程中,我们还将经常用到中心极限定理.,中心极限定理是概率论中最著名的结果之一,它不仅提供了计算独立随机变量之和的近似概率的简单方法,而且有助于解释为什么很多自然群体的经验频率呈现出钟形曲线这一值得注意的事实.,