《概率与数理统计第16讲.ppt》由会员分享,可在线阅读,更多相关《概率与数理统计第16讲.ppt(39页珍藏版)》请在三一办公上搜索。
1、第五章 极限定理,下面的强大数定律将(2.1)进行了推广.,5.2 大数律.,称随机变量的序列为随机序列(random sequence).,其含义是n很大时,与 有非零差距的可能性很小。,通常把类似于2.5的结论称为弱大数律(weak law of large numbers).,例1.(接4.1 的例1.4)在赌对子时,甲每次下注100元.如果他连续下注n次,证明他的盈利Sn满足,和定理2.1得到,n 时,,P(Sn 18n)P(|0.6),于是,,P(Sn 18n)=1 P(Sn 18n)1.,说明下注的次数n越多,至少输18n元的概率越大。,类似于(2.6)的结果称为强大数律(stro
2、ng law of large numbers).从强大数律结论(2.6)知道概率的频率定义是合理的。,强大数律结论比弱大数律结论要强:,证明:设 p 是任意小的正数,事件A1,A2相互独立,P(Ai)=p.用 IAi 表示Ai的示性函数,则 IAi 独立同分布.由强大数律得到:,所以,说明有无穷个Ai发生的概率是1.,例2.,在多次独立重复试验过程中,小概率事件必然发生.,5.3 中心极限定理,强大数律和弱大数律分别讨论了随机序列部分和的依概率收敛和以概率1收敛.,中心极限定理讨论对充分大的n,随机变量序列部分和 X1+X2+Xn 的概率分布问题.,令 Sn=X1+X2+Xn.,则Sn为n次
3、独立试验中成功的次数,Sn B(n,p)。,从演示看出 时,Sn的分布形状很象正态分布。,例3.二项分布,则Xj iid B(1,p)(两点分布)。,独立地重复某一试验,设,若Xjiid P(),则由3.4的例4.1知道部分和,例4.Poisson(泊松)分布,从演示看出 时,Sn的分布形状很象正态分布。,例5.几何分布部分和 设Xj独立同分布都服从几何分布,上述分布称为帕斯卡分布.,可以将 Sn=X1+X2+Xn 设想成第n次击中目标时的射击次数(参考几何分布的背景),于是得到,从演示看出 时,Sn的分布形状很象正态分布。,注:得到第n次成功前失败的次数Y的分布称为负二项分布,易见,且Sn=
4、Y+n.,定理3.1.(中心极限定理),我们把结论(3.2)记成,其中的d表示依分布收敛.,中心极限定理是概率论中最著名的结果之一,它不仅提供了计算独立随机变量之和的近似概率的简单方法,而且有助于解释为什么很多自然群体的经验频率呈现出钟形曲线这一值得注意的事实.,中心极限定理的应用:可以用 N(0,1)近似计算关于 的概率,用N(n,n 2)近似计算关于 Sn 的概率。,例6.近似计算,当辐射的强度超过每小时0.5毫伦琴(mr)时,辐射会对人的健康造成伤害.设一台彩电工作时的平均辐射强度是0.036(mr/h),方差是0.0081.则家庭中一台彩电的辐射一般不会对人造成健康伤害.但是彩电销售店
5、同时有多台彩电同时工作时,辐射可能对人造成健康伤害.现在有16台彩电同时工作,问这 16 台彩电的辐射量可以对人造成健康伤害的概率.,例6.近似计算(续),近似服从N(0,1)分布,于是,解:用Xi表示第i台彩电的辐射量(mr/h),则Xi的数学期望=0.036,方差=0.0081.Sn=X1+X2+X16 是n=16台彩电的辐射量.题目要求P(Sn 0.5).认为Xi独立同分布时,按照定理3.1,例6.近似计算(续),这16台彩电以大约58%的概率会对人造成健康伤害.,二项分布的正态近似,推论3.3.设Sn B(n,p),p=1-q(0,1),则,例7.用正态分布计算二项分布,设Sn B(n
6、,p),则Sn近似 N(np,npq)分布,设X N(np,npq),设a,b为非负整数。由中心极限定理,n 较大时,但是注意Sn是取整数值的,所以,上式右端用正态近似和(*)不同。,例7.用正态分布计算二项分布(续),为此取折衷,令,称为连续性校正。此近似公式应在 n 充分大时使用,实际规则可以用 min(np,nq)5。,例7.用正态分布计算二项分布(续),特别地,,某药厂试制了一种新药,声称对贫血的治疗有效率达到80%.医药监管部门准备对100个贫血患者进行此药的疗效试验,若这100人中至少有75人用药有效,就批准此药的生产.如果该药的有效率确实达到 80%,此药被批准生产的概率是多少?
7、,解:用 Sn表示这n(=100)个患者中用药后有效的人数.如果该药的有效率确实是 p=80%,则 Sn B(n,p).由 100p=805,100(1-p)=205,知道可用近似公式(3.4).于是,例8.,例8.(续),如果有效率p80%,则获得批准的概率92%(参考习题7.29).,统计学的做法分为两种:描述性统计推断性统计,第六章 描述性统计,6.1 总体和参数,A.总体、个体和均值,所要调查的对象全体叫做总体(population),总体中每个成员叫做个体。总体一般用随机变量作为数学模型。总体参数是描述总体特性的指标,简称参数。,总体平均或总体均值是参数。常用 表示。如果知道总体的全
8、部个体 则总体方差是参数。常记为。如果知道总体的全部个体 则 称为总体标准差。,B.样本与估计,如果总体只有有限个样本,虽然可以测量所有样本计算总体参数,但可能会消耗过大。有些总体有无限个个体,比如,对某放射性物质测量固定长度时间内放射出的粒子数,每试验一次就有一个不同结果。,为了得到总体的信息,可以从总体中抽取一个有代表性的个体的集合,称为总体的一个样本。也叫观测数据。样本中个体的个数叫做样本量(sample size)。试图用样本的情况去判断总体的情况。从总体中抽取样本的工作叫做抽样(sampling)。,设一个样本为,可计算样本均值和样本方差,s 称为样本标准差。,6.2 抽样调查方法,
9、A.抽样调查的可行性和必要性,抽样的可行性:汤的例子样本的随机性(代表性)适当的样本量。样本量不必随总体增大而增大。,6.2 抽样调查方法,A.抽样调查的可行性和必要性,为了从样本推断总体的情况,样本的代表性是最关键的问题。调查全部总体不现实或不必要,如:寿命试验。抽样调查因为工作量较小所以有时比普查可以更准确。,B.随机抽样,如果总体中的每个个体都有相同的机会被抽中,就称这样的抽样方法为随机抽样方法。简单地分,抽样分为有放回抽取和无放回抽取。无放回抽取从实现上和从精度上更好,总体容量(N)很大时两者差异很小。提高样本量可以提高估计精度,但不是总体越大样本量也需要随之增大。,C.随机抽样的无偏
10、性,从总体 X 中等可能地随机抽取,不论是有放回还是无放回,得到的 X1,X2,Xn看成随机变量,都可以证明。样本在需要讨论其分布性质时看成随机变量,记做大写的X1,X2,Xn,在讨论样本的具体取值时看成普通数值,记做小写的 x1,x2,xn。例:“文学摘要”杂志调查失败的原因:代表性发生偏差。,D.分层抽样方法,总体当中分为不同人群时(如城镇和乡村),虽然仍然进行等可能随机抽样,但这样会产生混杂。好的作法是按人口比例在不同人群中分别进行随机抽样。计算平均值等统计量时要用加权求和(平均)计算。,D.分层抽样方法,优点:同时得到分层的统计量。容易保证样本代表性从而提高精度。实施容易。,E.系统抽样,根据某种固定规律抽取。,作业:,149页 5.12;5.16;5.18.,179页 6.6.,