《样本及抽样分布1随机样本与直方.ppt》由会员分享,可在线阅读,更多相关《样本及抽样分布1随机样本与直方.ppt(22页珍藏版)》请在三一办公上搜索。
1、前面五章我们讲述了概率论的基本内容,随后的三章将讲述数理统计数理统计是具有广泛应用的一个数学分支,它以概率论为理论基础,根据试验或观察得到的带有随机性的数据,来研究随机现象,对研究对象的客观规律性作出种种合理的估计和判断 数理统计的内容包括:如何收集、整理数据资料;如何对所得的数据资料进行分析、研究,从而对所研究的对象的性质、特点作出推断后者就是我们所说的统计推断问题。本书只讲述统计推断的基本内容。第六章我们介绍总体、随机样本及统计量等基本概念,并着重介绍几个常用统计量及抽样分布,第六章 样本及抽样分布,第一节 总体与样本第二节 直方图第三节 抽样分布,第一节 总体与样本,一、总体和表征总体的
2、随机变量,例如 研究某企业生产的一批电视机显象管的平均使用寿命,那么这一批显象管的全体就组成一个总体,其中每一只显象管就是一个个体。,总体研究对象的全体,个体每一个对象,例如 研究某大学一年级学生的身高情况,这时一年级大学生的全体就是总体;每个大学生就是一个个体。,某工厂10月份生产的灯泡寿命所组成的总体中,个体的总数就是10月份生产的灯泡数,这是一个有限总体;而该工厂生产的所有灯泡寿命所组成的总体是一个无限总体,它包括以往生产和今后生产的灯泡寿命.,有限总体和无限总体,例如,当有限总体包含的个体的总数很大时,可近似地将它看成是无限总体.,在实际中我们真正所关心的是总体的某种数量指标,例如显象
3、管的寿命指标X,学生的身高指标Y,它们都是r.v.(意思是:从中任取一只显象管,其寿命是不能预先确定的,可看作是X的可能取值)。称这样的r.v.为表征总体的随机变量。,为了方便起见,我们就将表征总体的随机变量的所有可能取值的全体看作总体。,若X的分布函数为F(x),则称总体的分布函数为F(x)。,二、样本,对总体进行研究时,对总体中每个个体逐一进行考察,这在实际中往往是行不通的,一是试验具有破坏性,二是需花费大量的人力物力;,常用的方法是:从总体中随机地抽取若干个个体,根据对这部分个体的研究结果推断总体某方面的特征。,定义 从总体X中随机地抽取n个个体,称之为总体X的一个样本容量为n的样本。,
4、假设抽样满足下述两个条件:(1)随机性 为了使样本具有充分的代表性,抽样必须是随机的,应使总体中的每一个个体都有同等的机会被抽取到。(2)独立性 各次抽样必须是相互独立的,即每次抽样的结果既不影响其它各次抽样的结果,也不受其它各次抽样结果的影响。这种随机的、独立的抽样方法称为简单随机抽样,由此得到的样本称为简单随机样本今后,凡是提到抽样与样本,都是指简单随机抽样与简单随机样本。,从总体中抽取若干个个体的过程称为抽样,例如 总体X是一批显象管的使用寿命,现从总体X中抽取n个显象管,Xi表示抽到的第i个显象管的使用寿命,i=1,2,n;由于抽取的随机性,显然,每一个Xi 都是随机变量,并且有着和总
5、体X相同的分布。另外,由于抽取的独立性,相互独立。,记 为总体X的一个样本容量为n的样本。其中Xi表示第i个个体的某个数量指标,是一个r.v.。且 独立同分布(与总体X同分布)。,从总体X中抽取一个个体,就是对X进行一次试验(或观测),得到一个试验数据(或观测值)。因此对于一次具体的抽样观测结果,我们将得到一组数据,记作,称之为样本的一次观测值(样本值)。,例如 从某厂生产的显象管中随机抽取10个显象管,测得寿命如下(单位千小时):4.8,3.4,5.2,4.7,5.5,4.2,4.5,3.9,5.0,4.9 这十个数据就是样本容量为10的样本 的一组观测值。,若将样本,看作是一n维随机变量,
6、则(1)当总体 是离散型随机变量,若记其分布律为,则样本的联合分布律为:,(2)当总体 是连续型随机变量,且具有概率密度函数 时,则样本 的联合概率密度为,(2),解,例1,解,例2,事实上我们抽样后得到的资料都是具体的、确定的值.如我们从某班大学生中抽取10人测量身高,得到10个数,它们是样本取到的值而不是样本.我们只能观察到随机变量取的值而见不到随机变量.,总体、样本、样本值的关系,统计是从手中已有的资料-样本值,去推断总体的情况-总体分布F(x)的性质.,总体分布决定了样本取值的概率规律,也就是样本取到样本值的规律,因而可以由样本值去推断总体.,样本是联系二者的桥梁,由样本值去推断总体情
7、况,需要对样本值进行“加工”,这就要构造一些样本的函数,它把样本中所含的(某一方面)的信息集中起来.,统计量及其分布,如何对样本进行加工?,一、频数与频率分布表,数据的采集:从总体中随机地抽取一个样本,对样本进行一次观测,得到一组数据。,例 从某地一次数学统测的成绩中,随机抽取30个学生的成绩如下:90 77 71 96 68 61 83 74 80 87 88 76 73 83 63 81 94 82 78 88 76 82 77 79 91 72 71 66,第二节 直方图,排序(从小到大);63 66 68 71 71 72 73 74 76 77 77 78 79 80 81 82 8
8、2 83 83 85 87 88 88 90 91 94 95 96,(1)找出最大值,最小值,并计算极差R;R=最大值 最小值=96 61=35。极差R反映了数据波动的幅度。,(2)对数据进行分组(等区间分组),确定分组 的个数k;选取适当的区间长度(组距)d;,n=30,取 k=6,则。,(3)确定各组的上、下限(每组不含上限);,(4)列表得各组的组频数;数出数据落入各个组区间中的个数。,得到频率分布表,表1,二、频数与频率直方图,在平面坐标上,x 轴表示所考察的变量,y 轴表示频数,以表1为例,在横轴上标出6个等长的区间,在纵轴上标出频数,以区间组距为底边,各组的组频数为高作矩形,就得到了频数直方图。,若 y 轴取为组频率,按上述方法就得到了频率直方图,频数直方图与频率直方图形状相似;对于连续型r.v.,频率直方图可作为其概率密度函 数曲线的一种近似。,说明,