概率分布与抽样课件.ppt

上传人:小飞机 文档编号:2158684 上传时间:2023-01-21 格式:PPT 页数:96 大小:1.10MB
返回 下载 相关 举报
概率分布与抽样课件.ppt_第1页
第1页 / 共96页
概率分布与抽样课件.ppt_第2页
第2页 / 共96页
概率分布与抽样课件.ppt_第3页
第3页 / 共96页
概率分布与抽样课件.ppt_第4页
第4页 / 共96页
概率分布与抽样课件.ppt_第5页
第5页 / 共96页
点击查看更多>>
资源描述

《概率分布与抽样课件.ppt》由会员分享,可在线阅读,更多相关《概率分布与抽样课件.ppt(96页珍藏版)》请在三一办公上搜索。

1、2023/1/21,1,第四章 概率分布与抽样,从这一章开始便进入推断统计学的内容,它会节省人们的时间和财物最佳限度地认识研究对象。现实世界包含的素材集合非常庞大,从中提取需要的信息非常困难。如:选民人数:每个候选人的支持率是多少?产品:不合格率是多少?环境:污染程度如何?市场:品种、价格、质量、购买力等情况的了解。在这一章里,你将会了解到样本是怎样抽取的,样本统计量是怎样分布的,如何根据样本统计量对总体参数做估计。,2023/1/21,2,主要内容,4.1 抽样的一般问题4.2 三种不同性质的分布4.3 一个总体参数推断时样本统计量 的抽样分布4.4 两个总体参数推断时样本统计量 的抽样分布

2、4.5 其他抽样方法,2023/1/21,3,4.1 抽样的一般问题,4.1.1 一个例子4.1.2 统计抽样的几个基本概念4.1.3 简单随机抽样,2023/1/21,4,4.1.1 一个例子,本例中存栏肉猪10000头组成的集合,则称为总体,它是指在统计抽样中所要了解的研究对象全体,又称为母体,当确定了研究目标时,它具有惟一性。一般总体的单位总数用N表示,称作总体容量。本例中所抽出的100头肉猪组成的集合,则称为样本,它是指在统计抽样中按照“随机原则”从总体N(10000)中抽出的部分单位(每个单位称作样本单位)所组成的整体,又称子样。一般样本的单位总数用n(100)表示,称作样本容量。样

3、本不具惟一性,它的可能个数与N、n及抽样方法有关。通常n30称为小样本,n30称为大样本,在抽样调查中取大或小样本会直接影响到抽样分布的特征。,例 某养猪厂共有存栏肉猪10000头,现欲了解这批肉猪平均每头毛重(设为),如果将每头肉猪过称去获取数据将是不合算的。我们可以按照“随机原则”从中抽出100头称重量,计算这100头的平均每头毛重,以达到我们期望的目的。,2023/1/21,5,1、总体和样本 总体:研究对象全体,又称母体。容量用N表示。具备惟一性。样本:按随机原则从总体中抽出的部分单位的全体,被抽出的每个单位称样本单位。样本容量用n表示。样本不具惟一性。当n30时,为小样本。当n30时

4、,为大样本。,4.1.2 统计抽样的几个基本概念,2023/1/21,6,2、总体参数和样本统计量 根据全及总体各单位变量值计算的反映全及总体某数量特征的综合指标,由于总体唯一确定,故称总体参数。如上例中的 根据样本各单位变量值计算的反映样本某方面数量特征的综合指标,由于样本不具惟一性,故称为样本统计量,它是一个随机变量。如上例中的抽出100头肉猪的平均每头毛重,4.1.2 统计抽样的几个基本概念,2023/1/21,7,3、重复抽样与不重复抽样从总体中抽取样本有两种方法:重复抽样和不重复抽样。,重复抽样,抽样安排-对每次被抽到的单位经登记后再放回总体,重新参与下一次抽选的抽样方法。在每次的抽

5、取中样本单位被抽中的概率都相等,统计中称这样的抽样为相互独立的试验。,不重复抽样,抽样安排-对被抽到的单位登记后不再放回总体的抽样方法。不重复抽样与重复抽样比较,每次抽样的条件是不同的,前一次的抽取结果会对后一次的抽取产生影响,统计中称这样的抽样为相互不独立的试验。,4.1.2 统计抽样的几个基本概念,2023/1/21,8,4.1.3 简单随机抽样,简单随机抽样也称为纯随机抽样。它是对总体单位不做任何分类或排队,直接从总体中按“随机原则”抽取样本单位的调查方式。,为了便于抽取样本单位,一般在明确抽样框的条件下,对总体的每个单位都要编号,然后用抽签式或利用随机数字表进行抽取。,例如:N=500

6、 n=10 编码从1-500号 在随机数表中随意选取二个数字,假如得到4行,43列。则选取的号码从这个被选中的数开始,由于500是个三位数,则小于500的连续三位数即为中选号码,见表中所示。,2023/1/21,9,4.1.3 简单随机抽样,2023/1/21,10,4.2 三种不同性质的分布,4.2.1 几种常见分布4.2.2 总体分布4.2.3 样本分布4.2.4 抽样分布4.2.5 样本推断总体的理论依据,这些内容与前面内容有什么关系?,2023/1/21,11,一、随机变量的概率分布(一)概率分布的含义1、在随机试验中,若X随着试验结果的不同而随机地取各种不同的数值,并且对取每一个数值

7、或某一范围内的值都有相应的概率,则称X为一个随机变量,按其取值特点可分为离散型随机变量和连续型随机变量。2、随机变量在其取值范围内,取值与取值概率间一一对应的关系,称为随机变量的概率分布(probability distribution,简称分布)。3、概率分布可以用各种图表来表示,一些也可以用公式来表示。意义:描述随机变量变化的统计规律;方便地计算某一事件发生的概率。,4.2.1 几种常见分布,2023/1/21,12,(二)离散型随机变量的概率分布,离散型随机变量概率分布的两种表现形式1.分布列(律)2.概率函数,2023/1/21,13,概率函数p(xi)的数学性质,2023/1/21,

8、14,(三)连续型随机变量的概率分布(1/3),1.连续型随机变量的表现方式密度函数,2023/1/21,15,(三)连续型随机变量的概率分布(2/3),2.密度函数 的数学性质3.事件“”发生的概率 的计算方法,2023/1/21,16,(三)连续型随机变量的概率分布(3/3),4.事件“”发生的概率的几何意义5.连续型随机变量的期望值和方差分别为,2023/1/21,17,(四)随机变量的分布函数,1.分布函数的来源 如前所述,离散型随机变量的分布用概率函数来描述,连续型随机变量的分布用密度函数来描述,两者形式不同,表现各异。为了更方便地表现随机变量的分布,下面引入分布函数。2.分布函数的

9、定义,2023/1/21,18,3.分布函数的几何意义及数学性质,1)几何意义2)数学性质,2023/1/21,19,4.随机变量分布函数的具体表现,2023/1/21,20,二、正态分布,4.2.1 几种常见分布,1.定义,2023/1/21,21,正态分布的密度函数图形是一条以均值为中心的对称钟型曲线,二、正态分布,4.2.1 几种常见分布,2023/1/21,22,2.正态分布密度函数 的数学性质,二、正态分布,4.2.1 几种常见分布,2023/1/21,23,3.标准正态分布及其重要意义,二、正态分布,4.2.1 几种常见分布,2023/1/21,24,4.标准化法,二、正态分布,4

10、.2.1 几种常见分布,2023/1/21,25,标准化法的几何意义 标准化变换实质上是作了一个坐标轴的平移和尺度变换,使正态分布的平均数,标准差。,二、正态分布,4.2.1 几种常见分布,2023/1/21,26,5.正态分布表及上侧分位数,二、正态分布,4.2.1 几种常见分布,2023/1/21,27,6.准则,二、正态分布,4.2.1 几种常见分布,2023/1/21,28,准则示意图,二、正态分布,4.2.1 几种常见分布,2023/1/21,29,7.正态分布的重要意义 在随机理论中,正态分布是最重要的一种分布,理由如下:它是最常见的一种分布,现实中许多随机变量服从或近似服从正态分

11、布。在一定的条件下,正态分布是其他分布的近似分布。许多有用的分布,特别是小样本的精确分布是由正态分布推导出来的。,二、正态分布,4.2.1 几种常见分布,2023/1/21,30,三、小样本(n30)的精确分布,1、2分布2、t分布3、F分布,均由正态分布导出的分布,4.2.1 几种常见分布,2023/1/21,31,1、2分布(2 distribution)(1)推导说明,由阿贝(Abbe)于1863年首先给出,后来由海尔墨特(Hermert)和卡皮尔逊(KPearson)分别于1875年和1900年推导出来。设,则构造,则 Yi 服从自由度为1的2分布,即当总体,从中抽取容量为n的样本,则

12、,4.2.1 几种常见分布 三、小样本(n30)的精确分布,2023/1/21,32,1、2分布(2)性质和特点,由于2 分布变量为正态变量的平方和,故分布的变量值始终为正。可加性:若U和V为两个独立的服从2分布的随机变量,U2(n1),V2(n2),则U+V这一随机变量服从自由度为n1+n2的2分布。n个独立正态变量平方和称为有n个自由度的c2-分布,记为c2(n)。c2-分布为一族分布,成员由自由度区分。分布的形状取决于其自由度n的大小,通常为不对称的正偏分布,但随着自由度的增大逐渐趋于对称。期望为E(2)=n,方差为D(2)=2n(n为自由度),4.2.1 几种常见分布 三、小样本(n3

13、0)的精确分布,2023/1/21,33,1、c2分布(3)图示,4.2.1 几种常见分布 三、小样本(n30)的精确分布,2023/1/21,34,1、c2分布(4)c2分布的上分位点,分位点 设X 2(n),若对于:01,存在,满足,则称,为,分布的上分位点。,4.2.1 几种常见分布 三、小样本(n30)的精确分布,2023/1/21,35,由统计学家哥赛特(W.S.Gosset)于1908年提出,并以其笔名命名。,2、t-分布(t-distribution)(1)t分布的构造及性质,4.2.1 几种常见分布 三、小样本(n30)的精确分布,构造:若N(0,1),2(n),与独立,则,t

14、(n)称为自由度为n的t分布。基本性质:(1)f(t)关于t=0(纵轴)对称。(2)f(t)的极限为N(0,1)的密度函数,即,2023/1/21,36,t(n)分布的图形为,2、t-分布(t-distribution)(2)t分布的图示,4.2.1 几种常见分布 三、小样本(n30)的精确分布,2023/1/21,37,对于给定的:0ta)=a的点ta为t(n)分布的上a分位点。,2、t-分布(t-distribution)(3)t分布的上a分位点,4.2.1 几种常见分布 三、小样本(n30)的精确分布,2023/1/21,38,由统计学家费希尔(R.A.Fisher)提出的,以其姓氏的第

15、一个字母来命名构造:设若U为服从自由度为n1的2分布,即U2(n1),V为服从自由度为n2的2分布,即V2(n2),且U和V相互独立,则 称F为服从自由度n1和n2的F分布,记为,3、F分布(F distribution)(1)F分布的构造,4.2.1 几种常见分布 三、小样本(n30)的精确分布,2023/1/21,39,F分布(图示),不同自由度的F分布,3、F分布(F distribution)(2)F分布的图示,4.2.1 几种常见分布 三、小样本(n30)的精确分布,2023/1/21,40,F分布的分位点:对于:01,若满足条件:PFF(n1,n2)=,则称F(n1,n2)为 F(

16、n1,n2)的 上分位点,3、F分布(F distribution)(3)F分布的上a分位点,4.2.1 几种常见分布 三、小样本(n30)的精确分布,2023/1/21,41,1)总体中各元素的观察值所形成的相对频数(频率)分布 2)分布通常是未知的(因为几乎得不到总图所有观察值)3)可以根据理论分析假定它服从某种分布,4.2.2 总体分布,2023/1/21,42,1)一个样本中各观察值形成的相对频数(频率)分布 2)也称经验分布 3)当样本容量n逐渐增大时,样本分布逐渐接近总体的分布,4.2.3 样本分布,2023/1/21,43,1、统计量与参数1)在抽样推断中,无论是总体还是样本,都

17、可以用均值、比例(或成数)、标准差和方差等指标来描述它们的特征。当它们用来描述样本的特征时,称为样本统计量;当它们用来描述总体特征时,称为总体参数。2)样本统计量是样本的函数,依据不同的样本计算出来的值是不同的,所以统计量是随机变量,如样本均值,样本比例,样本方差等。,4.2.4 抽样分布,2023/1/21,44,2、抽样分布的含义1)含义:样本统计量的概率分布,是一种理论分布,在重复选取容量为n的样本时,由该统计量的所有可能取值形成的相对频数分布。2)构造抽样分布包括以下几个步骤:(1)从容量为N的有限总体中随机抽出容量为n的所有可能样本;(2)算出每个样本的统计量数值;(3)算出与每个样

18、本统计量数值相对应的概率,作频数分布表。,4.2.4 抽样分布,2023/1/21,45,3、总体分布、样本均值的抽样分布(例题分析),【例】设一个总体,含有4个元素(个体),即总体单位数N=4。4 个个体分别为x1=1,x2=2,x3=3,x4=4。总体分布、总体均值、总体方差如下。,总体均值和方差,4.2.4 抽样分布,2023/1/21,46,现从总体中抽取n2的简单随机样本,在重复抽样条件下,共有42=16个样本。所有样本的结果为,4.2.4 抽样分布,2023/1/21,47,计算出各样本的均值,如下表,并给出样本均值的抽样分布,4.2.4 抽样分布,2023/1/21,48,样本均

19、值的分布与总体分布的比较(例题分析),=2.5 2=1.25,的分布形式与原有总体的分布和样本容量n的大小等因素有关总体分布,抽样分布,4.2.4 抽样分布,2023/1/21,49,4、抽样分布的意义 因为样本均值 是一个随机变量,因此,与其他随机变量一样,具有平均数(期望)、方差和概率分布。因为 的各种可能取值是多次简单随机抽样的结果,所以 的概率分布称为 的抽样分布。对于这个抽样分布及其特征的了解,可以使我们能够对样本均值 与总体均值 的接近程度进行概率描述。,4.2.4 抽样分布,意义:抽样分布一方面描述了样本的随机性,提供了样本统计量长远而稳定的信息即变化规律;另一方面建立了样本与总

20、体的联系,是进行推断的理论基础,也是抽样推断科学性的重要依据。,2023/1/21,50,一、大数定律,1、是关于均值具有稳定性的一类定律。2、以切比雪夫大数定律为例。设随机变量 相互独立,且具有相同的有限数学期望和方差:则对于任意正数,都有3、若把()看作是来自期望为、方差为2 总体的一个容量为n的样本,随着n的充分增大,样本均值依概率收敛于总体均值。4、大数定律为统计量估计参数提供了理论上的依据。即统计量推断参数是可行的。但大数定律没有提供统计量推断参数时误差的计算方法。,4.2.5 样本推断总体的理论依据,2023/1/21,51,二、中心极限定理(central limit theor

21、em),1.中心极限定理:从均值为,方差为2的一个任意总体中重复抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为、方差为2/n的正态分布。,4.2.5 样本推断总体的理论依据,2023/1/21,52,2.x 的分布趋于正态分布的过程,4.2.5 样本推断总体的理论依据,2023/1/21,53,3.中心极限定理的重要意义,1)确定了正态分布在各种分布中的首要地位。也回答了正态分布是最重要、最常见的分布。2)揭示了正态分布的形成机制。如果某一个量的变化受到许多种随机因素的影响,这种影响的总后果是各个因素的迭加,而且,这些因素中没有任何一个是起主导作用的,那么,这个量就是一个服

22、从正态分布的随机变量。3)提供了推断误差的计算思想方法,特别是大样本处理方法。但没有提供小样本下推断误差的计算方法。,4.2.5 样本推断总体的理论依据,2023/1/21,54,4.3 一个总体参数推断时样本统计量的抽样分布,4.3.1 样本均值的抽样分布4.3.2 样本比例的抽样分布4.3.3 样本方差的抽样分布,2023/1/21,55,1、样本均值抽样分布的含义,1)在重复选取容量为n的样本时,由样本均值的所有可能取值形成的相对频数分布2)一种理论概率分布3)是推断总体均值的理论基础,4.3.1 样本均值的抽样分布,2023/1/21,56,2、样本均值抽样分布的形式(1)总体分布为正

23、态分布,当总体服从正态分布N(,2)时,来自该总体的所有容量为n的样本的均值x也服从正态分布,x 的数学期望为,方差为2/n。即xN(,2/n),4.3.1 样本均值的抽样分布,2023/1/21,57,2、样本均值抽样分布的形式(2)总体分布为非正态分布(n30,大样本情形),从均值为,方差为 2的一个非正态分布总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为、方差为2/n的正态分布,4.3.1 样本均值的抽样分布,2023/1/21,58,1)总体分布为非正态分布且为小样本(n30)2)样本均值的分布为非正态分布,2、样本均值抽样分布的形式(3)总体分布为非正态分布

24、(n30,小样本情形),4.3.1 样本均值的抽样分布,2023/1/21,59,2、样本均值抽样分布的形式(4)小结,4.3.1 样本均值的抽样分布,2023/1/21,60,样本均值的数学期望样本均值的方差(方差的概率意义在于刻画了随机变量取值的分散程度。方差越小,随机变量的取值越集中在期望值附近。)重复抽样不重复抽样,3、样本均值抽样分布的特征,设总体共有N个元素,其均值为,方差为2,从中抽取容量为n的样本,则,4.3.1 样本均值的抽样分布,2023/1/21,61,1)总体(或样本)中具有某种属性的单位数与全部单位总数之比 不同性别的人与全部人数之比合格品(或不合格品)与全部产品总数

25、之比2)总体比例可表示为3)样本比例可表示为,4.3.2 样本比例(成数)的抽样分布,1、比例(成数)的含义,2023/1/21,62,在重复选取容量为n的样本时,由样本比例的所有可能取值形成的相对频数分布。一种理论概率分布。当样本容量很大时(np5和n(1-p)5),样本比例的抽样分布可用正态分布近似。推断总体比例的理论基础。,4.3.2 样本比例的抽样分布,2、样本比例抽样分布的含义及形式,2023/1/21,63,样本比例的数学期望样本比例的方差重复抽样不重复抽样,4.3.2 样本比例的抽样分布,3、样本比例抽样分布的特征,2023/1/21,64,调查误差,登记性误差,代表性误差,系统

26、性误差(偏差),抽样平均误差,实际误差,抽样误差主要是指在用样本数据进行推断时所产生的随机误差。统计推断中的抽样误差通常是指抽样平均误差,它是抽样调查所固有的,是对抽样推断精确度的量度。,4.3.2 样本比例的抽样分布,4、抽样误差(1)调查误差的分类,抽样极限误差,抽样误差,(随机误差),2023/1/21,65,4.3.2 样本比例的抽样分布,(2)统计量的标准误()定义:样本统计量的抽样分布的标准差,测度所有样本统计量的离散程度,也称标准误差或抽样平均误差。A:样本均值 的抽样误差,B:样本成数P的抽样误差,4、抽样误差,2023/1/21,66,样本平均数 的抽样平均误差A、重复抽样,

27、4、抽样误差(3)标准误差的计算,4.3.2 样本比例的抽样分布,2023/1/21,67,B、不重复抽样,4、抽样误差(3)标准误差的计算,4.3.2 样本比例的抽样分布,2023/1/21,68,有限总体中,为校正因子,一般可简写为,一般当抽样比小于等于5时,校正因子可忽略不计。,标准误差就是样本统计量的抽样分布的标准差,也称抽样平均误差,其计算公式如下:,4.3.2 样本比例的抽样分布,4、抽样误差(3)标准误差的计算,2023/1/21,69,当计算标准误时涉及的总体参数未知时,用样本统计量代替计算的标准误,称为估计的标准误。以样本均值的抽样分布为例,当总体标准差未知时,可用样本标准差

28、s代替,则在重复抽样条件下,样本均值的估计标准误为:,标准差=标准误=估计标准误=抽样误差?,4.3.2 样本比例的抽样分布,4、抽样误差(4)估计的标准误(standard error of estimation),70,2023/1/21,总体各单位的差异程度(即标准差的大小):越大,抽样误差越大;样本单位数的多少:越大,抽样误差越小;抽样方法:不重复抽样的抽样误差比重复抽样的抽样误差小;抽样组织方式:简单随机抽样的误差最大。,4.3.2 样本比例的抽样分布,4、抽样误差(5)影响抽样误差的因素,2023/1/21,71,在重复选取容量为n的样本时,由样本方差的所有可能取值形成的相对频数分

29、布对于来自正态总体的简单随机样本,则比值 的抽样分布服从自由度为(n-1)的2分布,即,4.3.3 样本方差的抽样分布,2023/1/21,72,4.4 两个总体参数推断时样本统计量的抽样分布,4.4.1 两个样本均值之差的抽样分布4.4.2 两个样本比例之差的抽样分布4.4.3 两个样本方差比的抽样分布,2023/1/21,73,两个总体都为正态分布,即,两个样本均值之差 的抽样分布服从正态分布,其分布的数学期望为两个总体均值之差方差为各自的方差之和,4.4.1 两个样本均值之差的抽样分布,即:,2023/1/21,74,两个总体都服从二项分布分别从两个总体中抽取容量为n1和n2的独立样本,

30、当两个样本都为大样本时,两个样本比例之差的抽样分布可用正态分布来近似分布的数学期望为方差为各自的方差之和,4.4.2 两个样本比例之差的抽样分布,即:,2023/1/21,75,两个总体都为正态分布,即X1N(1,12),X2N(2,22)从两个总体中分别抽取容量为n1和n2的独立样本两个样本方差比的抽样分布,服从分子自由度为(n1-1),分母自由度为(n2-1)的F分布,即,4.4.3 两个样本方差比的抽样分布,2023/1/21,76,4.5 其他抽样方法,4.5.1 概率抽样 1、分层抽样 2、系统抽样 3、整群抽样 4、多阶段抽样4.5.2 非概率抽样 1、方便抽样 2、判断抽样 3、

31、自愿样本 4、滚雪球抽样 5、配额抽样4.5.3 概率抽样和非概率抽样的比较4.5.4 抽样调查实例,2023/1/21,77,根据一个已知的概率来抽取样本单位,也称随机抽样,概率抽样有简单随机抽样、分层抽样、系统抽样、整群抽样、多阶段抽样等。特点按一定的概率以随机原则抽取样本抽取样本时使每个单位都有一定的机会被抽中每个单位被抽中的概率是已知的,或是可以计算出来的 当用样本对总体目标量进行估计时,要考虑到每个样本单位被抽中的概率,4.5.1 概率抽样,78,2023/1/21,1.分层抽样(stratified sampling),1、定义:将总体单位按某种特征或某种规则划分为不同的层,然后从

32、不同的层中独立、随机地抽取样本单位的方法,又称类型抽样或分类抽样。2、特点:先分层(对总体),后抽样(对层)3、分层要求:层间差别大,层内差别小4、抽样方法:(见下张幻灯片)5、适用:总体单位在总体内部分布不均匀且变异程度大的总体。6、优点:保证样本的结构与总体的结构比较相近,从而提高估计的精度;组织实施调查方便;既可以对总体参数进行估计,也可以对各层的目标量进行估计。,79,2023/1/21,总体N,样本n,等额,等比例,不等比例,1.分层抽样(stratified sampling),2023/1/21,80,例10人年龄资料如下。N=10 n=3,推断总体平均年龄。人:A B C D

33、E F G H I J年龄:5 8 11 39 42 45 48 70 73 76简单随机抽样(B、H、I),(C、D、E),(F、G、I)结论:总体变异较大时分层抽样。分层抽样(B、E、I),(C、D、H),(A、G、J),1.分层抽样(stratified sampling),81,2023/1/21,随机起点,半距起点,对称起点,(总体单位按某一标志排序),按无关标志排序,其抽样效果相当于简单随机抽样;按有关标志排序,其抽样效果相当于分层抽样。,2、系统抽样(机械抽样或等距抽样)(systematic sampling),将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范围内随机地

34、抽取一个单位作为初始单位,然后按事先规定好的规则确定其他样本单位。,2023/1/21,82,系统抽样可以分为无关标志排序抽样和有关标志排序抽样两类。无关标志排序抽样是指排序的标志与被研究的标志无关。如:观察学生考试成绩用姓氏笔划;观察产品质量按生产的先后顺序等。无关标志排序可以保证抽样的随机性,它实质上相当于简单随机抽样。有关标志排序抽样是指排序的标志与被研究标志相关。在对总体各单位的变异情况有所了解的情况下,也可以采用有关标志进行总体单位排列,使各单位的排列顺序和它的变量数值大小保持密切的关系。如:农产量抽样调查,可利用各县或各乡当年估计亩产或最近三年平均亩产标志排队,抽取调查单位。由此可

35、见,按有关标志排序实质上是运用系统抽样的一些特点,有利于提高样本的代表性,它实质上相当于分层抽样。但也必须注意到,系统抽样在排序时,第一个样本单位的位置确定后,其余单位也随之确定,因此要避免抽样间隔和现象本身的周期性节奏相重合,引起系统性的影响。,2、系统抽样(systematic sampling),83,2023/1/21,3、整群抽样(cluster sampling),1、定义:将总体中各单位按一定标准分成若干群(组),再从总体中随机抽取一定数量的群,对抽中群的所有单位全部实施调查。2、特点:先分群(对总体),后抽样(对总体)3、群的类型:自然形成的群;人为划分的群4、分群原则:群间差

36、别小,群内差别大5、抽样方法:(见下张幻灯片)6、适用:在大规模的抽样调查中,如果总体单位多且分布区域广,缺少进行抽样的抽样框,或者在按经济效益原则不宜编制这种抽样框的情况下,宜采用整群抽样方式。,84,2023/1/21,例:总体群数R=16 样本群数r=4,样本容量,简单、方便,能节省人力、物力、财力和时间,但其样本代表性可能较差,3、整群抽样(cluster sampling),85,2023/1/21,例:在某省100多万农户抽取1000户调查农户生产性投资情况。,又称多级抽样,它是将抽取样本单位的过程划分为几个阶段,然后逐阶段抽取样本单位的抽样组织方式。,4、多阶段抽样,2023/1

37、/21,86,其优点在于:首先,便于组织抽样。它可以按现有的行政区划或地理区域划分各阶段的抽样单元,从而简化抽样框的编制。其次,可以获得各阶段单元的调查资料,即根据最初级资料可进行逐级抽样推断,得到各级的调查资料。如农产量调查,可根据样本推断地块资料,根据地块资料可推断村的资料,然后依次推断乡、县等。第三,多阶段抽样的方式比较灵活,各阶段抽样的组织方式可以前述四种为依据进行选择。一般在初级阶段抽样时多用类型抽样和等距抽样,在次级阶段抽样时多用等距抽样和简单随机抽样。同时,还可以根据各阶段的不同特点,采用不同的抽样比。如方差大的阶段,抽样比大一些;方差小的阶段,抽样比小一些。而且多阶段抽样在简化

38、抽样工作的同时,抽样单位的分布较广,具有较强的代表性。,4、多阶段抽样,2023/1/21,87,4.5.2 非概率抽样(non-probability sampling),相对于概率抽样而言抽取样本时不是依据随机原则,而是根据研究目的对数据的要求,采用某种方式从总体中抽出部分单位对其实施调查有方便抽样、判断抽样、自愿样本、滚雪球抽样、配额抽样等方式,2023/1/21,88,1、方便抽样,调查过程中由调查员依据方便的原则,自行确定抽取样本的单位调查员在街头、公园、商店等公共场所进行拦截调查厂家在出售产品柜台前对路过顾客进行的调查优点:容易实施,调查的成本低缺点:样本单位的确定带有随意性,样本

39、无法代表有明确定义的总体,调查结果不宜推断总体,2023/1/21,89,2、判断抽样,研究人员根据经验、判断和对研究对象的了解,有目的选择一些单位作为样本有重点抽样,典型抽样,代表抽样等方式判断抽样是主观的,样本选择的好坏取决于调研者的判断、经验、专业程度和创造性抽样成本比较低,容易操作样本是人为确定的,没有依据随机的原则,调查结果不能用于推断总体,2023/1/21,90,3、自愿样本,被调查者自愿参加,成为样本中的一份子,向调查人员提供有关信息例如,参与报刊上和互联网上刊登的调查问卷活动,向某类节目拨打热线电话等,都属于自愿样本自愿样本与抽样的随机性无关样本是有偏的不能依据样本的信息推断

40、总体,2023/1/21,91,4、滚雪球抽样,先选择一组调查单位,对其实施调查之后,再请他们提供另外一些属于研究总体的调查对象,调查人员根据所提供的线索,进行此后的调查。这个过程持续下去,就会形成滚雪球效应。适合于对稀少群体和特定群体研究优点:容易找到那些属于特定群体的被调查者,调查的成本也比较低,2023/1/21,92,5、配额抽样,先将总体中的所有单位按一定的标志(变量)分为若干类,然后在每个类中采用方便抽样或判断抽样的方式选取样本单位操作简单,可以保证总体中不同类别的单位都能包括在所抽的样本之中,使得样本的结构和总体的结构类似抽取具体样本单位时,不是依据随机原则,属于非概率抽样,20

41、23/1/21,93,4.5.3 概率抽样与非概率抽样的比较,概率抽样依据随机原则抽选样本样本统计量的理论分布存在可根据调查的结果推断总体非概率抽样不是依据随机原则抽选样本样本统计量的分布是不确定的无法使用样本的结果推断总体,2023/1/21,94,4.5.4 抽样抽查实例,The Literary Digest民意测验 1936年,Franklin Delano Roosevelt任美国总统的第一任期届满。共和党的候选人是Kansas州州长Alfred Landon。文学摘要杂志根据约240万人参加的一次民意测验预测,Landon会以57%对43%的压倒优势获胜。但是Roosevelt以6

42、2%对38%的一边倒优势赢得了1936年的选举。(此后不久文学摘要就垮了。),2023/1/21,95,若想找出摘要在哪一点上出了差错,你必须查一下他们是怎样抽取样本的。摘要的程序是将问卷邮寄给1000万人,这1000万人的名字和地址摘自诸如电话簿或俱乐部会员名册。这导致筛选掉那些不属于俱乐部成员或没有安装电话的穷人。抽样程序将这一类或那一类人排除在样本 之外所表现的系统倾向称为选择偏性。在确定那些人应选入样本后,调查机构还需要去获得他们的想法。若被选入样本的大多数人实际上不回答问卷或询问,那将产生严重的扭曲,称为不回答偏倚。,4.5.4 抽样抽查实例,2023/1/21,96,本章小结,概率抽样方法总体分布、样本分布、抽样分布单总体参数推断时样本统计量(样本均值、样本比例、样本方差)的抽样分布(统计研究中常用到Z变量、t变量、变量、F变量,由这四种变量计算出来的值,对于将从样本中得到的信息推广到总体中有重要的作用。)双总体参数推断时样本统计量的分布,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号