《抽样调查教案1绪论.docx》由会员分享,可在线阅读,更多相关《抽样调查教案1绪论.docx(15页珍藏版)》请在三一办公上搜索。
1、抽样调查教案1绪论李启才南京师范大学数学与计算机学院IiqiCainjnu.Cdu.Cn07级统计学目录第1章绪论第2章简单随机抽样(18)第3章分层抽样(48)第4章不等概率抽样(76)第5章整群抽样(3)第6章系统抽样(3)第7章多阶抽样(3)第8章二重抽样(3)第10章复杂样本的方差估计第11章调查中的非抽样误差(3)第12章案例及其它(3)1参考文献:1致谢:本讲义大量参考引用了文献1、2、3、4、5与其它文献内容,在此一并致谢!抽样技术金勇进蒋妍李序颖编著人大出版社(教材)抽样技术与应用杜子芳编著清华大学出版社抽样调查倪加勋 广西师范大学出版社抽样调查L. KishtUSA倪加勋主译
2、 中国统计出版社抽样调查樊鸿康高教出版社第一章绪论1.1统计与抽样调查引言:什么是统计?你觉得我们需要统计嘛?比如你想明白江苏省2008年人均年收入及其收入分布状况怎么办?像人口普查那样?你想要熟悉南师同学们每个月平均消费水平怎么办?一个个同学去询问?你想过下列问题嘛?当你买了一台电视时,被告知三年内能够免费保修。你想过厂家凭什么这样说吗?说多了,厂家会缺失;说少了,会失去竞争,也是缺失。到底这个保修期是如何决定的呢?如何通过大众调查来得到性别、年龄、职业、收入等各类因素与公众对某项事物(比如商品或者政策)的态度的关系呢?如何才能够客观地得到某个电视节目的收视率,以确定广告的价格是否合理呢?“
3、调查结果说明20%的观众喜欢某节目”“抽样调查结果的误差为3%“支持率的95%置信区间为(25%,30%)”“某学校排名第一”.“消费价格指数为120%”“该药品疗效99%”“该国贫富差距大”“该型号电器的有用年限是20年”你能够举出很多例子。实际上,上述诸多问题都是统计问题,统计学能够解决。因此你马上学习的数理(推断)统计很重要。通常来说,统计先从现实世界收集数据(抽样),然后根据数据作出推断。那么数据你怎么得到呢?像人口普查那样?当然你事实上也可从报纸、电视、互联网、年鉴等方面看到各类数据同时从这些数据能够提取对自己有用的信息。这些间接得到的(并非自己收集的)数据都是二手数据。获得第一手数
4、据要困难得多。某方便面企业每年至少花三四千万元来收集与分析数据,调查其产品及竞争者在市场中的状况、各类类型消费者对其产品的态度、收集各地方的经济交通等信息等等。可见获得统计数据,并对它分析,提取需要的信息是非常重要的,你的预测决策都需要。你能够有很多方法去获取数据,而我们马上进行的抽样调查就是科学获得局部数据并对它进行分析的一种有效手段。一、什么是抽样调查(SarnPIeSUrVey)调查(survey)是系统的信息搜集(或者收集)与分析活动。它通常包含调查主体、调查客体、调查目标、调查目的、调查方案等要素。人类社会在进展过程中离不开对数据、资料、信息的统计调查与分析,比如人口普查、工业生产普
5、查等等这些都是我们常见的。然而政府统计中的普查与定期报表只适于对基本国情(国势、国力等)等调查,而大量的社会现象都不可能作全面调查(一方面费时费力费财.,是否值得?我们是否会“为了明白牛肉的滋味而吞噬掉整头牛”(萨缪尔森Samuelson)?另一方面某些现象根本无法作合理的普查,由于被调查对象可能不完全清晰),因此进展非全面调查非常必要,通过局部数据推断全局特征,这正是统计的一条主线。广义意义上的抽样调查就是非全面调查。非全面调查根据抽取方式不一致,又能够分为非概率抽样与概率抽样。(一)非概率抽样非概率抽样没有严格的定义,也称非随机抽样,是一种不按照随机原则、总体中各单位被抽中概率事先未知或者
6、难以确定的抽样,样本的抽取要紧根据人们的主观推断或者简便性原则来进行。其致命的缺点是,难以计算与操纵抽样误差,难以保证推断的准确性与可靠性。非概率抽样有很多形式:随意抽样、典型抽样、重点抽样、推断抽样、定额抽样与流淌总体抽样等等。随意抽样:也称任意抽样,即抽样者随意地或者任意地(通常遵循便利原则)从总体中抽取样本。如我们常见的街头拦访、商场在柜台分发的问卷调查等。这样的样本往往有偏,不能代表总体。比如调查1840岁女性关于某品牌化妆品观点,则在柜台拦到的单元很可能属于更倾向于经常购买某类或者某品牌的人群,她们的观点显然不能代表全体1840岁的女性。典型抽样:只对总体中的典型(有代表性的)单元调
7、查。如调查一个地方农村经济进展情况,根据调查者对当地情况的熟悉,选择有代表性的村调查;典型案件的调查等。重点调查:只对总体的重点单元调查。这些被选择的单元尽管数目不多,但它们的标志总量在总体总量中占据了绝大部分。如调查我国钢铁行业的现状,则只对宝钢、鞍钢、首钢等几家国有特大型企业调查,由于这几家产量占全国产量大半,把握了它们的情况就能够把握总体情况。典型调查与重点调查中假如抽样者对典型或者重点把握比较准确,则会有较高精度,否则精度比价低。还有其它非概率抽样不一一赘述,本课程重点是在概率抽样上。(二)概率抽样概率抽样也称随机抽样,是遵循随机性的原则,使总体中的每个单位都有一个事先已知的、非零概率
8、被抽中的抽样。从总体中抽取部分单元,采取科学的统计方法,以其所得到的结果对总体的数量特征作出具有一定精度与信度的估计与推断的一种非全面调查方法。总体各单元被抽中的概率能够通过样本设计来规定,通过某种随机化操作来实现。通常所说的、狭义上的抽样就是指概率抽样,狭义上的抽样调查就是指概率抽样调查。常用的概率抽样方式有简单随机抽样、分层抽样、系统抽样、整群抽样、多阶段抽样。我们将在后面章节一一介绍。而抽样调查是遵循随机性的原则,采取科学的统计方法,从总体中抽取部分单元进行调查,以其所得到的结果对总体的数量特征作出具有一定精度与信度的估计与推断的一种非全面调查方法。因而在抽样调查中需要以较多的概率统计知
9、识为基础。二、抽样调查的随性原则抽样调查的随机性原则是指在抽样过程中,样本单元的抽取不受任何主观因素及其它系统因素的影响,从而保证总体中的每一个单元都有一定的概率被抽中。随机性原则是抽样调查所务必遵循的基本原则。有人把随机性原则懂得为任意性或者随意性,还有人将随机性原则等同于客观性原则,认为只要排除了人的主观意识就满足了随机性原则,这些都是不正确定。事实上,随机性原则包含两个缺一不可得方面:抽样的客观性与样本的随机性。(比如网络上的随机调查,随意很大,就不满足这样的条件)抽样的客观性是指在整体抽样过程中,总体每个单元是否被抽中不取决于任何主观因素的影响。这就是说,每个样本单元的取得,既不取决于
10、调查者的爱好与愿望,也不决定于被调查着的合作态度。即使调查者认为所抽取得某个调查单元,加入后会影响样本对总体的估计,也不能另取一个来代替被抽中的样本单元。由于这样就会破坏抽样的客观性,从而违背随机性原则,坚持抽样的客观性是坚持随机性原则的前提。抽样的随机性是指整个抽样过程中务必保证总体各个单元都有一定的被抽中的概率。只有这样才能保证样本结构类似总体结构,才能运用概率与数理统计知识进行合理推断。一个反面案例是:1936年美国作家文摘对总统选举的民意预测调查。该刊从电话簿与俱乐部成员中选取100O万样本进行调查,其中回收200万份,根据样本反映共与党候选人Landon(兰登,57%)大幅度领先民主
11、党候选人RoSSeVIt(罗斯福,43%),因此该刊预测共与党候选人LandOn将确信胜出。然而选举结果却是民主党候选人Rossevlt(62%)以很大优势胜出(LandOn,38%)。为什么作家文摘花费那么大精力收集那么多数据会产生那么大错误,最终导致该刊不久即“关门大吉”呢?原先作家文摘选取样本出了很大问题,完全没有遵循随机性原则。选取得IooO万份样本明显排斥穷人,由于在当时,通常穷人很少拥有私人电话或者属于哪个俱乐部。众所周知,经济地位很大程度上影响政治态度,穷人压倒性支持ROSSeVIt,而有钱人倾心LandOn,作家文摘选取样本没有反映出这样的社会现实(总体结构),从而犯了致命错误
12、。三、抽样调查的特点与作用(1)遵循随机性原则(2)能够科学合理推断总体(3)能够较好的操纵误差(在一定信度下)当今,抽样方法的应用范围不断扩大,它的原理(包含抽样调查理论与抽样推断理论)已成为统计学中进展最快、最活跃的一个分支。它在社会经济与科学领域的应用愈加广泛。 节约成本 时效性强 提高调查数据的质量-能够承担全面调查无法胜任的项目:(1)无限总体比如,气象调查、新工艺新设备新材料的功能调查等等(2)包含未来时间序列总体比如生产过程稳固性检查(3)破坏性的产品质量检验比如灯具寿命有些现象尽管属于有限总体,但是总体范围过大,如水库鱼苗数,森林蓄木量;有些现象根据研究的任务要求没有必要进行全
13、面调查,如民意测验。当然,抽样技术也并非十全十美,首先是由于技术性强而不易懂得与掌握,其次是抽样推断的结果有的时候也会产生差错,三是关于总体未被调查的部分很难提供有价值的信息,四是有些理论方法问题还没有得到完全解决。另外你得有思想准备:作为统计学类课程,它将面临大量实际问题与数据,很多时候计算量是巨大的,然而计算机的进展给你带来了很大的方便,因此应学会使用一些统计软件。(如SPSS)四、抽样调查的应用领域(一)人口调查1、人口调查是最早应用抽样技术的领域。2、我国抽样技术在人口调查中的应用要紧有三个方面:一是用于普查中提早估计人口总数与检验普查的质量;二是用于两次普查年份之间(逢5年份)的1%
14、的人口抽样调查;三是用于每年一次的经常性人口变动情况抽样调查。3、我国现行的人口变动情况抽样调查,使用在抽中的调查小区(调查群),按常住人口登记的原则以户为单位进行调查,全国约抽取120万人。抽样调查的要紧指标是人口出生率、死亡率与失业率。调查的标准时间为当年10月31日0时,现场登记的时间为11月份。调查以全国为总体,以省级单位为次总体,使用分层、多级、概率比例的抽样方法。多数省级单位使用五级抽样方法,直辖市与少数省级单位使用四级抽样方法。(二)经济调查1、经济调查是应用抽样技术最为普遍、也最重要的领域。目前各国在产业、贸易、金融、居民收入与支出、消费等方面,基本上都通过抽样调查来获取信息。
15、2、我国在经济调查方面应用抽样技术的要紧有下列这些方面:农村居民生产、生活情况调查,农产量调查,城镇居民生活情况调查,工业调查,批发零售贸易与餐饮业调查,第三产业调查,企业景气调查,物价调查,固定资产投资调查等政府统计调查,与不一致主体的各类市场调查、专题经济调查。3、不一致的调查,所应用的抽样技术也不一样。(三)社会调查1、抽样技术在社会调查中的应用要紧是各类社会专题调查与民意调查。2、我国有关主管部门与研究机构曾先后组织开展了公众对物价改革的社会心理反映调查,深入的生育率调查,全国专业技术人员状况调查,妇女地位调查,中国儿童情况调查,公众对科学技术态度调查,与老年人状况调查、青少年犯罪调查
16、、全国群众安全感调查等。3、2004年11月的第四次全国群众安全感抽样调查,按照多阶段、分层、整群、概率比例抽样方法,在全国共抽取了997个县、市与市辖区的3631个乡、镇、街道,共调查了102309个家庭,每个家庭随机抽取一名16岁以上的人员。4、我国这些年来,各类研究机构、民间团体也进行了大量民意调查。(四)其它调查抽样技术还在文化卫生调查、环境资源调查等方面得到广泛应用。比如,我国曾先后进行了全国使用语言文字情况调查,中国5岁下列儿童死亡率调查,国家卫生服务总调查,高血压流行病学调查,结核病流行病学调查,老年痴呆病调查,青少年肥胖症调查,儿童脯齿情况调查,粮食农药污染情况调查,耕地面积卫
17、星遥感调查等专题抽样调查。有些国家还开展了森林资源、草地资源与珍惜动物资源等的抽样调查。此外,各国在电视收视率调查方面也广泛使用了抽样技术。五、抽样调查进展简史(来源)1、1776年,法国经济学家麦桑斯在其所著的法国人口论中,以部分地区的人口清查数来推算全国人口。1786年,法国著名数学家拉普拉斯建议用某些地区的出生率来推算整个法国人口,并对推算误差进行了研究。1802年,他在全国选择了30个县,对连续三年内出生的人数进行了调查,得出人口出生率为35.27%o02、1853年,曾提出统计结果稳固性的“平均人”理论的比利时统计学家凯特莱主持召开了第一次国际统计会议,提出在家庭收支调查方面使用“代
18、表性”调查。3、1861年,英国的威廉法尔在人口普查中利用了部分抽样。19世纪末,任美国联邦劳动委员会委员的赖特,在国家工业与劳动统计中曾提到使用“代表性”的样本。4、挪威首任中央统计局局长凯尔是尽力提出并推广抽样技术的先驱者,他在1895年于瑞士伯尔尼召开的第五届国际统计学会会议上,根据1894年由他自己亲自组织进行的关于挪威退休金与疾病保险金抽样调查的经验(调查项目60多个,样本人数8万),提出了所谓“代表性调查”的抽样方法,首次引入了抽样益需代表性调查定义为“根据抽样设计,从总体的正常代表冲合理地收集数据”,认为“调查结果的准确性,不是取决于观察数量的多少,而是取决于正确的代表性方法”,
19、主张“按照一个以过去统计调查为基础的合理方法来选取样本单位”,也就是按照调查者的主观推断来取样,这就是我们所说的有目的抽样。由于凯尔没有提出完善的推断理论与解决如何检验“代表性”的问题,因此他的观点引起了猛烈争论。5、1899年,在俄国彼得堡召开的第七届国际统计学会会议上,凯尔继续捍卫“代表性调查”的方法,同时强调该方法不仅适用于社会经济调查,也适用于农业与林业,还提出了分层的思想与操纵调查结论、便于统计分析的主张,呼吁研究与进展这一方法的实际与理论的各个方面。国际统计学会任命一个分委员会来充分讨论这个问题,同时要求提出研究报告。6、1903年,第九届国际统计学会会议在柏林召开,对“代表性方法
20、”进行确信,并建议继续进行研究。此后,相继出现了随意抽样、推断抽样、定额抽样等非概率抽样形式,并在相当长的时期里得到应用。但非概率抽样毕竟不够科学,比如1936年美国文学摘要杂志用随意抽样方式与1948年美国盖洛普(GanUP)咨询公司用定额抽样方式对总统选举所作的推断预测都遭遇了失败。7、随着代表性方法逐步被同意,争论的焦点开始集中在如何保证样本的代表性上。德国统计学家波特基维茨(1901年)与英国统计学家鲍莱(1906年)都提出应以概率论作为抽样的理论根据。1908年,英国的戈塞特提出了小样本思想与t分布理论。1923年,费希尔提出了方差分析法,完善了小样本理论,阐述了实验设计原理。英国统
21、计学家蒂配特编制了历史上第一张随机数字表。8、1924年,国际统计学会成立“抽样方法应用研究委员会”。1925年,在罗马举行的第十六届国际统计学会会议上,公布了鲍莱的抽样精确度的测定与丹麦统计学家詹森的代表性方法的实践两个报告,首次对随机抽样与有目的抽样进行了比较研究,提出了要按照概率原理给每个单位都有被抽中机会的观点,从理论与实践上充分确信了抽样方法的科学性。91934年,美国统计学家奈曼根据概率论的原理提出了置信区间的推断理论,此后又提出了分层抽样的样本最优分配原理与方法,改进了整群抽样设计,探讨了比率估计方法与双重抽样技术,研究了不等概率抽样方法,并从对比研究中进一步确信了随机抽样的优越
22、性。10、印度著名的统计学家马哈拉诺比斯从1931年开始在他创办的印度统计学院中进行了一系列抽样调查实践与研究工作,他提出了“费用函数”与“方差函数”的概念用于设计最优抽样方案,创立了估计复杂样本方差的“交叉子样本”技术,在农作物产量抽样调查方面取得了许多重要成果。印度的另一统计学家苏克哈特米对分层抽样与非抽样误差操纵的研究也取得了突出成绩。在他们的带领下,印度的抽样技术、特别是农业抽样技术处在了世界领先水平。11、美国也是世界上最早推广应用抽样技术的国家之一。美国劳工部在1937年使用比率估计与置信区间的方法进行了全国失业情况抽样调查,在1938年使用了多阶段抽样方法,在1942年对各阶段抽
23、样进一步使用了非等概率抽样与比率估计方法,同时进行了操纵非抽样误差的设计。1935年,美国进行了消费品购买量抽样调查。不久,美国农业部开展了农业抽样调查。1943年,美国进行了劳动力月报抽样调查,后来进展成为美国最重要的一项调查一一现时人口调查(CurrentPopulationSurvey)0在美国抽样技术的推广应用与进展中,产生了一批著名的抽样专家,如戴明(W.E.Deming),汉森(M.H.Hansen)、赫维茨(W.N.Hurwitz)、麦多(W.GMadow),基什(L.Kish),科克伦(W.GCochran),耶茨(EYates)等。12、休哈特(W.Shewhart),戴明与
24、朱兰(J.Juran)等人,还把抽样技术推广应用到了统计过程操纵与全面质量管理,对战后日本重建与当今世界工商业管理起到了很大的作用。13、原苏联从1925年开始在农业经济、雇佣劳动力、作物面积、牲畜、农产量、集市农庄市场价格、农民与职工家庭收支、工业产品质量检查等方面,广泛使用抽样调查,但随机抽样方法的普遍使用则要紧从50年代开始。14、1947年,联合国专门设立了“统计委员会抽样分会”。1950年,联合国统计局发行了当前各国抽样调查要况,介绍了印度的实践与经验。I960年,出版了抽样调查理论基础,推荐了22种社会经济抽样调查方法,1927年增加至32种。此后又出版了抽样设计的计算机程序与工业
25、普查有用抽样技术。六、我国对抽样技术的研究与推广1、我国对抽样技术的研究与推广始于20世纪三、四十年代,杰出人物是北京大学的许宝禄教授,他在19381945年期间,发表了一系列有关抽样推断与多元分析的论文,达到了当时的世界先进水平,由他编著的讲义抽样论为指导大规模抽样调查提供了方法根据。1943一一1944年,清华大学陈达教授主持了云南户籍示范人口普查,并用抽样方法抽取部分人口以核对普查结果。这是我国第一次抽样调查。上海曾于1946年进行工人生活状况抽样调查。2、1952年8月,新中国成立了国家统计局。3、1955年1月,国家统计局颁布了1954年农民家计调查方案,进行了新中国第一次在全国范围
26、内按统一方案、统一计划进行的农民家计抽样调查,1957年开始在全国范围内建立经常性的农民家庭调查。人民公社化后这项工作暂停了一段时间,1962年又恢复社员家计调查。4、1956年,国家统计局制定了全国职工家计调查方案,运用类型比例与等距抽样相结合的方式,对十个工业部门的国营与公私合营的6000名职工进行了家计调查。1957年,职工家计调查扩大到商业、教育、机关团体等部门,并改变由全国统一抽选调查单位为各地自行抽选,并提出应用双重抽样方法。5、1956年12月,以王思华为团长的国家统计局代表团到印度考察农产量抽样调查工作。61957年6月,统计工作通讯发表社论积极在全国范围开展抽样调查,广泛收集
27、统计资料。7、1957年6月,作为印度政府统计顾问与联合国统计委员会主席的马哈拉诺比斯教授到中国访问讲学。81963年,国务院公布统计工作试行条例,强调指出灵活运用包含抽样调查在内的各类统计调查方法。同年,国务院批准成立第一支专业抽样调查队伍一一全国农产量调查队。国家统计局颁布了农作物产量抽样调查方案(草案)并试点,规定在群众估产的基础上,分层排队,等距抽样。以省(区)为总体使用四阶段抽样方式。1964年,各省(区)正式进行了要紧农作物的播种面积与农产量的抽样调查,推算了全国产量。9、“文革”期间,抽样技术被横加批判,抽样调查工作被迫中断。10、1980年4月,恢复职工家计调查。11、1981
28、年9月,国家统计局在关于加强与改革统计工作的报告中明确指出:“凡是适合用抽样调查的,就不用全面报表;现在已经建立的全面报表制度,适合改用抽样调查的要逐步用抽样调查代替”。同时,国务院批准成立了农村社会经济与城市社会经济两支抽样调查队。1982年,恢复农产量抽样调查,使用往常三年平均粮食亩产排队、累计面积、多阶段等距抽样。同年4月,开始进行城市物价抽样调查,作为编制零售物价指数与职工生活费价格指数的根据。1984年7月,国家统计局颁布农村抽样调查网点的抽选方案(试行),规定农产量、农村住户与其它农经调查的三套网点合而为一。12、1994年,为了习惯社会主义市场经济的需要,经国务院审批,全国统计工
29、作会议提出建立“以周期性普查为基础,以经常性抽样调查为主体,同时辅之以重点调查、科学推算等方法综合运用的统计调查方法体系”,正式提出确立抽样调查的主体地位。同年,国务院批准国家统计局建立第三支抽样调杳队一企业调查队,负责全国第二、三产业的抽样调查。13、抽样技术在我国大力推广的同时,有关高校也纷纷开设了抽样技术或者抽样调查课程,研究抽样技术的人员也越来越多,发表了许多有较高学术水平的论著。通过近20年的努力,我国在抽样技术研窕与推广方面的水平,与世界的差距己经明显缩小。1.2基本概念一、总体与样本我们把研究对象全体构成的集合称之总体,把构成总体的基本成员称之个体(基本单元)。总体中个体的总数目
30、称之总体容量或者大小。在实际中,对总体的研究往往是研究它的某个或者某些数量指标Y(总体参数)。因此在数学上,个体常常是一个个具体的数值,用大写的K(i=1,2N)表示,总体即为赤=也得,A,是总体容量,匕能够是一维数值也能够是多维向量值。但要注意他们本身都是非随机的,只是可能我们不明白。为了对总体进行研究,往往要从总体中抽取若干个(比如个)个体出来进行观察,得到个观察值弘,力,先,称必,为,月或者者(凶,力,打)为抽自总体纵的一个样本,为样本容量或者大小。注:目标总体与抽样总体目标总体就是上述总体,比如我们要研究北京市个体商业的情况,总体就是北京市所有从事商业活动的个体经营单位,每个个体经营单
31、位就是总体单元。抽样总体是指从中抽取样本的总体。理论上讲,抽样总体与目标总体应该是一致的,但是在实践中两者可能不一致。如上述举例,抽样总体是什么呢?选择之一,营业执照,即把北京市工商局个体商业的营业执照作为抽样总体,从中抽取样本。但是有些尽管持有执照但是不再从事商业活动了,他们不在目标总体范畴;有些无照经营,应该属于目标总体。因此二者完全一致是不容易的。(见图1.1)基本原则是,抽样总体由目标总体所决定,但在实践中,能够构造的抽样总体却有可能反过来决定调查中的目标总体,即根据抽样总体来调整目标总体。抽样总体通常是有限总体,它所包含的调查单元个数称之总体容量.常用N表示。样本是总体的一部分,是从
32、抽样总体中按一定方法与程序抽取的部分调查单元的集合,也称之子样。假如说总体是我们所要研究的对象,那么样本就是我们所要观察的对象。样本中所包含的抽样单元数称之样本容量.常用n表示。样本容量与总体容量之比称之抽样比,常用f来表示,即f=nN.关于同一总体,用相同的抽样方法反复从中抽样,能够构成一系列容量为n的样本。从一个总体中最多能够抽取的容量为n的不一致样本数目,称之样本个数。二、抽样框与抽样单元翻开一本书,你会发现前面都有目录,比如,我们的教材,每一部分内容都对应一个编号,“简单随机抽样”对应“2”(第2章)“系统抽样”对应“6”。(第6章)。抽样框有类似的意思,简单来说:我们将抽样总体的基本
33、单元划分成块(当然也能够一个基本单元作为一块),每块我们能够称之为一个抽样单元,然后将抽样单元一一按编号。那么抽样框就是抽样单元与其编号一一对应的一本名册(目录)。严格来讲:定义:抽样框与抽样单元是抽样的一对基本概念。其单元满足与“实际抽样总体的每个单元之间存在确定的对应关系,凭借这种对应关系能够找个实际总体中的一个或者一些单元”条件的实际总体的映射总体称之抽样框,构成映射总体的单元则称之抽样单元。换言之,包含所有抽样单元的总体称之抽样框,构成抽样框的单元称之抽样单元。事实上,为了方便抽样的实施,务必拥有一个目录性清单,这个目录性清单的每个目录项与实际总体的每个单元之间存在确定的对应关系,根据
34、一个目录项总能够找个实际抽样总体中特定的一个或者一些单元。抽样框就是这样的一个目录性清单。抽样时,我们抽取的并不是具体的总体中的某个单元,而是抽取它的编号,我们是用抽样框进行抽取操作的。为了保证抽样之后,调查者能过根据抽样框找到具体的抽样单元,因此务必:抽样框务必是有序的编号。抽样框中的抽样单元务必“不重不漏”。抽样单元不仅指构成抽样框的目录项,同时还表示该目录项所对应的实际总体中的特定一个或者多个单元。它不一定是最小的单元一一基本单元,可能包含一个或者一些基本单元。比如在手机调查中,我们抽中一栋居民楼,居民楼是抽样单元,而楼中的每个居民就是基本单元。抽样单元还能够分级。一个大的抽样单元能够分
35、成若干个小单元。比如,在对我国人口情况做抽样调查时,能够将省份作为抽样单元,先抽省(初级单元);在省内抽样时又能够将县作为抽样单元(次级单元);依次类推(三级单元、四级单元)。最小一级的叫基本抽样单元。在实际工作中,特别是经济调查中,自然行政区划是经常用到的划分抽样单元的方法。比如:欲对南京市小学生的视力状况进行抽样调查,能够将总体(全体南京市小学生)按小学划分成4个抽样单元(这样南京市有几所小学就有几个抽样单元),每个抽样单元依次编上号码,因此抽样框就是这些抽样单元(小学)及其与其对应当编号的目录(如设南京市共有2008所小学:OOOl北京东路小学,Ooo2-北京西路小学2008-仙林小学,
36、这样在抽样时抽取编号,若抽取0002,则就代表抽取北京西路小学。)如把小学中的班级视为二级单位,把学生视为三级单元(基本个体)。抽取的顺序能够为先抽取学校再抽取班级最后抽取学生。通常抽样框还应该含有抽样单元的一些具体信息,比如地理位置、规模等。好的抽样框应该尽量与目标总体一致,而且尽可能提供有关辅助信息。三、总体的数字特征(总体参数)设总体4N=*,Y2,,丫%是一个一维总体,从狷V中等可能地随机抽取一个,记为y,则y为一个随机变量(r.v.,注意用的是小写字母),其分布列为:pf=%,i=i2NN1N因此E(y)=Z4y=Y=石ZK=PZ=IN;=|1N_1NV(y)=Ey2-(Ey)2=Y
37、i2-(Y)2=-Y(Yi-Y)2=2N/=IN/=1称之总体均值,/为总体方差,称之S?=9(匕-力2总体方差,称之S=yS2总体标准差。记=%7)2,y=NF,分别称之总体变异系数及总体总量。设总体的指标值为向量(x,y),总体乃N=肉,工)仆2,丫2),(Xnrn)记人念xs白沙,-灯$=高羽-,SX=苑,Sy=病,称SXy=I7f(Xj-幻(匕-F),P=,NTi=IJXJy3XR=上=Z分别为总体Y与X的协方差,总体Y与X有关系数,总体Y对X的XX线性回归系数,总体Y对X的比率。四、调查的目标量我们称这些(个)要估计的总体数字特征为目标量或者总体参数。常见到目标量有:1总体总量Y2总
38、体均值YNN3总体具有某种属性的个体所占比例P=,即P=旦一,假如令NNV1第i个个体具有该种属性O第i个个体不具有该种属性4二维总体的两个分量的比率R=5比如人口密度、人均收入、食品费用占生活总费用的比例R(恩格尔系数)。5二维总体两个分量的回归系数夕6总体中位数或者其它分位数五、估计量及其评价设(必,力,先)是从总体心中抽取得样本,为某个调查目标量,关于在上面叙述的各类总体数字特征,将其改为小写字母,则得到相应当各类样本的数字特征,名称相同,只须将“总体”改为“样本”即可(样本总量除外)。1点估计构造统计量口,力,),以该统计量(的值)作为总体调查目标量的估计量(值)&=/(%,2,,笫)
39、2区间估计对给定的置信度l-,构造一个随机区间出(切,乂),2(必,口)作为的估计范围并使得P(A2)=-a在抽样调查中,由于抽样方法比较复杂,要确切明白估计量的概率分布是比较困难道,如今通常利用中心极限定理使用大样本方法(孔之30)进行区间估计。如:=Y的估计量分布近似正态分布,因此的近似置信区间为g阿丽,。+加阿丽1,其中l=%2为标准正态分布2分位点,即P(Z%2)=。/2,MSE(八)是估计量的均方误差。3估计量的评价(1)点估计的均方误差(Meansquareerror)记MSE(JLi)=E(-ju)2=E(-E)2(E-)2=V(z)B2,其中8=即为估计量偏倚即系统误差,产生系
40、统误差的原因有两种,一种是估计量本身有偏,这时估计量的数学期望与总体参数不一致;另种情况是非抽样误差因素的影响。V(八)为估计量方差即随机误差。抽样方差表达了多次抽样得到的估计值与真值之间的离散程度,当然我们希望它越小越好,越小说明估计值越集中靠近真值。但真值是未知的,因此通常抽样方差也是未知的,需要估计。(2)无偏性若3=0,即%=则称之无偏估计,否则为有偏估计。若IimB=O,则为渐进无偏估计。(3)有效性若均为的无偏估计,且叭4)叭色),则称仙比衣2有效。(4)评价优劣的两原则均方误差越小越好;对有偏估计仅当1叱 /W)0时,可用。六、精度、样本容量与费用精度通常是用误差来表现的。假如不
41、考虑系统误差,则精度就表现为估计量的方差。如今为提高精度能够采取增加样本容量的方法。但是样本容量越大往往计算复杂且成本增加。而且样本大到一定程度后再增加一个样本单元对提高精度的作用逐步减小。故在确定样本时通常考虑原则:1在满足精度与信度的条件下,使调查费用最小;2在费用同意范围内,考虑适当的信度下,使均方误差最小。本课程四个基本问题:(1)如何合理设计样本(用什么方法抽取样本)(2)获取样本后怎么估计总体数量指标(如总体均值,总体总量)(3)如何计算估计的精度(4)样本容量怎么操纵我们将围绕这四个方面对每种概率抽样展开讨论。1.3 几种基本抽样方法(略)1.4 抽样调查的程序一个完整的抽样调查
42、过程,大致包含下列六个基本步骤:(一)确定调研问题(二)设计抽样方案。(三)编制抽样框与设计问卷调查表(四)实施抽样调查(包含之前的培训、试调查)。(五)数据处理分析。(六)撰写调查报告。练习题:1什么是概率抽样?什么是抽样框?2为什么用正态分布构造置信区间?3有一个理论上的正四面体,四个面分别标有1,2,3,4.抽取一个容量为2的样本,共有多少种可能样本均值?取得该样本均值的理论概率是多少?4现有一个容量为30的样本:554059577679783875488038846643627645795541695942564684657352(1)计算样本均值(2)假设已知总体的标准差为15,试计算了的方差、标准差、并构造总体均值P的置信度为95%的置信区间;(3)假设已知总体的标准差未知,试计算的方差、标准差、并构造总体均值P的置信度为95%的置信区间;(4)你用SPSS等软件对这30个样本数据做统计分析能够直接得到上面的结论嘛?5在问卷调查中,问卷的设计是复杂而重要的一步,你能设计一份调查问卷并说明其中需要注意的问题。