抽样原方法和样本量课稿.ppt

资源描述

《抽样原方法和样本量课稿.ppt》由会员分享，可在线阅读，更多相关《抽样原方法和样本量课稿.ppt（49页珍藏版）》请在三一办公上搜索。

1、,抽样方法和样本量,前面已经介绍，总体在很多情况下，往往是很大的，有时是无限的，因此，对总体的研究往往是不可行的而生物统计学的特点之一是其概率归纳原理，即通过对某一特定的、具体的样本进行分析，在一定概率保证下进行总体的推断例如，对水体污染进行检查，对空气质量检查，不需要也不可能对整个水体、整个空气逐一进行检查，只需要抽取一小部分的水、空气进行分析被抽取的这一小部分水、空气就是样本抽取水和空气的这一过程就是抽样的过程,如何抽样？抽样应当遵循什么原则？什么样的样本才能认为符合标准？这是本章要讨论的问题抽样的总原则是：样本必须来自于所研究的总体样本必须能代表所研究的总体抽样方法必须与抽样目的相一致抽

2、样认真、抽样方法正确、客观，样本就具有代表性；反之，抽样马虎、草率、武断、主观、弄虚作假，样本就差，就不具有代表性,抽样方法试验、调查的目的不同，试验、调查的方法不同、抽样的方法也不同这里仅介绍几个抽样方法一、随机抽样法总体比较整齐、变异程度小、群体分布均匀，可用随机抽样法随机抽样法的原则是：总体内每一个体（数据）都有同等的机会进入样本样本中每一个体（数据）进入任何一个组的机会也是相等的,随机抽样法可以完全排除个人的主观性随机抽样法是最简单、最常用的抽样方法随机抽样法有以下几种方法：抓阄法随机数字法伪随机数字法通过随机抽样法得到样本后，一般需计算样本的特征值，用以估计总体参数几乎所有调查

3、和试验都可以采用随机抽样法进行抽样,二、整群抽样和多层次抽样法从总体中抽取数个样本单位群，对单位群内的全部个体作全面调查，或用整个单位群进行试验样本单位群的抽取既可以用随机抽样法得到，也可以有选择地取得在整群抽样的基础上，对抽得的样本单位群不作全面调查，或不是整个样本单位群进入试验，而是在样本单位中继续抽取一定量的个体（数据）组成样本，这就是二级抽样,如果二级抽样得到的不是个体（数据），而是更小的单位群，再从中进行抽样，这就是三级抽样以此类推二级及二级以上的抽样就称为多层次抽样多层次抽样方法适合于资源调查、遗传学试验、育种学试验、传染病（寄生虫病）调查、流行病学调查、经济学调查，等,*三、双重

4、抽样法当所研究的性状比较复杂，或所需经费较多，或须将试验动物宰杀后才能测定，因而不大可能进行重复性试验，或采用直接抽样试验时有较大的难度，可采用双重抽样法采用双重抽样法，首先将所需要进行研究的性状定为目标性状（或称为靶性状），用 y 表示，然后根据文献或其他方法确定一个或几个简单易测、不具破坏性、与靶性状相关性比较紧密的性状，这些性状称为辅助性状，用 xi 表示,从总体中抽取两个样本，一个大样本，一个小样本先对小样本进行调查，或先用小样本进行试验，对这一小样本既测 y 性状，同时也测 xi 性状，获得n 对 y 和 xi，并建立 xi 与 y 的回归方程，最简单的回归方程就是只有一个 xi 的

5、简单回归方程，也可以是曲线回归方程，也可以建立多元回归方程建立回归方程的原则是其 r（或其绝对值）或 R 必须很大，以表明用 x 或 xi 估测 y 其效果比较好,而较大的样本在调查或试验中仅测 xi 性状，并将这一样本中所有被测个体的 xi 代入上述回归方程中以求得相应的 y 估计值这样获得的大样本的 y 估计值，能达到一定的精度这一抽样方法即为双重抽样法双重抽样法的优点是：对于复杂性状的调查或试验仅需破坏较小的样本即能获得较大样本的精确性当目标性状为破坏性性状时，这是唯一行之有效的方法,双重抽样法的适用范围：遗传学试验、育种学试验、繁殖学试验、生理生化学试验、疾病防治试验，等双重抽样示意图

6、：xi y xi,总体y 2,小样本,大样本,样本容量样本容量越大，试验结果就越具有代表性，调查的精确性、准确性也越高但随着样本容量的增大，抽样或试验的成本也越大，当样本容量大到一定程度时，再增大样本容量，试验或调查其精确性的提高就渐趋缓慢：当标准差一定时，标准误的大小与样本容量的平方根成反比，样本容量较小时，随着样本容量的增大，标准误会急剧减小，但当样本容量大到一定程度后再增大样本容量，标准误的减小将会变得越来越慢，即继续增大样本容量，试验精确性的提高其效能将逐步下降,而随着样本容量的增大，试验或调查所需成本、时间、人力、物力等则可能会成倍地增长因此确定一个合宜的样本容量，使得试验或调查既

7、有一个较好的精确度，又能最大限度地节省人力和时间、财力、物力，是试验或调查必须要考虑的问题,样本容量的确定原则和确定方法总体有限、且很大时，同时注意抽样的代表性，样本可占总体的千分之一到百分之一总体不很大时，样本占总体的百分之五率的计算和估计，一般要求大样本在试验中，同一水平或同一组合的变异情况越严重，所需样本越大，同一组合的供试动物越整齐，可适当减少动物数试验越规范，试验结束后使用的统计方法越严格，所需动物数可适当减少,小家畜的供试数应多一些（如鸡、猪），大家畜的供试数可适当少一些试验时，考虑的因子数越多，每一组合内的供试动物数可少一些，单因子试验则每一水平内的供试动物数应多一些,*不同的抽

8、样方法，所需样本量还应当根据具体的抽样方法来确定：整群抽样时，既要考虑群体单位的大小，又要考虑作为样本的群体的多少原则上，应采取小群体、多群体的抽样方法，因为这样可以更全面地了解总体的情况多层次抽样时，有一个每个层次样本量的比例的问题，这里需要考虑每一层次的变异情况及各层次的抽样成本，以便对每一层次内单位数进行合理的分配,*在不知道总体的大小和情况时，可以从试验要求的精确性来考虑样本容量：根据参考文献、他人或自己的经验、专业知识等人为地定出一个样本平均值与总体平均值的离差，即允许误差L：而其中，一般初次总取1.96（置信度为95%）因此：,显然，人为定出的允许误差越大，所需样本量就小反之，人为

9、定出的允许误差越小（即对试验的要求的精确度越高），所需的样本量就越大一般来讲，当所需要的样本量不大时（n30），应当进行反复试求，最后使得 n 稳定在某一个值上例：已知一总体的大致标准差为 9.7，若规定在抽样时允许存在 L=2.5 的误差，试求抽样所需的样本容量,即：在 95%的置信度下，需要61个个体作为一个样本才能较好地说明问题当要求有较高的置信度 99%时，其样本含量的计算公式为：运用这一公式所得到的 n 值一般不应小于 30，当所得样本量小于 30 时，应作进一步的试运算，直至所得样本量 n 稳定时为止,又例：一总体其标准差为 15.9，试验允许误差为L=10，求试验所需最小样本量暂

10、设则由于 n 较小（30），故应重求 n 值查 t 值表，得继续试算，则继续试算，则,所求样本量已稳定在 n=12，即表示抽样以 n=12 为较宜样本量从上面两例可以看出，调查或试验所规定的 L（即允许误差，亦即置信半径）越大，所需样本量就可以越小，表示调查或试验越粗糙反之，所规定的允许误差 L 越小，即调查或试验需要更高的精确度时，所需要的样本量就应越大，这样所得到的结果也越可靠因此，在实施某一调查或试验时，应确定一个合宜的允许误差 L，必要时应调整所设置的 L 值,对于百分率一类性状的调查或试验所需要的样本量，由于，而因此 95%置信度下的样本量为：例：p=0.7，规定调查时的允许误

11、差（置信半径）L=0.075，试求所需样本量：调查百分率性状时，样本量不能太小（n100）,百分率一类的性状求样本容量时，应注意允许误差的取值应小于百分率，特别是当该百分率趋于两端（0.7）时，更应注意 L 的取值,*关于允许误差 L 的取值允许误差 L 即为置信半径，如何确定允许误差，这关系到样本容量的大小，也决定了试验或调查的成败因此允许误差的确定是试验或调查前需要慎重考虑的问题从前面所介绍的公式和例题中我们已经看出，当总体方差（标准差）基本确定后，样本容量（即试验规模）与允许误差的大小是有直接的关系的而总体方差的大小可以根据前人的结果所得到,允许误差如何确定？一是需要查阅大量的文献，从类

12、似的试验或调查中确定本次试验或调查的规模二是根据自身试验或规模的大小来确定，这里需要考虑的一个主要问题是试验或调查的资金来源和经费的充裕程度三是需要考虑试验或调查的精确程度：允许误差实际就是样本平均值与总体平均值的差距最大不超过的某一界限，因此它决定了试验或调查的精确程度,一旦确定了允许误差，就可以用试验或调查结束后得到的样本平均值来告诉人们总体平均值在哪一个可能的范围里面，这一个结论就有了理论依据，不致被人所诘难或质疑因此确定允许误差得到的样本容量不宜太小（样本容量太小试验或调查的结果比较粗糙，也易引起别人的质疑），但也不需要太大（太大需要大量的经费和人力、物力、时间）由于求率、成数等所需要

13、的样本容量还是尽可能大一些为好,*抽样误差的估计抽样误差，一般用标准误来表示，因此，估计抽样误差，就是求标准误的大小标准误既与标准差有关，也与样本容量有关样本不同，所得到的误差不同抽样方法不同，所得到的抽样误差也不同由于抽样误差表示的是样本平均数与总体平均数之间的差异，因此，为了使总体平均数的估计更可靠、更精确，应当使用合适的抽样方法标准误求得以后，应计算总体平均值的置信区间（*）,试验设计原理,研究进程,什么是科学研究？任何人想要达到自己的愿望或要求，在充分尊重客观事实的前提下，所进行的探索性工作研究进程分为如下几个阶段：科学假设资料收集试验方案的制订及试验设计试验的实施资料的分析及

14、统计研究成果的发表,误差,误差的概念及分类从试验中获得的数据总或多或少地偏离真值，这种偏离就称为误差误差分为：系统误差随机误差三类错误系统误差有规律的偏离影响准确性可以消除随机误差无规律影响精确性可以缩小有统计学意义错误人为造成应当消灭,（随机）误差的来源,这里所指误差是指随机误差（简称误差）生物体的复杂性导致了误差的存在，动物体试验又有更大的误差了解误差其目的是为了缩小误差缩小误差有两个现实意义：提高精确性有效减小试验规模缩小误差，其实质是有效地保证数据的整齐程度试验所得到的数据越整齐，误差就越小，所需样本也就可以越小,误差来源于以下三个方面,试验材料遗传物质的不

15、同一（或样本的本质不同）试验动物的基因或遗传物质不可能纯合，越是高等的动物其基因越是复杂，所造成的误差也就越大。这是造成误差的最根本原因试验过程中操作与管理技术的不一致操作人员的技术、管理水平不可能一致，不同的时间段内操作人员的体力、精神、情绪不可能一致，操作人员的责任心也不可能一致,试验外界条件的不统一试验动物不可能安排在绝对一致的环境内，对同一组内每一个供试动物的试验措施也不可能绝对一致,误差的控制,针对造成误差的三大原因，采取的控制措施：选择基因型较为纯合的近交系基因纯合的程度依次为：同卵双生个体、自交系、高度近交的近交系、近交系、全同胞、半同胞、家系、纯种其中，后三种是动物试验

16、中可以实际使用的试验群体两个纯种的杂交后代F1代在某些情况下可以考虑使用,来自同一父亲的半同胞由于群体很大，在遗传学试验、育种学试验、营养学试验、繁殖学试验中经常使用家系一般可用来分析许多遗传性疾病和寻找疾病的遗传学规律，可以用来作人类疾病动物模型中国许多动物地方品种由于地处交通闭塞的地区，因而高度近交，这样的纯种是很好的试验材料，级进杂交的群体也是较好的试验材料,对操作人员进行培训、教育制订标准化的操作规程制订规范化的操作程序尽可能机械化、自动化对所用仪器、设备进行校正设立标准器具制订标准曲线及校正公式同一批样品在同一天内由同一个人用同一批试剂完成测试,对外部环境进行有效

17、的控制试验动物的取样、分组、配置、试验次序采取随机化的原则采用局部控制的方法设置区组，将试验动物进行分组统计分析时将区组（时间、空间）作为一个因子进行处理减少试验动物的活动范围、减少疾病对试验动物的袭扰、消毒减少环境污染、药物污染、饲料污染控制温度、湿度,试验设计的基本原则,重复在同一处理内设置多个独立供试单位作用：正确地评价误差有效地降低误差准确地估计处理效应为随机化、局部控制提供基础,随机化在试验的整个过程中贯彻随机的精神而不带有任何主观偏见作用：使误差的估计无偏、准确正确地评价误差局部控制设置区组，每一区组控制在同一环境内作用：有效地降低系统误差,试验设计三原则的关

18、系：,重复,随机化,设置区组局部控制,使误差估计无偏、准确,评价误差,统计推断,降低误差,提高精确度,三原则,作用,*现在我们来看一个随机化和局部控制的例子,假设设计了6种不同的饲料，从A1至A6。每一种饲料饲喂8头猪，每一头猪一个圈舍，共计48头猪。48个圈舍共分6排，每排8个圈，8头猪，喂一种料。排列如下表。试验中需空腹称重，假设从早晨8：00开始称重，每头猪需时5分钟，则共需240分钟，即4个小时，需称至中午12：00点钟。称重顺序为先称A1的8头猪，然后是A2的8头猪，以后依次为A3、A4、A5，直至A6。那么，A1的8头猪称重时间为8：00到8：40，受空腹影响不大，A2的8头猪就受

19、到一定的影响了，因为这A2的8头猪是从8：40称至9：20的。A3受空腹的影响就更大，因为是从9：20称至10：00点。显然，A4、A5和A6的猪受空腹的影响一个比一个大，到A6的最后8头猪事实上是在11：20以后称重的，这8头猪整整饿了半天，其体重肯定比A1的8头猪损失了好多下面3张表分别是：顺序称重、随机称重、区组称重,称重顺序,称重顺序,一二三四五六七八,上述三种称重方法的比较：,显然，第一种称重方法存在着很大的系统误差，每一只猪的体重中不但有着饲料的效应，而且混杂有称重时间的影响，这一称重方法显然不妥第二种称重方法虽然没有了系统误差，但随机误差却变大了，而且大得让人不能容

20、忍第三种称重方法由于设置了区组，区组内又进行了随机化。按区组进行称重，称重时间引起的差异转化成了区组因素（B），区组内又进行随机配置、随机称重，将每一区组内残留的一点点系统误差转化成了随机误差，因此这一称重方法就消除了所有的系统误差，而随机误差也不致增大很多，对试验精确性的影响不会很大其实，很多试验都有类似的情况,试验设计的注意事项,应全面、规范地收集资料（参考文献）拟订试验方案时应有主攻方向（设置几个因素）设置对照（关于对照，请参看下一页）水平间距应疏密适度（不致太密，也不致太疏）设置预试期（根据试验设定）非试验条件和因素应控制在同一水平（唯一差异）,关于对照的设置任何试验都必须设置对照，不

21、设置对照的试验是不完整的试验对照的种类：空白对照：不施加任何影响条件的一组或一个组合的动物实验对照（又称为基准对照）：施加基础条件的一组或一个组合的动物标准对照：施加标准条件的一组或一个组合的动物（国家标准（强制标准、推荐标准）、行业标准、企业标准、自定义标准）,自身对照：一个试验期内，动物自身前一阶段或试验开始时的的生理状况作为对照相互对照：试验中组与组、组合与组合之间的比较以上对照，均在同一个试验中出现，是一个试验中不可缺少的部分，可以在作统计分析时进行比较（这种比较应出现在论文的“结果与分析”部分）历史对照和文献对照：自己或别人在前一阶段的试验结果。由于这一对照与自己当前的试验不可能具有完全相同的试验条件和试验环境，因此这一类对照与当前试验没有可比性，这种对照不能出现在论文的“结果与分析”中，只能出现在论文的“讨论”部分,并且不能将这种对照与自己的试验结果进行统计学比较，只能进行描述性比较（即定性比较）即：不能用统计学中的显著性检验作统计分析，而只能用文字进行叙述与这种对照相比较，不能出现“差异不显著”、“差异显著”、“差异极显著”等字样这一点，务必注意！,

展开阅读全文