《第二章统计是定义.ppt》由会员分享,可在线阅读,更多相关《第二章统计是定义.ppt(58页珍藏版)》请在三一办公上搜索。
1、生物统计学,BIOSTATISTIC,统计的定义,用以收集数据、分析数据和由数据得出结论的一组概念、原则和方法。,统计应用引例,我国东部和西部的概念是一个比较笼统的概念。如何能够根据需要,选择一些指标来把各省,或各市县甚至村进行分类呢?一个从来没有研究过红楼梦的统计学家如何根据比较写作习惯得出红楼梦从哪一章节开始就不是曹雪芹的手笔了呢?,生物统计学的概念,生物统计学(biostatistics):是用数理统计(mathematical statistics)的原理和方法来分析和解释生物界各种现象和试验调查资料,是研究生命过程中以样本来推断总体的一门学科。,如何理解下面说法?,“明天降水概率为4
2、0%”“支持率为95的置信区间为(25%,30%)”“甲药物比乙药物的疗效显著”“判断某动物属于杂食偏草食动物”“该结果统计意义显著”“身高与体重有显著的相关性”,统计的一个重要但又往往不易为人所理解的特点是统计从来不绝对地说“是”或者“不是”。统计只能够说可能,而且往往提供某事可能发生的概率。统计只说可能性是实际世界的真实体现。真实世界充满了不确定性。,总体(population):具有相同性质的个体所组成的集合称为总体,或述为研究对象的全体。个体(individual):组成总体的基本单元称为个体。,总体、个体与样本,样本(sample):从总体中抽取的若干个体所构成的集合称为样本。它作为
3、总体的代表,是用来估计总体一般特性的。组成样本的每个个体叫样本单元(sample unit),样本中个体的数目称为样本容量(sample size),也叫样本含量,用字母n来表示,在生物学研究中,n30的样本叫大样本,n30的样本叫小样本。,总体与样本的关系样本是总体的缩影,统计分析的任务就是由样本推断总体,因此任何试验都存在抽样问题。为使样本正确地反映总体,抽样时必须采用随机的方法,即随机抽样。,参数和统计数参数:描述总体特征的数量叫参数。一般用希腊字母表示。参数是恒定不变的常量,常用希腊字母表示。如总体平均数,总体标准差。参数是反映事物的总体规律性的数值,科学研究的目的就在于求得对总体参数
4、的了解。统计数:描述样本特征的数量叫统计数。一般用拉丁字母表示。统计数是估计值,根据样本不同而不同,常用小写拉丁字母表示,如样本平均数(x)、样本标准差(s)。,效应与互作主效应(main effect):试验因素相对独立的作用称为主效应,简称主效或效应(effection)。互作效应(interaction effect):两个或两个以上处理因素间相互作用所产生的效应,简称互作或连应(interaction),误差的分类:随机误差(random error):由于试验中许多无法控制的偶然因素所造成的观测值偏离真值的差异。完全是偶然的,找不出确切原因引起的误差,也称偶然性误差(accident
5、al error)。特点:不可避免,无法控制。可通过增加抽样或试验次数降低随机误差系统误差(systematic error):有一定原因引起的误差,也称偏差(bias)。特点:有一些相对固定的因素引起。在某种程度上可以控制,需要精细试验,错误(mistake),是指在试验过程中,人为因素所引起的差错。如:测量仪器校正不准 药品配制比例不当 称量不准确、数据抄错、计算错误注意:降低随机误差 避免系统误差 杜绝错误,准确性(accuracy):指在调查或试验中某一试验指标或性状的观测值与真值接近的程度,也称准确度精确性(precision):指调查或试验中同一试验指标或性状的重复观测值彼此接近程
6、度的大小。特点:准确性不等于精确性,准确性反映测定值与真值符合程度的大小,而精确性反映多次测定值的变异程度,准确性与精确性,目的与要求,目的:根据生物统计学的基本原理和方法,能正确设计科学试验,正确处理试验结果,从中得出较为客观的结论,从而解决在生产与科研实践中诸多单纯依靠生物学知识所不能解决的问题。要求:能掌握生物统计学的基本原理和方法,合理地设计试验和总结试验结果,对试验所获得的数据能够熟练地进行数理统计分析。教学的重点在于:各项统计分析方法的理论依据和适用范围。,第 二章 试验资料的整理与特征数计算,2.1统计数据的搜集与整理 数据的不齐性:1、变异性是自然界存在的客观规律(生物体的变异
7、性主要由遗传因素、环境因素和发育差异造成)。2、生物学研究的对象都是很大的群体,不可能研究全部对象,只能通过研究其中的一部分,来推断全部对象。,2.1.1 数据类型,一、数据类型定(数)量变量(数量性状资料):可测量或计数的变量,可用具体数值与特定计量单位表达的数据称为定量变量。离散型数据(又称离散型变量):由记录不同类别个体的数目所得到的数据,又称计数数据。如脉搏计数、血细胞计数、电泳谱带数、动物死亡个数、孵化个数等。各个观察值只能以整数表示连续型数据(又称连续型变量):是用连续性的数值大小反映某项特征的变量,又称度量数据。如试验中测得的植物的株高,动物体的体长、重量,某化学物质的吸光度等。
8、各个观测值不一定是整数,定性变量(质量性状资料):指能观察到而不能直接测量的变量。这类性状本身不能直接用数值表示。名义变量:如:性别(男女)、血型(A、B、AB、O)、反应阴性与阳性等有序(等级)分类变量:通过相对的优劣差异等级、大小差异等级分类所定义的测量尺度。如,疗效(显效、有效、好转、无效)、动物偏草食程度(完全草食性、杂食性偏草食性、杂食性偏肉食性、完全肉食性)等、植物感病程度,定性变量(质量性状资料)为便于统计分析,需先把质量性状资料数量化,方法如下:统计次数法(frequency counting):于一定总体内,根据某一质量性状的类别统计其次数或频数,以次数或频数来作为该质量性状
9、的数据评分法(point system):用数字级别表示某现象在表现程度上的差别,生物统计学的用途,生物统计学是运用数理统计的原理和方法来分析和解释生物界各种现象和试验调查资料的一门科学,是一门应用数学。在生物学研究中具有重要的作用:对试验设计有重要的指导作用提供数据整理分析的方法提供由样本推论总体的方法提供分析变异因素的方法帮助分析现象之间的关系直观的图表展示,有助于理解和接受,2.1.2 试验资料的搜集,试验资料的来源有两个:一是调查,二是试验。统计学对原始资料都要求完整和准确调查(survey)普查:是指对研究对象的每一个个体都进行测量或度量的一种全面调查要求:在一定时间或范围内进行,目
10、的是摸清研究对象的基本情况。不常用抽样调查(sampling survey):根据一定的原则对研究对象抽取一部分个体进行测量或度量,把得到的数据资料作为样本进行统计处理,然后利用样本特征数对总体进行推断。,抽样是从总体中获得样本的过程。,随机抽样(random sample):是指总体中的每一个个体都有同等的机会被抽取组成样本。从有限总体中抽样,可分为放回式抽样和非放回式抽样放回式抽样:从总体中抽出一个个体,记下特征后放回总体中,再做第二次抽样;非放回式抽样:从总体中抽出个体后,不再放回。对于无限总体来说,放回式抽样和非放回式抽样实际上是没有区别的。,抽样,2.1.2 试验资料的搜集,随机抽样
11、必须满足两个条件:总体中每个个体被抽中的机会是均等的总体中任意一个个体是否被抽中是相互独立的,即个体是否被抽中不受其他个体的影响特点:生物学研究中要完全符合随机样本的理论要求非常困难,要求抽样尽量不受人为影响,2.1.3 试验资料的整理,原始资料的检查与核对:三方面数据本身是否有错误取样是否有差错不合理数据的订正方法:核对原始资料的测量和记载有无差错检查原始资料有无遗失特大、特效异常值的出现缺失数据估计、删除或订正重复错误和异常值要求:在统计处理中非常重要,保证数据完整、真实、可靠。必要时要进行复查或重新试验,二、频数(率)表和频数(率)图的编绘,通常,当观测值不多(n30)时,不必分组,直接
12、进行统计分析;当观测值较多(n30)时,宜将观测值分成若干组,以便统计分析。将观测值分组后,制成频数分布表,可直观看到资料的集中和变异情况。频数分布:一个随机试验的所有结果事件与对应的频数的排列。离散型数据与连续型数据的频数表和频数图略有不同。,1、离散型数据频数(率)表和图的编绘方法,(1)、确定观察值的个数;(2)、将每个观察值确定为一组,该观察值即为该组的组值;(3)、将原始数据表中数据,用唱票的方式填入频数表中,计算出和组的频数和频率。,例1-1 调查50枚受精种蛋孵化出雏鸡的天数.,表11 50枚受精种蛋孵化出雏鸡的天数的频数(率)分布表,图11 50枚受精种蛋孵化出雏鸡的天数的频数
13、分布图,注意:有些离散型数据,观察值较多,变异范围较大,若以每一观察值为一组,则组数太多,每组包含的观察值太少,数据的规律性显示不出来。对于这样的数据,可扩大将几个相邻观察值合为一组,适当减少组数。,100只蛋鸡每年产蛋数的次数分布表,2、连续型数据频数(率)表和图的编绘,例1-2:(1)、从原始数据中找出最大值和最小值,并求出极差R。(2)、决定划分的组数,分组数是由数据的多少决定的,在数据较少时,如50100个数,可分为710组。数据较多时,可分为15-20组。(3)、确定组距 组距i:极差/组数=(组上限-组下限)(4)、根据极差与决定划分的组数、组距,确定各组组限及组中值。A:第一组的
14、组中值以接近或等于资料中的最小值为好。B.确定第一组的下限:组中值iC.确定第一组的上限:下限i以此类推,直到上限大于资料的最大值(5)、将原始数据表中数据,用唱票的方式填入频数表中,计算出各组的频数和频率。,155 153 159 155 150 159 157 159 151 152159 158 153 153 144 156 150 157 160 150150 150 160 156 160 155 160 151 157 155159 161 156 141 156 145 156 153 158 161157 149 153 153 155 162 154 152 162 155
15、161 159 161 156 162 151 152 154 157 162158 155 153 151 157 156 153 147 158 155148 163 156 163 154 158 152 163 158 154164 155 156 158 164 148 164 154 157 165158 166 154 154 157 167 157 159 170 158,表12 某树种苗高测量结果(共100个数据),图12 某树种苗高直方图 横轴表示组界,纵轴表示频数(频数图)或频率(频率图),图13“三尺三”株高多边形图 横轴为中值,纵轴为频数(率),标上各点,连接各点构成
16、多边形图。,表14 苗高的累计频数分布表,图14 苗高累计频数分布图,三、研究频数(率)分布的意义,根据频数(率)表或图,可以看出数据的三个重要特征。集中情况:平均数,中位数,众数变异情况:反映分散在平均数两侧的程度,越分散在平均数附近说明数据越不整齐图形的形状:对称与不对称显示异常分布:可以显示一些不规则的情况,以便寻找原因。,下面请做习题:,P22,2.5,2.2 试验资料特征数的计算,一、平均数mean(或x),算术平均数(arithmetic mean):简称也叫平均数。常用简单算术平均数方法,实际应用中也常用加权平均的方法来计算。是最常用的平均数。简单 加权几何平均数:资料中有n个观
17、测数(正数),其乘积开n次方所得的数值为几何平均数。一般,处于稳定消长过程中生物群体的数量变化呈几何级数,如在细菌、藻类等培养,求平均消长率应采用几何平均数,若用算术平均数则偏高(几何平均数小于算术平均数)。,中位数:位于有序数列中点上的数。中位数反映观测值在位次上的集中与平均特性,它对极值不敏感。样本容量为奇数时,中位数为第(n+1)/2位的变量值;样本容量为偶数时,中位数则取与中点位置相邻的两个变量值的算术平均数,即(xn/2+x(n/2)+1)/2。众数:具有最高频数的组值或中值。均匀分布的数据并不存在众数;而某些数据可能存在两个或三个众数。,二、标准差(或S表示),范围(或极差)(R)
18、max x min x平均离差(MD):离均差绝对值的平均数。样本方差(S2):离均差平方的和(离差平方和)除以n,即标准差(SD)或(S):样本方差的开平方注意:样本标准差不用n,而是用n-1为除数。因为(x-x)2是一最小平方和,如果以n为除数,则所得的s是的偏小估计,如果用n-1替代n,则可避免偏小估计的弊端,提高样本估计总体变异的精确度。,三、标准差的计算方法:,简化计算方法非频数资料的简化计算公式:频数资料的简化计算公式:离散型数据:连续型数据:用中值代替,类似离散型数据计算方法,四、变异系数,标准差可以反映数据的离散程度,如果在两个样本之间进行比较,还要考虑标准差是在什么样的基础上
19、进行的波动,即需要考虑两个样本平均数的大小。例如马和狗体重的标准差相同,那么谁更整齐呢?一定是马,因为马的体重远远大于狗。定义式:考虑标准差和平均数两者关系用来表明样本标准差对平均数的变异幅度。可以用来判断数据整齐程度,变异系数比较小的数据组比较整齐。,做习题:,某苗木10粒种子发芽天数分别为9,8,7,10,12,10,11,14,8,9天,试计算这10粒种子发芽的平均数、极差、方差、标准差和变异系数。某地20岁男子100人,其身高平均数为166.06cm,标准差为4.95cm;其体重平均数为53.72kg,标准差为4.93kg。试比较其身高与体重的变异情况。,答案,X=9.8天,R=7天,
20、s2=4.4天2,s=2.098天,CV=21.41%身高变异系数为CV=4.95/166.06*100%=2.98%体重变异系数为CV=4.93/53.72*100%=9.18%所以该地20岁男子体重的变异大于身高的变异,2.4 本章内容所用的Excel的功能,一、直方图工具(作频数分布表和分布图),直方图对话框输入格式图示,柏拉图,可以在输出表中同时显示按降序排列频率数据。如果此复选框被清除,Excel 将只按升序来排列数据。,次数分布表、柏拉图表及其累积频率,次数分布图(直方图),离散型数据,杂一代白毛黑斑猪自交后的毛色分离情况,将白、黑和花分别转换成1、2和3,然后利用直方图工具求出频数分布表,再将1、2和3恢复成白、黑和花就得到了这三种毛色猪的次数分布表,其结果为白、黑和花三种毛色猪的次数分别为39、17和16头,二、描述统计分析(计算特征数),描述统计分析的基本统计量(一),算术平均数,中位数,样本方差,描述统计分析的基本统计量(二),样本标准差,标准误,偏斜度,描述统计分析的基本统计量(三),峰值(峭度),置信半径,峰值=0,正态分布,峰值为正值,曲线过于陡峭,峰值为负值,曲线过于平坦,描述统计分析对话框,标志项(变量名),200头大白母猪仔猪一月窝重的描述统计分析结果,表示:在5%的显著水平下总体均值的置信区间为(X-3.13,X+3.13)。,