医学统计学全科.ppt_三一办公31ppt.com

资源描述

《医学统计学全科.ppt》由会员分享，可在线阅读，更多相关《医学统计学全科.ppt（122页珍藏版）》请在三一办公上搜索。

1、医学统计学,闫世艳2011-4-18,绪论,为什么医学科研工作离不开统计学？,什么是医学统计学？,运用概率论、数理统计学的原理与方法，研究医学领域中随机现象有关数据的搜集、整理、分析与推断，进而阐明其客观规律性的一门应用科学。,医学统计学的研究对象,随机现象（事件）-变异必然现象（事件）“若无变异，无需统计”,医学研究的基本流程,研究设计：专业设计、统计设计研究实施收集资料整理资料分析资料结论,统计学在医学科研中的地位,统计学是工具，是为医学科研服务的；需要与临床专家相互协作。没有好的研究设计，再好的统计方法都无济于事。统计学是在搜集、整理、分析和解释大量数据的过程中完成使命的。“研究结束

2、之后，再找统计学家，相当于进行尸体解剖，他能告诉你的只能是试验失败的原因”RA，Fisher,统计学的基本概念,同质与变异总体与样本概率与频率变量个体误差,同质与变异,同质：研究事物现象存在的共性，是统计学的基础。同质：观察单位间被研究指标的影响因素相同。变异：同质总体中，不同个体间的差异。,总体与样本,个体：观察单位，统计研究中的最基本单位。总体：根据研究目的确定的同质个体构成总体有限总体：有时间、空间、人群范围的限制无限总体：无时间、空间的限制样本：从总体中随机抽取的部分个体，构成样本。,概率与频率,频率：在相同条件下，重复n次试验，某随机事件A发生的次数X与n次试验的比值，即为该事件发生

3、的频率。Buffon 4040次硬币 2048次正面频率：0.5069概率：某随机事件发生可能性大小的度量。用P表示。上述试验，当n逐渐增大时，频率始终在一个常数左右微小波动，这个常数就是概率。扔硬币的试验中，出现正面的概率为0.50.小概率事件，P0.05,参数与统计量,参数：反映总体的统计指标统计量：反映样本的统计指标,变量（variable）与资料（data）,观察或测量的个体（或观察单位）的某项特征，称为变量。如某地7岁儿童的身高、体重等。变量值构成资料。如，一组病人的血压值,资料类型,计量资料：表现为具体的数值、有度量衡单位，如血压、血糖等。百分率资料：减分率计数资料：观察指标是定

4、性的，如阴性、阳性，有病、无病等。二分类、多分类等级资料：尿糖检测结果的+、治疗效果：痊愈、显效、有效、无效等不同的资料类型可以相互转化不同的资料类型有不同的统计分析方法,描述性统计（一）,统计处理,统计描述：描述样本特征：列表、图示、数字统计推断：,计量资料分布特征和描述指标,集中趋势：平均水平算术均数、几何均数和中位数离散趋势：变异性极差、四分位数间距、方差、标准差、变异系数,集中趋势指标-均数mean,算术均数：简称均数，用以描述一组服从正态分布或近似正态分布资料的平均水平。总体均数，样本均数离均差总和离均差平方和,几何均数G（geometric mean）,用于对数正态分布的资料。

5、即原变量值分布不对称，但经对数转换后，近似或服从正态分布的资料。血清学平均抗体效价,中位数M（median）,位置指标中位数：一组资料按大小顺序排列后，中间位置上的观测值。1 2 3 4 5 6 7 1 2 3 4 5 6-median=3.5,百分位数（percentile，Px）,位置指标一组资料从小到大排序后，x%的观测值比Px小，（100-x）%的观测值比Px大，则这个位置点的数值，即为第x百分位数Px。第5百分位数P5：有5%的观测值比P5小，有95%的观测值比P5大。中位数即第50百分位数。用于偏态分布的资料。,离散趋势的指标-极差R,极差或全距range：最大值与最小值之差。只考

6、虑最大值和最小值，没有考虑所有的变量。,四分位数间距Q,第25百分位数P25，第50百分位数P50，第75百分位数P75，将所有的数据分为四份。P75-P25即为四分位数间距。考虑了较多的变量信息，但信息利用仍不充分。,方差variance,方差:总体方差，样本方差S2离均差平方和的平均值即为方差。,标准差SD/STD(standard deviation),方差开方即为标准差求方差后，量纲为原量纲的平方。为使量纲恢复到原量纲，将方差开方，即为标准差。总体标准差，样本标准差S,变异系数CV,用于比较不同量纲的变量的变异程度。无量纲,小结,上述指标都是用于计量资料的统计描述除变异系数外，均有量纲

7、变异性指标中，指标值越大，说明数据变异越大分布类型不同，适用的描述指标不同。正态分布常用偏态分布常用中位数M和最小值、最大值或四分位数间距。如：年龄中位数为33.5岁，最小年龄3岁，最大年龄55岁。,计数资料的统计描述,绝对数：实际观察所得相对数：率、构成比、相对比,例题：2005年某市五地区糖尿病患病情况,率(rate),说明在一定条件下，某现象发生的频率或强度。K：比例基数，常用百分率（%）、千分率、万分率、十万分率等。使结果中保留1-2位小数；根据习惯用法,常用的率,发病率、患病率、死亡率、病死率等；发病率(incidence rate)：一定期间内、一定人群中，某病新病例出现的频率。描

8、述疾病的发生频率。,常用的率,患病率（prevalence rate）：现患率，某特定时间内总人口中，现患有某病的人（包括新和旧病例）所占的比例。常用于表示病程较长的慢性病的发生或流行情况。与发病率和病程有关。,常用的率,死亡率（mortality rate）：一定期间内，一定人群中，死于某病（或死于所有原因）的频率。是测量人群死亡危险最常用的指标。,常用的率,病死率(fatality rate)：表示一定时期内（通常为1年），患某病的全部病人中因该病死亡者的比例。用于表示确诊疾病的死亡概率，可表明疾病的严重程度，也可反映医疗水平和诊断能力。多用于急性传染病，较少用于慢性病。,常用的率,在临床

9、实际中，要注意区分上述四种常用率指标的含义，不要混淆。,构成比（proportion）,说明某一事物的内部各组成部分所占的比重或分布。常用来表示疾病或死亡发生的分布情况，不能表示其发生频率或严重程度。,比(ratio),又称相对比，表示两个有关的指标之比，可用倍数或百分数表示。甲乙两个指标可以是绝对数、相对数等；性质可以相同，也可以不同。如果计算时，分子大于分母，结果用倍数表示；反之，结果用百分数表示。,注意事项,分母不宜过小：正确区分率与构成比的意义：正确计算总率：即合计率或平均率。应将各组实际发生某现象的观察单位数之和，除以各组可能发生该现象的观察单位数之和，再乘以比例基数K。,注意事项,

10、比较相对数指标时，注意资料的可比性：随机化：随机抽样原则；观察对象同质、研究方法相同、观察时间相等以及其他影响因素相同或接近；观察对象的内部构成是否相同：即与比较指标有关的影响因素在比较组间是否均衡。内部构成不同时，需分层分析或进行标化。,注意事项,样本率（或构成比）的比较，要做假设检验：样本率或构成比存在抽样误差，相互比较时需要进行假设检验。,正态分布,一种连续型随机变量常见而重要的分布。高斯分布：最初由德国数学家和天文学家德.莫阿弗尔于1733年提出。但高斯将其迅速应用到天文学中，并对其性质进行了进一步的研究，因此又称为高斯分布。,正态分布,是自然界中最常见、最重要的一种连续型分布，是许多

11、统计分析方法的基础。医学中很多数据都近似服从正态分布。,频数分布,当样本量无限增大以及横轴上的组距无限减小时，直方图外缘就变成一条光滑的曲线，这条概率密度曲线所描述的分布就近似于正态分布。,正态分布,是两个常数，分别为圆周率（3.14159）和自然对数的底（近似于2.71828）是正态分布的两个参数，其中为x的总体均数，是x的总体方差。和可以完全决定一个正态分布的形状，因此，对于一个正态分布，可记为,正态分布的特征,1、单峰分布，以x=为中心，左右完全对称，正态曲线以x轴为渐近线，两端与x轴永不相交。2、在x=处有最大值，即此时曲线最高。3、有两个参数：位置参数，决定正态曲线在x轴上的

12、位置；形状参数，决定正态曲线的分布形状。,正态分布的特征,在不变的情况下，函数曲线形状不变，若变大时，曲线位置向右移；若变小时，曲线位置向左移。在不变的情况下，函数曲线位置不变，若变大时，曲线形状变的越来越“胖”和“矮”；若变小时，曲线形状变的越来越“瘦”和“高”。,正态分布的特征,N（1，2）、N（2，2）,N（，0.52）、N（，12）、N（，22）,正态分布的特征,正态分布的特征,4、曲线下的总面积为1或100%。所有正态曲线，在左右的任意个标准差范围内面积相同,曲线下面积,正态分布曲线下的面积,正态分布的应用,许多医学现象服从正态分布或近似正态分布，可制定医学参考值范围；偏态分布的资

13、料可转换为正态分布或近似正态分布，然后按照正态分布的规律进行处理；正态分布是许多统计分析方法的理论基础；,标准正态分布,对于任意一个正态分布，均可转换为均数为0，标准差为1的标准正态分布。标准化变换：u变换或Z变换u或Z叫标准化离差，实际就是用标准差作单位来度量离均差的大小。,标准正态分布,标准正态分布,标准正态分布,纵坐标从移到u所对应区域的面积为上图红色区域面积的大小，这样一个区域的面积我们用(u)表示，可通过查标准正态分布曲线面积分布表得到(u)的大小。u值查表所对应的面积是区间(-，u)所对应的面积，即(u)。若u=-1.96，那么(-1.96)则表示从移到1.96所对应区域的面积，

14、通过查标准正态分布曲线面积分布表得到(-1.96)=0.025,标准正态分布曲线下的面积,医学参考值范围的确定,正常值范围：按一定概率所确定的数据波动范围。计算方法：正态分布法、百分位数法,医学参考值范围的确定,选择足够数量的正常人作为参照样本对选定的参照样本进行准确地测定单双侧范围的确定选择适当的百分范围,正态分布法,正态性检验计算均数、标准差计算参考值范围双侧：单侧：或 90%、95%、99%参考值范围 95%参考值范围：单双侧的确定，要依据专业知识,制定医学参考值范围的注意事项,研究对象：“正常人”同质足够例数-有代表性控制误差：系统误差随机误差单双侧界值：专业知识适当的百分界值：

15、假阳性（误诊）、假阴性（漏诊）,医学参考值范围的含义,95%的参考值范围：95%的变量值的波动范围；95%的变量值在这个范围内不可理解为：在参考值范围内的均为健康人，在参考值范围外的均不健康。,统计推断,基本概念,总体：根据研究目的确定的同质个体构成总体。样本：从总体中随机抽取的部分个体，构成样本。抽样研究：从总体中随机抽取部分观察对象进行研究，通过样本信息来推断总体特征的研究方法。,抽样误差,由于抽样所导致的误差。,由于随机抽样而引起的来自同一总体的样本均数之间以及样本均数与相应的总体均数之间的差异，称之为均数的抽样误差。,标准误,标准差：反映个体差异，反映变量值的变异程度。标准误：样本

16、均数的标准差，用以反映抽样误差的大小。与总体标准差成正比，与样本含量的平方根成反比。一定时，n越大，标准误就越小，n越小，标准误就越大。影响抽样误差的主要因素是样本含量。,标准误,作为总体参数，通常是未知的，在实际工作中常用样本标准差S来估计。所以：作为标准误的估计值。,中心极限定理,样本均数的抽样分布特点：从正态总体中随机抽取例数为n的样本，其样本均数的分布服从正态分布；从非正态总体中抽样，当n足够大时，样本均数的抽样分布近似服从正态分布,标准误的应用,反映样本统计量变异程度的指标，常用来反映抽样误差的大小。用于计算总体均数的可信区间。进行假设检验所必需的重要统计量。,t分布,正态分布通过

17、标准化转换可转换为标准正态分布。中心极限定理：样本均数的分布服从正态分布。u转换：,t分布,在实际工作中，是未知的，用来代替。因此，标准误估计值代替了理论标准误，因此，此时转化后的分布不再符合标准正态分布，而服从t分布。自由度t分布与自由度有关。不同的自由度对应不同的t分布曲线。,t分布的特征,以0为中心，左右对称的单峰分布。t分布曲线是一簇曲线，其形态变化与自由度的大小有关。自由度越小，t值越分散，曲线越低平；自由度逐渐增大时，则t分布逐渐逼近正态分布（标准正态分布）。当时,t分布即为u分布。t分布曲线的峰值较低，而尾部曲线较高，说明远侧t值的个数较多，自由度越小，这种情况越明显。,t分

18、布的特征,t分布曲线下面积的分布规律由于t分布曲线是一组曲线，故t分布曲线下面积为95%和99%界值不是一个常量，随着自由度的变化，95%或99%面积的界值发生变化，当时，95%和99%面积对应的界值趋近于u值。,总体均数的估计,参数估计：点估计、区间估计点估计：样本统计量直接作为总体参数估计值区间估计：可信区间或置信区间CI。用已知的样本统计量和标准误确定一个有概率意义的区间，该区间有较大可信度包含总体参数。可信度：1-。95%、99%,可信区间的含义,如果能进行重复抽样试验，平均有1-的可信区间包含了总体参数。有1-的可能性包含了总体均数。,假设检验的基本思想,小概率反证法，即先建立一

19、个关于样本所属总体的假设，考察在假设成立条件下随机样本的特征信息是否属小概率事件，若为小概率事件，则怀疑假设成立有悖于该样本所提供特征信息，因此拒绝假设。,假设检验,假设检验,74.3次/分,0=72.1次/分,=,在=0的前提下，计算从这个总体中进行随机抽样，得到目前这样结果的概率有多大，然后与事先确定的检验水准0.05比较，得出结论。,假设检验的步骤1,建立检验假设和确定检验水准：无效假设H0：=0，即山区成年男子与一般成年男子的脉搏总体均数相同，或来自同一总体。备择假设H1：有单双侧之分。双侧H1：0单侧H1：0或0单双侧根据专业知识和研究目的而定。,假设检验的步骤1,单侧检验应特别注明

20、。同一资料，单侧检验比双侧检验更易获得拒绝H0的结论。双侧检验更为稳妥和保守，多用双侧检验。如无特殊说明，一般均为双侧检验。,假设检验的步骤1,确定检验水准是预先人为确定的概率，一般为0.05。表示拒绝实际上成立的H0时，推断错误的最大允许概率，即在拒绝H0做出“有差别”结论时可能犯错误的最大允许概率。就是一个标准。用于和P值比较，得出结论。P时，拒绝H0，接受H1,假设检验的步骤2,计算检验统计量根据资料类型、试验设计方法、研究目的和各种统计检验方法的应用条件选择恰当的检验方法如t检验、方差分析等,假设检验的步骤3,确定P值，做出统计推断结论。根据计算出的检验统计量的抽样分布确定P值，与比较

21、，决定是否拒绝H0。,t检验,应用条件：1、样本含量较小时，理论上要求样本为来自正态分布总体的随机样本2、当两小样本均数比较时，要求两总体方差相等（方差齐性）,单样本t检验,用于样本均数与已知总体均数（一般为理论值，标准值或大量观察得到的稳定值）的比较。,例,建立假设和确定检验水准：H0：=0=9.3cm H1：0=9.3cm=0.05（单侧检验）计算检验统计量：,例,确定P值和做出推断结论：查附表2的t界值表，得单侧界值t0.05,11=1.796,因t=1.02570.05。按=0.05水准，不拒绝H0，差别无统计学意义，还不能认为该山区正常产男婴双顶径大于一般男婴双顶径。,配对设计,两个

22、同质受试对象分别接受两种不同处理同一受试对象分别接受两种不同处理同一受试对象治疗前后的比较（临床研究中最常见）配对的目的是使除研究因素以外的其他因素保持均衡，更具有可比性。,配对t检验,实质等同于单样本t检验。将每对数据转化为单个差值，进行差值的样本均数与已知总体均数0=0的比较。,例,建立假设和确定检验水准：H0：d=0 H1：d0=0.05（单侧检验）计算检验统计量：,例,确定P值和做出推断结论：查附表2的t界值表，得单侧界值t0.05,7=1.895,因t=2.264t0.05,7，故P0.05。按=0.05水准，拒绝H0，接受H1，差别有统计学意义，认为实验组大鼠血中胆碱酯酶活性

23、高于对照组。,完全随机设计两样本比较的t检验,也叫成组设计的两样本均数比较的t检验。完全随机设计也叫成组设计。旨在推论两样本均数所代表的两总体均数是否不等。,完全随机设计或成组设计,数据来源于两个相互独立的样本常见的完全随机分组设计,A组,B组,某种自然属性,总体方差相等的t检验,实质等同于单样本t检验。计算两组数据的差值，将差值作为新的变量，进行差值的样本均数与已知总体均数（1-2）=0的比较。,例,建立假设和确定检验水准：H0：1=2 H1：12=0.05计算检验统计量：,例,确定P值和做出推断结论：查附表2的t界值表，得单侧界值t0.05/2,18=2.101,因|t|=4.22t0

24、.05/2,18，故P0.05。按=0.05水准，拒绝H0，接受H1，差别有统计学意义，可认为骨肌康治疗组小鼠琼脂肉芽肿平均重量低于乙醇对照组，即大剂量骨肌康搽剂对小鼠琼脂肉芽肿生长有抑制作用。,方差齐性检验,两组资料对应的总体方差相等，即方差齐性。由于抽样误差的存在，因此，也需进行假设检验。方差齐性检验（homogeneity of variance test）,总体方差不等的近似t检验,在两样本t检验时，若两总体方差不等，可考虑：1、变量变换 2、秩和检验（基于秩的非参数检验）3、近似t检验（校正t检验或t检验）Satterthwaite近似t检验：计算方法不变，只是对自由度进行校正。见例

25、题4-9,正态性检验,两样本t检验：对应的两总体为正态总体，且方差齐单样本t检验：随机样本来自正态总体配对t检验：差值的总体为正态总体正态性检验的必要性。在两样本t检验比较之前，要进行正态性检验和方差齐性检验。,推断结论,P值与进行比较，得出结论。P，拒绝H0，接受H1，按检验水准，得“差别有统计学意义”的结论。反之，P，不拒绝H0（表示没有充足的理由拒绝H0），按检验水准，得“差别无统计学意义”的结论，但不能得“无差别”的结论，只能是“根据目前试验结果，尚不能认为有差别”。不拒绝H0 不等于接受H0,推断结论,统计结论和专业结论专业结论：根据统计结论对实际问题中的总体特征是否不同以及差异的方

26、向做出推断并给出合理的解释。,P值与,P值：从H0所规定的总体中进行随机抽样，所观察到的比现有实验结果更为“极端”的样本检验统计量（小于等于或大于等于现有样本统计量）出现的概率。P值的大小不代表总体间差别的大小，不能认为P值越小，总体参数间的差别就越大。P值越小，说明H0成立的可能性越小，越有把握认为H0不成立。,P值与,：是预先人为确定的概率，一般为0.05。表示拒绝实际上成立的H0时，推断错误的最大允许概率，即在拒绝H0做出“有差别”结论时可能犯错误的最大允许概率。就是一个标准。用于和P值比较，得出结论。,假设检验的两型错误-I型错误,无论是拒绝H0，还是不拒绝H0，都有可能犯错误。I型错

27、误（type I error）：拒绝实际上成立的H0时，犯I型错误。大小为。“弃真”I型错误的含义：在H0成立的条件下，重复100次试验，假设检验结果平均有5次拒绝H0。有单双侧。推断正确的可能性则为1-。又称可信度。,II型错误,II型错误（type II error）：不拒绝实际上不成立的H0时（“存伪”），犯II型错误。大小为。只取单侧，一般是未知的。只有在已知两总体参数差值（如1-2）、和n时，才能估算。,检验效能,检验效能1-：也叫把握度，其意义是：当两总体确有差别时，按现有的检验水准，假设检验能发现其差别的能力。单侧如1-=0.90，其含义是若两总体确有差别，则理论上进行100次抽

28、样，平均有90次能够得出差异有统计学意义的结论。,检验效能,进行样本量估计时，要用到检验效能，一般，定检验效能为0.80，或0.90.检验效能越大，样本量就越大。样本量小的时候，检验效能低，就容易得出假阴性的结论。即较大。当出现阴性结果时，可能是确实没有差别，也可能是样本量小，检验效能太低，导致的假阴性。,I型错误和II型错误,和,不管拒绝H0还是不拒绝H0，都会犯错误。和的关系：越小，就越大；越大，就越小。要同时减小和，唯一的方法就是增加样本含量n。不可能同时犯I型错误和II型错误。拒绝H0时，只可能犯I型错误；不拒绝H0时，只可能犯II型错误。,假设检验时应注意的问题,假设检验结论的正确性

29、是以概率为保证的：2.不能绝对化，在表述上避免使用“肯定”、“一定”、“必定”等词。3.统计结论和专业结论 4.报告结论时，要列出检验统计量的值，并给出具体的P值或P值的范围。,假设检验时应注意的问题,假设检验的实际意义：统计意义与实际意义：有统计意义不代表有实际意义。统计意义只为临床研究提供依据，最后的结论还要结合专业知识来做出。当统计学有意义时，要结合专业知识判定是否有实际意义。当统计学无意义时，可能是确实没有差别或是假阴性。,检验,Chi-square test:卡方检验用于分类资料（计数资料）的统计推断，包括随机设计的两个或两个以上样本率的比较，两组或两组以上构成比的比较，配对设计的两

30、样本率的比较等等。,检验的基本思想,例7-1：某神经科医师欲比较A、B两种药治疗脑血管栓塞病人的疗效，结果见下表。问两药治疗近期有效率是否有差别？,检验的基本思想,检验的基本思想,四格表：有四个基本的数据，其余数据均可由这四个基本数据推出。四格表资料一般用于两组处理结果的比较。,检验的基本思想,在零假设成立的基础上，计算检验统计量,检验的基本思想,检验的基本思想,在零假设成立时，计算得到每个格子的理论频数。若零假设成立，则实际频数与理论频数相差应该不大。因此，从卡方检验的公式可以看出，卡方检验实际是考察实际频数与理论频数的吻合程度。如果假设检验成立，出现大的卡方值的P值是很小的，若P,就怀疑假设，因而拒绝它；若P,就无理由拒绝它。,检验的基本思想,卡方值的大小与格子数有关，格子数越多，卡方值越大，即卡方值的大小不仅与实际频数与理论频数的偏离程度有关，还与自由度有关。卡方检验的自由度为四格表的自由度为1.,检验的基本步骤,建立假设检验，确定检验水准 H0：，即两组的总体有效率相同 H1：，即两组的总体有效率不同=0.05计算检验统计量确定P值，得出结论,检验,基本公式法专用公式：四格表专用公式连续性校正：n40,但1T5时确切概率法：n40,或T1时，或P接近,行X列表的检验,行数或列数大于2时。,

展开阅读全文