卫生统计方法在医学中的应用.ppt

资源描述

《卫生统计方法在医学中的应用.ppt》由会员分享，可在线阅读，更多相关《卫生统计方法在医学中的应用.ppt（113页珍藏版）》请在三一办公上搜索。

1、卫生统计学方法在医学中的应用,中南大学公共卫生学院副院长流行病与卫生统计学系教授杨土保博士生导师,主要内容,基本概念常用统计方法统计描述（定量资料、定性资料）率的标准化常用统计图表t检验2检验秩和检验直线相关与回归分析,卫生统计学基本概念,总体与样本总体：表示大同小异的对象（某个测量值）全体。如一个国家的所有成年人（身高值）；某地的所有小学生（身高值）抽样：从研究总体中抽取一部分有代表性的个体的方法；样本：从研究总体中随机抽取的一部分有代表性的个体；数据：对样本中个体进行深入的观察与测量，获取的测量值。,卫生统计学基本概念,变量的类型变量(variable)：分成定性(quali

2、tative)与定量(quantitative)两种类型。定性变量（分类变量(categorical variable)或名义变量(nominative variable)。例如，职业（工、农、商、学、兵等）是一个分类变量；其可能的“取值”不是数字,卫生统计学基本概念,二分类变量(binary variable)，称为0-1变量例如，性别（男女）、疾病（有无）和结局（生死）等。二分类变量常用0和1来编码，0-1变量常称为假变量(dummy variable)或哑变量，可以和真变量一样参与计算。,卫生统计学基本概念,有序变量(ordinal variable)或等级变量。分类变量的“取值”中自

3、然地存在着次序。例如，问卷调查常问对某件事情的满意程度：极不满意、有点满意、中度满意、很满意、极满意。有些临床体检或实验室检验常用、+、+和+来表示测量结果。,卫生统计学基本概念,定量变量离散型变量(discrete variable)：离散型变量只能取整数值。例如，一月中的手术病人数，一年里的新生儿数。连续型变量(continuous variable)：连续型变量可以取实数轴上的任何数值。“连续”是指该变量可以在实数轴上连续变动，由测量而得到。例如，血压、身高、体重等。,卫生统计学基本概念,统计分析：一定的设计样式决定了一定的数据分析方法；不同设计下获得的资料常常要用不同的方法来分析。随

4、机化区组设计(randomized block design)的方差分析不同于析因设计(factorial design)的方差分析病例-对照研究(case-control study)，成组对照的资料和匹配对照的资料的分析方法不同,统计描述-定量资料,频数与频数分布频数：某个测量值的个（例）数。频数分布表：又称频数表。是将原始数据值适当分组后得到各组的频数。适用样本量较大的资料进行统计描述的常用方法。通过频数表可以显示数据分布的范围与形态。,定量资料的统计描述,离散型定量变量的频数分布例2-1 1998年某山区96名孕妇产前检查次数资料如下：0，3，2，0，1，5，6，3，2，4，1，0

5、，6，5，1，3，3，4，7等共96个数值,定量资料的统计描述,表2-1：96名妇女产前检查次数分布的频数分布表,定量资料的统计描述,连续型定量变量的频数分布例：抽样调查某地120名18岁35岁健康男性居民血清铁含量（mol/L），将数据适当分组，计数每组的频数，根据这些数据编制成的频数分布表，则能显示出这组数据分布的特点。,定量资料的统计描述,数据,定量资料的统计描述,手工编制表步骤。（1）计算全距（range，R），也称为极差 R=最大值最小值=29.64-7.42=22.22（mol/L）（2）确定组段数与组距:组段数一般可在1015之间选择。组距=上限下限=R/（预计的组段数）。本例

6、如果预计取12个组段，则组距长度约为22.22/12=1.85,取整数2。两端的组段应分别包含最小值或最大值；（3）列表做出如表2-2的表格，将选好的组段顺序地列在(1)列。按照“下限x上限”的原则确定每一例数据x应归属的组段。,定量资料的统计描述,频数分布图：在表基础上，可以绘制出图，称为直方图（频率直方图）。横轴：血清铁含量纵轴：频率密度，即频率/组距（直条面积等于相应组段的频率）。在组距相等时，直方图中矩形直条的高度与相应组段的频率成正比。,定量资料的统计描述,定量资料的统计描述,对称分布：频数最多的组段在中央正偏峰分布：峰向左侧偏移的分布，右侧的组段数多于左侧，为右偏峰分布。负偏峰

7、分布：峰向右侧偏移的分布，左侧的组段数多于右侧，称为左偏峰分布。,定量资料的统计描述,定量变量的特征数集中趋势统计指标对于连续型定量变量，描述集中趋势常用的统计量为算术均数、几何均数和中位数。算术均数：适合描述对称分布资料的集中位置（也称为平均水平）。,定量资料的统计描述,几何均数：适用于观察值变化范围跨越多个数量级的资料。其频数图一般呈正偏峰分布。人们常用几何均数描述这类资料的集中位置。在医学研究中常适用于免疫学的指标。其计算公式为,定量资料的统计描述,中位数：可用于各种分布的定量资料。中位数的原意是指在总体中有一半个体的数值低于这个数，一半个体的数值高于这个数。奇数:偶数:,离散趋势统计

8、指标1.极差:一组变量值最大值与最小值之差。极差不能反映所有数据的变异大小，且受样本含量的影响较大，N大，极差值相差也大，故其稳定性较差。2.四分位数间距：四分位数是把全部变量值分为四部分的百分位数，即第1四分位数（QL=P25）、第2四分位数（M=P50）、第3四分位数（QU=P75）。四分位数间距是由第3四分位数和第1四分位数相减而得，记为QR。它一般和中位数一起描述偏态分布资料的分布特征。,定量资料的统计描述,定量资料的统计描述,3.方差与标准差方差（variance）也称均方差（mean square deviation），反映一组数据的平均离散水平。离均差:每一个变量值与均数的差值，

9、离均差平方和（sum of squares）:离均差平方后相加得到的值方差:离均差平方和除以N得到的值为总体方差。标准差：方差开平方得到的值。,定量资料的统计描述,5.变异系数变异系数（coefficient of variation）记为，多用于观察指标单位不同时的变异程度的比较。其计算公式为,三、定性资料的统计描述,常用的相对数指标相对数指标大致有三种类型：频率构成比相对比,常用的相对数指标,频率频率型指标是最常见的,通常近似地反映某一事件出现的机会大小,如发病概率、死亡概率等分子是分母的一部分；无量纲，在01范围内取值；K是比例基数，通常取为100%，也可取为1000、1万/1万和

10、10万/10万等，根据习惯用法来决定。,常用的相对数指标,构成比表示事物内部某一部分的个体数与该事物各部分个体数的总和之比，用来说明各构成部分在总体中所占的比重或分布。通常以100%为比例基数。其计算公式为,常用的相对数指标,相对比型指标相对比型指标是指任何两个相关联的变量A与B之比。它表示相对于B的一个（或十个、百个、千个等）单位，A有多少个单位。A和B可以是绝对数、相对数和平均数，A和B的量纲可以不同，也可相同，但A和B互不包含相对比=A/B 最常见:男女性别比;每千人口的医生数、每千人口的病床数、每医生的门诊工作量,常用的相对数指标,应用相对数应注意的事项防止概念混淆计算相对数时分

11、母应有足够数量正确地合并估计频率(或强度)型指标相对数间的比较要具备可比性:观察的对象是否同质，研究的方法（如检测手段、抽样方法）是否相同，观察的时间是否一致等；被比较的总体是否具有可比性对相对数的统计推断,率的标准化,概念与思想死亡率的标准化的基本思想就是寻找一个统一的分布（本例为人口的年龄分布）作为标准组，然后每个比较组均按该分布标准计算相应的死亡率，所得到的死亡率是相对于标准组的，故称为标准化死亡率，也称调整死亡率。,率的标准化,标准化死亡率的计算主要有直接法和间接法两种，其特点见下表,率的标准化,标准化法的注意事项当且仅当欲比较的两个人群内部的年龄分布不同以及每个人群内部年

12、龄别死亡率也各不相同时方采用标准化法。只有当要比较总率而且希望归因为人口构成不同之外的其它因素时标准化才有意义。标准化死亡率并不是被标化组本身的实际值，而是用标准人口作为平台，对各被标化组进行的调整。选择的标准人口不同，算得的标准化死亡率也不同，因此，在比较几个标准化死亡率时，应采用同一标准人口。标准组应选择有代表性的、较稳定的、数量较大的人群。通常选择相互比较的人群之一或将各个比较组的数据合并作为标准组。标准化死亡率的比较应作假设检验。,五.常用统计图表,统计表统计表的结构与种类简单统计表：只包括一个分组变量组合表：多于一个分组变量,常用统计图表,图2-5 统计表的结构,常用统计图表,常用统

13、计图表,列表原则和要求：列表原则主要为重点突出、简单明了、主谓分明、层次清楚。表结构：标题：多数场合标题应包括表的编号。标题位于统计表的最上部。时间、地点标目分为纵标目与横标目。纵标目标示相应一列（或数列）的内容；横标目标示相应的行的内容。反映主要研究事物的标目宜安排在表的左则。使得从左至右可以形成一句完整的叙述语句。,常用统计图表,表线不宜太多。不允许使用竖线与斜线。表值表中的数字一律使用阿拉伯数字。同列数据应取相同的小数位。表内不应空格。不详的数据可用“”填充。不存在的数据应以“”号标明。零值应用“0”表示。注释一律列在表的下方，可用“*”号等符号标示。,常用统计图表,统计图医学

14、文献与报告中常用的统计图主要有直条图、百分条图、圆图、线图、半对数线图、直方图等。使用计算机与相应的软件（如Excel）可以方便地绘制出各种统计图。,常用统计图表,制图的基本要求如下：选用图形:按照资料的性质与分析目的。标题：扼要说明统计图内容,位于图的正下方。图例：图例位于图形与标题之间，对图中的不同事物应通过不同的图案或颜色加以区别。坐标统计图（如直条图、线图等），横轴的方向应自左至右；纵轴的方向应自下而上。横轴与纵轴均应有标目。表示量的数轴应标注合适的原点、尺度、单位；统计图的轮廓以高:宽=5:7为宜。,常用统计图表,直条图:用等宽直条的长度来表达参与比较的指标的大小，条图的数值轴（常用

15、纵轴）尺度必须从零点起标示单式复式,常用统计图表,百分条图:用于表达各组成部分在全体中的比重。百分条图可以将多组数据排列在一起便于比较,常用统计图表,圆图:用同一圆形中的扇形的弧度表示全体中各部分所占的比重。所以其用途与百分条图相同。多组数据作对比，圆图的效果不如百分条图。,常用统计图表,线图:在直角坐标系中用线段的升降表达一事物的量随另一事物的量变化的趋势，或某事物的量随时间变化的过程。普通线图的纵、横坐标均为算术尺度。,常用统计图表,直方图:用于表示连续性定量变量的频数分布或频率分布。通常用横轴表示变量，用纵轴表示频数与组距的比例。在取相等组距的时候，各组段上的矩形的高与该组段的频数成

16、正比。,常用统计图表,箱式图:用于多组数据的直观比较分析。一般选用五个描述统计量（最小值、P25、中位数、P75、最大值）来绘制。,图6-1 假设检验示意图,七.t检验,一组样本资料的t检验检验假设H0：=0，H1：0（单侧检验0或0）统计量:,配对设计资料的t检验实施的形式主要有：(1)将受试对象配成特征（主要非处理因素）相近的对子，同对的两个受试对象随机分别接受不同处理；(2)同一样品分成两份，随机分别接受不同处理（或测量）。,检验假设为H0:d=0，H1:d0当成立时，检验统计量,两组独立样本资料的t检验将受试对象随机分配成两个处理组，每一组随机接受的一种处理。一般把这样获得的两组资

17、料视为代表两个不同总体的两份样本，据以推断它们的总体均数是否相等。在实际工作中按完全随机设计的两样本比较来对待。此类比较分为两种情况。,两样本所属总体方差相等检验假设为H0:1=2，H1:12已知当H0成立时，检验统计量自由度=n1+n2-2,两样本所属总体方差不等（Satterthwaite近似法）检验假设为 H0:1=2，H1:12采用(6-5)式的统计量t作检验。,假设检验与区间估计的关系,置信区间具有假设检验的主要功能显然，H0：不在此区间之内。这与按照=0.05水准拒绝H0的推断结论是等价的。,置信区间可提供假设检验没有提供的信息置信区间在回答差别有无统计学意义的同时，还可以提示

18、差别是否具有实际意义在图6-2中，置信区间(1)(3)均不包含原假设H0，意味着相应的差异具有统计学意义。(1)还提示差异具有实际意义；(2)提示可能具有实际意义；(3)提示实际意义不大。图中的(4)与(5)均无统计学意义，但(4)提示样本量不足。(5)属于可以接受原假设的情况。,假设检验的功效,假设检验的两类错误第类错误:拒绝原本正确的H0，导致推断结论错误。第类错误:不能拒绝原本错误的H0，则导致了另一种推断错误。,假设检验的功效1-称为假设检验的功效（power of a test）。其意义是，当所研究的总体与H0确有差别时，按检验水平能够发现它（拒绝H0）的概率。如果1-=0.90，

19、则意味着当H0不成立时，理论上在每100次抽样中，在的检验水准上平均有90次能拒绝H0。一般情况下对同一检验水准，功效大的检验方法更可取,应用假设检验需要注意的问题在抽样研究中，研究设计、搜集数据和统计分析是一个整体。每一种假设检验方法都是与相应的研究设计相联系的应用检验方法必需符合其适用条件当样本量一定时，第类错误的概率变小，第类错误的概率就变大。正确理解P值的意义。,八.2检验,用途单个频数分布的拟合优度检验,完全随机设计两组频数分布2检验多组频数分布的2检验，配对设计下两组频数分布2检验。,完全随机设计两组频数分布2检验,二分类情形22列联表,完全随机设计两组频数分布2检验,（1）建立检

20、验假设H0：1=2 两药的有效概率相同H1：12 两药有效概率不同检验水准=0.05（2）计算检验统计量,完全随机设计两组频数分布2检验,自由度=(2-1)(2-1)=1（3）确定p值查附表8，=1对应的临界值,P0.025。（4）结论:拒绝H0，两样本频率的差别具有统计学意义。可以认为，兰芩口服液和银黄口服液的总体有效概率不同，前者（91.1%）高于后者（68.6%）。,完全随机设计两组频数分布2检验,对于四格表资料，四格表专用公式,完全随机设计两组频数分布2检验,当n40时，如果有某个格子出现1T5，一般需用校正公式,特别注意:当四格表出现T1或n40时，校正2值也不恰当，这时必须用四格

21、表的确切概率计算法,完全随机设计两组频数分布2检验,多分类的情形2C列联表定性变量具有多分类时,两个频数分布的数据可表示为一个2C列联表。,完全随机设计多组频数分布2检验,设有一个定性变量，具有个可能的“取值”；现有R组独立样本的频数分布，其数据以表7-7的形式表示。这样的数据形式称为RC列联表。,配对设计下两组频数分布的2检验,二分类情形22列联表采用McNemar 检验,配对设计下两组频数分布的2检验,2统计量的计算公式为,2检验要注意的问题,关于2检验的条件使用2检验在任何情况下都要注意理论频数 T不能太小。一般要求各格的理论频数均应大于1，且T5的格子数不宜多于格子总数RC的1/5

22、 2.关于似然比 2统计量作2检验，既可以计算Pearson 2统计量，也可以计算似然比 2（Likelihood ratio chi-square）统计量，,九.基于秩次的非参数检验,非参数统计的概念在不知总体分布的情况下如何利用数据所包含的信息呢？一组数据的最基本信息是次序，将数值按大小次序排队，每个数值在整个数据中均有相应的位置和次序，称为该数据的秩（rank）。非参数意味着其方法不涉及特定的总体分布，又称任意分布或称与分布无关，是因其推断方法和总体分布无关，不应理解为与所有分布（例如有关秩的分布）无关,基于秩次的非参数检验,总体分布不易确定；无端值的数据；分布呈非正态而又无适当的数

23、据转换方法；不能或未加精确测量，如等级资料等。,非参数统计应用,基于秩次的非参数检验,检验步骤检验假设编秩求秩和并确定统计量T 确定P值和作出推断结论,基于秩次的非参数检验,正确应用秩和检验方法秩和检验既能分析定量变量资料，又能分析有序变量或等级变量资料，实际中要注意其应用条件。对于定量变量资料，如果符合检验或检验等参数统计检验方法的前提条件，要用参数统计方法，在不符合参数统计方法条件时，用秩和检验；对有序变量或等级变量资料，如果是疗效检验，用秩和检验，不用检验，这种情况实际中容易误用。,常见秩和检验方法,两独立样本差别的秩和检验配对设计资料的秩和检验完全随机设计多组差别的秩和检验Krus

24、kal-Willas H检验）随机区组的秩和检验（Fredaman M检验）Spearman 秩相关,基于秩次的非参数检验,直线相关,直线相关的概念对两变量间关系的研究，有时并不要求由X估计Y（或者先不考虑这个问题），而关心的是两个变量间是否确有直线相关关系。判断两个数值变量之间有无直线相关关系，并回答相关的方向和相关程度如何时，可采用相关分析。,直线相关,直线相关(linear correlation)又称简单相关(simple correlation)，用于双变量正态分布(bivariate normal distribution)资料。直线相关的性质可由散点图直观的说明。,直线相关,二

25、、相关系数的意义与计算,直线相关,归纳起来，相关系数的特点有：(1)相关系数r是一个无量纲的数值，且-1r1；(2)r0为正相关，r0为负相关；(3)r越接近于，说明相关性越好，r越接近于，说明相关性越差。,直线相关,相关系数的统计推断（一）相关系数的假设检验,直线相关,决定系数直线回归与相关中还有一个重要的统计量称为决定系数(coefficient of determination)，定义为回归平方和与总平方和之比，计算公式为,秩相关,秩相关(rank correlation)或称等级相关是用双变量等级数据作直线相关分析，这类方法由于对原变量分布不作要求，故而属于非参数统计方法。适用于下列资

26、料：不服从双变量正态分布而不宜作积差相关分析总体分布型未知，例如限于仪器测量精度个别样品的具体数值无法读出而出现“超限值”时；原始数据是用等级表示。,直线相关,Pearson积差相关与Spearman秩相关之间有联系也有区别。主要联系是：两者都可用于刻划两变量间线性相关的方向与密切程度,其取值范围与数值大小的统计学意义解释也相同；两者都要求个体间满足独立性；Spearman秩相关系数的计算可采用对秩次的Pearson积差相关系数的计算来实现；样本量大时，两者的假设检验方法近似。,直线相关,主要区别是：Pearson积差相关要求数据服从正态分布，属于参数统计量；而Spearman秩相

27、关系不要求正态分布，属于非参数统计量；两者总体参数的假设检验方法不完全相同（主要是的分布不同）,线性相关应用中应注意的问题,样本的相关系数接近零并不意味着两变量间一定无相关性一个变量的数值人为选定时莫作相关出现异常值时慎用相关相关未必真有内在联系,简单回归分析,回归模型的前提假设：线性、独立、正态与等方差。最小二乘原则：求解回归方程中参数估计量a和b值所遵循的策略：使回归残差平方和达到最小；在最小二乘原则下所获得回归参数的估计量称为最小二乘估计。,一、直线回归方程的一般表达式为,为各X处Y的总体均数的估计。,1a 为回归直线在 Y 轴上的截距,a 0，表示直线与纵轴的交点在原点的上方；a

28、 0，则交点在原点的下方a=0，则回归直线通过原点,2.b为回归系数，即直线的斜率,b0，直线从左下方走向右上方，Y 随 X 增大而增大；b0，直线从左上方走向右下方，Y 随 X 增大而减小；b=0，表示直线与 X 轴平行，X 与Y 无直线关系。,b 的统计学意义是：X 每增加(减)一个单位，Y 平均改变b个单位。,残差(residual)或剩余值，即实测值Y与假定回归线上的估计值的纵向距离。求解a、b实际上就是“合理地”找到一条能最好地代表数据点分布趋势的直线。,原则：最小二乘法(least sum of squares)，即可保证各实测点至直线的纵向距离的平方和最小,二、直线回归方程的求

29、法,（12-3）,例12-2（续例12-1）根据表12-1数据，对大白鼠的体重增加量进行回归分析。,解题步骤,此直线必然通过点(,)且与纵坐标轴相交于截距。如果散点图没有从坐标系原点开始，可在自变量实测范围内远端取易于读数的值代入回归方程得到一个点的坐标，连接此点与点(,)也可绘出回归直线。,1回归系数的方差分析,数理统计可证明：,上式用符号表示为,式中,上述三个平方和，各有其相应的自由度，并有如下的关系：,如果两变量间总体回归关系确实存在，回归的贡献就要大于随机误差，大到何种程度时可以认为具有统计意义，可计算统计量F:,式中,2.t 检验,例12-3（续例12-1）根据表12-1数据进行回归系数的方差分析。解：先列出下列计算结果,（3）确定P值。查F界值表，P0.001。,（4）下结论。按水准，拒绝H0，接受H1，故可以认为体重的增加量与进食量之间有直线关系。,t检验方法,前已算得:,练习题解析,谢谢!,

展开阅读全文