《[临床医学]第二章计量资料的统计描述.ppt》由会员分享,可在线阅读,更多相关《[临床医学]第二章计量资料的统计描述.ppt(115页珍藏版)》请在三一办公上搜索。
1、第二章,计量资料的统计描述,第一节 频数分布,频数:对一个随机事件做重复观察,其中某变量出现的次数,称频数.频数表:将各变量及其相应的频数列表.,例2.1 某地用随机抽样方法检查了140名成年男子的红细胞数,检测结果如表所示:,某地140名正常成年男性红细胞数(1012/L)资料,一、频数表的编制 1、确定组数k:通常选择8 15之间。若资料在100例以上,一般取10组左右;若例数较少,组数相应减少。以能显示数据的分布规律为宜。2、计算极差(全距),确定组距 i:,3.确定组限:应符合专业习惯。下限(L):组段的起点,第一组下限 资料中的最小值 上限(U):组段的终点,最后一组上限 资料中的最
2、大值。变量值X的归组统一定为:LXU4.分组划记统计频数:由手工或软件完成5.计算频率与累计频率,频率:描述了各组段频数在全部观察单 位中所占的比重,各组的频率之和 为100%。累计频数:即在某个指定值以下变量的 频数。累计频率:等于累计频数/总频数。,表2-2 某地140名正常男子红细胞数的频数表,表2-3 某地140名正常男子红细胞数的频数表,二、频数分布图-直方图 直方图(histogram):用矩形面积表 示连续型变量的频数(频率)分布。可 直观、形象地表示频数分布的形态 和特征。,图2-1 140名正常男子红细胞计数的直方图,1、横轴:组段;纵轴:频数;2、各矩形之间无空隙3、矩形的
3、高度为频数 矩形的宽度为组距4、作用与频数表相同,三、频数分布的两个重要特征:1.集中趋势(central tendency):指变量值的集中位置所在。2.离散趋势(tendency of dispersion):指变量值围绕集中位置的分布情况。,四、频数分布的类型:,1.对称分布:各组段的频数以频数最多组 段为中心(集中位置在中间),左右两侧大体对称。2.偏态分布:集中位置偏向一侧,左右两 侧频数分布不对称。正偏态分布 负偏态分布,中间高、两边低、左右近似对称,对称分布(正态分布),集中位置偏向 变量大的一侧,负偏态分布,正偏态分布,集中位置偏向 变量小的一侧,五、频数表的用途:1、代替繁杂
4、的原始资料,便于进一步计算 统计指标和作统计处理。2、揭示资料的分布类型和分布特征,比较 直观。3、便于发现资料中某些特大或特小的可疑 值,必要时经检验后舍弃。,4、当样本含量较大时,可用各组段的频率 作为概率的估计值。5、作为陈述资料的形式,附在文章中,简单 明了。,集中趋势的统计描述,第二节,平均数(average):是分析计量资料的基本统计指标,用于描述一组性质相同的变量值的集中位置或平均水平。,一、算术均数(arithmetic mean),均数:可用于说明一组呈对称分布的变量值,在数量上的平均水平或集中趋势,是描述计量资料的常用的指标。,总体均数用 表示,,样本均数用 表示。,(一)
5、算术均数的计算1、直接法:,为求和符号,读作sigma.,某地140名正常成年男性红细胞数(1012/L)资料,2、加权法:,组中值=(本组下限+下组下限)/2,为 组的频数。,某地140名正常男子红细胞数的频数表,加权法的涵义:各个不同的变量值在计算均数时,由于频数不同,所起的作用也不同;频数多,权数大,作用也大,频数少,权数小,作用也小。对于频数表资料,即某个组段频数多,权数就大,其组中值对均数的影响也大,反之影响则小。,(二)算术均数的两个重要特征:,1.各观察值与均数之差(离均差)的和等于0,2.离均差平方和小于各观察值与其它任何 数之差的平方和。,(三)算术均数的应用:,1、只有在合
6、理分组的基础上,对同质事物 求均数才有意义;,2、说明一组变量值在数量上的平均水平;,3、均数适用于呈对称分布的资料,特别是 呈正态或近似正态分布的资料。,二、几何均数 G geometric mean,(一)几何均数(G)的计算1、直接法:例数较小,小于30例,涵义:n个变量值的乘积开n次方。,例:测得10个人血清某项免疫学指标的滴度倒数分别为2,2,4,4,8,8,8,8,32,32,求其平均滴度。直接法:,例:有5个监测结果,分别为1:10,1:100,1:1000,1:10000,1:100000,求平均数。直接法:,该资料的平均水平为:1:1000。,2、加权法:当样本含量较大时,可
7、将资料 整理成频数表,用下式计算:,其中:x 为各组段的效价或滴度的倒数 或各组段的组中值;f 为各组段所对应的频数。,胎盘浸液钩端螺旋体菌苗接种两月血清IgG抗体滴度,原始数据形式:1:20,1:40 1:1280,胎盘浸液钩端螺旋体菌苗接种2个月后血清IgG抗体滴度为1:139。,(三)几何均数的应用:,1、几何均数常用于呈对数正态分布的资料,或等比资料;,2、计算几何均数时,观察值不能小于或 等于零;,3、观察值不能同时有正值和负值;,4、同一组资料求得的几何均数小于均数.,三、中位数和百分位数 M(median),(一)中位数 M(median)概念:将一组观察值从小到大按顺序排列,位
8、次居中的观察值即中位数。(全部观察值中,大于和小于中位数的观察值的个数相等),(一)中位数的计算方法:1、直接法:样本含量较小时,可根据下 式计算。n为奇数时:n为偶数时:上式中n为一组观察值的总例数,、及 均为下标,表示有序数列中观察值的位次。,例:7名病人患某病的潜伏期分别为2,3,4,5,6,9,16天,计算平均潜伏期。n为奇数:,有8名某病患者的潜伏期分别为1,2,2,3,5,8,15,24小时,计算平均潜伏期。n为偶数:,2、频数表法,分别为为中位数所在组段的下限、组距、频数;,计算步骤:在资料编制频数表的基础上.按所分组段,由小到大计算累计频数与累计频率;.确定中位数所在组段:当某
9、一组的累计频数首先超过n/2时或累计频率首先超过50%时,即定为中位数所在组段;.计算中位数。,例:对某地630名50岁60岁的正常女性检查了血清甘油三酯含量(mmol/L),资料见表,试计算其平均数。,表2-4 某地630名正常女性血清甘油三脂含量(mg/dl),L、iM、fM分别为M所在组段的下限、组距和频数,fL为M所在组段之前各组段的累计频数。,(二)中位数的应用 1.中位数适用于任何分布类型的资料,用于描述资料的集中位置,反映位次居中的观察值的水平,适用范围广泛;2.中位数不是由全部观察值综合计算出来的,只受位次居中的观察值波动的影响,较为稳定;,3.下列情况下,使用中位数作为反映集
10、中趋势位置或平均水平的指标较为合理:.频数的分布呈明显的偏态;.两端无确定数值的开口资料;.分布类型不明的资料;.有异常值的资料。,4.均数、中位数两者的关系:对称分布时:均数与中位数理论上相等 正偏态分布时:均数中位数 负偏态分布时:均数中位数5.缺点:进一步统计处理的方法较少,应用受 到限制。,四、三种平均数的特点,1.均数是根据全部观察值综合计算的,计算方法较为简单,但资料中若含有少数极端值或资料呈偏态分布时,则均数不稳定,缺乏代表性。2.中位数是将全部观察值按由小到大的顺序排列,即位次居中的观察值,只受位次居中的观察值的影响,不受极端值的影响,较为稳定,仅考虑位次居中的观察值,结果较粗
11、略。,3.几何均数是根据全部观察值计算的,但较适应于等级资料,五、百分位数 Px(percentile),(一)概念:将一组观察值从小到大按顺序排列,对应于第x%位次的数值即为第x百分位数。,百分位数是一种位置指标,用PX表示。一个百分位数将全部变量值分为两部分,在不包括PX 的全部变量值中,有X%的变量值比它小,有(1-X%)变量值比它大。,(二)计算方法:n个原始数据从小到大排列 1.直接法:,例:对某医院细菌性痢疾治愈者的住院天数进行统计,120名患者的住院天数从小到大的排列如下,试求第5百分位数和第99百分位数。患 者:1 2 3 4 5 6 7 8 9 117 118 119 120
12、住院天数:1 2 2 2 3 3 4 4 5 40 40 42 45,n=120,1205%=6,为整数,用公式(1)计算:,12099%=118.8,带有小数,用公式(2)计算:,2.频数表法:,对计算公式的理解,下限Lx,nx%,累计频数 fL,上限,最小,最大,表2-4 某地630名正常女性血清甘油三脂含量(mg/dl),表2-4 某地630名正常女性血清甘油三脂含量(mg/dl),表2-4 某地630名正常女性血清甘油三脂含量(mg/dl),表2-4 某地630名正常女性血清甘油三脂含量(mg/dl),百分位数的应用 1.其特点是不易受两端异常值的影响,适用于描述:偏态分布的资料;两端
13、无确定数值的开口资料;分布类型不明的资料;有异常值的资料。2.中位数是百分位数的特例。,3.描述一组数据在某百分位置上的水平和分布特征。多个百分位数结合使用,可更全面地描述资料的分布特征。(P25和P75可以描述数据的分散程度)4.常用于确定医学参考值范围以及身体发育水平的界限。(如用P2.5和P97.5计算医学95%的参考值范围等)5.靠近两端的百分位数只有在样本例数较大(100)时才比较稳定。,小 结,1.运用频数表、直方图和统计指标这些技巧能够有效地组织、整理和表达计量资料的信息。,2.平均数是描述一组观察值集中位置或平均水平的统计指标,常用的有算术均数、几何均数和中位数。其中均数的应用
14、最为广泛,几何均数则多用于血清学和微生物学 中,中位数主要用于偏度较大的数据分布 资料。,3.百分位数可用来描述资料的观察值序列在某百分位置的水平,中位数是其中的一个特例。,第三节,变异程度的统计描述,衡量变异程度的指标,变异是生物医学数据最显著的特征,反映平均水平的统计指标与反映变异程度的指标结合起来,才能充分说明一组变量值的数量特征。常用的指标:极差、四分位间距、方差、标准差和变异系数。,例3.1 对甲乙两名高血压患者连续观察5天,测得的收缩压(mmHg)结果如下:,例2.1 某地用随机抽样方法检查了140名成年男子的红细胞数,检测结果如表所示:,某地140名正常成年男性红细胞数(1012
15、/L)资料,反映离散趋势的指标有两类:1.按间距计算:极差、四分位数间距 2.按平均差距计算:平均偏差、离均差平方和、方差、标准差、变异系数。,一、极差和四分位数间距,(一)极差(Range):即全距 观察值中最大值与最小值之差。计算公式:意义:反映一组个体值变化的范围,极差大说明数据的变异程度大,反之说明数据的变异程度小。(如用于说明传染病、食物中毒的最长、最短潜伏期),优点:计算简单,概念清晰,易于理解,便于使用.缺点:只利用最大与最小的两个极端值,结果粗略;与样本含量的大小有关,样本含量越大,极 差可能越大;n不变时,每次抽样得到的极差也相差较大,稳定性较差。,如前例甲乙两患者收缩压的极
16、差分别为,(二)、四分位数间距 Q(inter-quartile range),将全部变量值分为四个部分的分位数,即P25、P50、P75三个分位数,四分位数间距 Q=P75-P25 P25:下四分位数QU P75:上四分位数QL,最小值 P25 P50 P75 最大值,Q,某地630名正常女性血清甘油三脂含量(mg/dl),某地630名正常女性血清甘油三脂含量(mg/dl),某地630名正常女性血清甘油三脂含量(mg/dl),张家口市2005年110名7岁男童身高的频数表,张家口市2005年110名7岁男童身高的频数表,四分位数间距的意义:四分位数间距越大,说明数据的变异程度越大;反之,说明
17、数据的变异越小.与中位数一起描述偏态分布资料的分布特征。特点:较全距稳定,但仍然未考虑到每个 观察值的变异情况。,二、平均差距指标,(一)平均偏差(Mean Difference)计算公式:,特点:直观、易于理解;但由于用了绝对值,不便于数学处理,实际中很少使用。,(二)离均差平方和(Sum of Square,SS)计算公式:SS 通常作为一个中间统计量使用。,(三)方差(均方 Variance)离均差平方和消除了正、负值的影响,但 的大小除了与资料变异程度的大小有关外,还受变量值个数N的影响;为消除这一影响,将离均差平方和再取平均,即得到方差。,总体方差:,样本方差:,方差的意义:方差越大
18、,说明观察值的变异程度越大,均数的代表性较差;方差越小,说明观察值的变异程度越小,观察值围绕均数的分布越集中,均数的代表性越好。方差的特点:便于数学上的处理,但由于有平方,度量衡发生变化,不便于实际应用.,=n-1,即自由度(degree of reedom,df)自由度的概念:随机变量能够自由取值的个数;它描述了当均数选定后,n个观察值中能自由变动的观察值的个数。任何统计量的自由度=n-限制条件的个数,(四)标准差(standard deviation)方差的单位是原度量单位的平方,将总体方差开平方,即得到总体标准差,度量单位与原始观察值一致,公式:,总体标准差:,样本标准差:,1.计算:直
19、接法:,加权法:,直接法:,甲患者:,乙患者:,加权法:,140名成年男子红细胞数的标准差:,2.标准差的特点,是根据全部观察值综合计算出来的,以离均差平方和最小的理论为依据;受抽样变动的影响较其它变异指标小,具有较为广泛的理论与实际用途。,3.标准差的应用,.表示观察值的变异程度 在两组(或几组)资料均数相近、度量衡单位相同的条件下,标准差越大,表示变量值的变异度越大,观察值围绕均数的分布较分散,均数的代表性较差;反之,标准差小,表示变量值变异度小,观察值围绕均数的分布较集中,均数的代表性较好。,.若比较度量衡单位不同或均数相差悬殊的两组或几组资料的变异程度,需结合均数计算变异系数。.结合均
20、数描述正态分布资料的分布特征和估计医学参考值范围。.结合样本含量n,计算反映抽样误差大小的指标,即标准误。,(五)变异系数(Coefficient of Variation)用途:主要用于进行均数相差较大或度量衡单位不同的两组或几组观察值变异程度的比较。,计算公式:,特点:变异系数是相对比,没有单位。既可以消除原资料平均水平不同的影响,也可以消除度量衡单位不同的影响,来反映观察值变异程度的大小,便于资料间的分析比较。,例3.3 测得某地成年人舒张压均数为77.5mmHg,标准差为10.7mmHg;收缩压均数为122.9mmHg,标准差为17.1mmHg。试比较舒张压和收缩压的变异程度。,例3.
21、3 测得某地某地7岁男孩身高的均数为123.10cm,标准差为4.71cm;体重均数为22.29kg,标准差为2.26kg,比较两者的变异程度。,1,2,3,4,5 均数=3 标准差=1.58 CV1=0.5267 81,82,83,84,85 均数=83 标准差=1.58 CV2=0.0190 1001,1002,1003,1004,1005 均数=1003 标准差=1.58 CV3=0.0016,变异指标小结,1、极差较粗糙,适合于任何分布类型的资料;2、标准差与均数的单位相同,最常用,适用于正态分布和近似正态分布的资料;3、变异系数主要用于单位不同或均数相差悬 殊的资料。,4、平均指标和变异指标分别反映资料的不同 特征,选择适当的指标对资料进行描述 正态分布:均数、标准差;偏态分布:中位数、四分位数间距 对数正态分布:几何均数、几何标准差,