医学统计学第二章个体变异与变量分布.ppt

上传人:牧羊曲112 文档编号:4956899 上传时间:2023-05-26 格式:PPT 页数:75 大小:664KB
返回 下载 相关 举报
医学统计学第二章个体变异与变量分布.ppt_第1页
第1页 / 共75页
医学统计学第二章个体变异与变量分布.ppt_第2页
第2页 / 共75页
医学统计学第二章个体变异与变量分布.ppt_第3页
第3页 / 共75页
医学统计学第二章个体变异与变量分布.ppt_第4页
第4页 / 共75页
医学统计学第二章个体变异与变量分布.ppt_第5页
第5页 / 共75页
点击查看更多>>
资源描述

《医学统计学第二章个体变异与变量分布.ppt》由会员分享,可在线阅读,更多相关《医学统计学第二章个体变异与变量分布.ppt(75页珍藏版)》请在三一办公上搜索。

1、第二章 个体变异与变量分布,一、个体变异二、频数分布三、定量资料的统计指标四、定性资料与等级资料的统计指标,个体变异(individual variation),是同质观察对象间表现出的差异。变异是生物体在一种或多种、已知或未知的不可控因素作用下所产生的综合反映。就个体而言:变异是随机的(random)。就总体而言:个体变异是有规律的。,幻灯片 1,个体变异是统计学应用的前提,(一)定量资料的频数分布,例:某市 1997 年 12 岁男童 120 人的身高(cm)资料,1.频数分布表的制作步骤(1)计算极差(R)R=Xmax Xmin=160.9-125.9=35(cm)(2)确定组数、组距:

2、组数:8 12 组距:i=R/组数=35/10=3.5 4(cm)(3)确定组段:含下限,不含上限 第一组段下限 Xmin 最后一组上限 Xmax(4)划记:计算频数、频率2.分布图,1997 年某市 120 名 12 岁男童的身高(cm)频数分布,划记,正正,正正正正正正正正正正正正正正正正正正正正正,上一张幻灯片,某市 120 名 12 岁男童身高的频数分布,定性资料的整理:根据指标的自然属性归类,计数频数等级资料的整理:根据指标的不同等级归类,计数频数,507 名傣族人血型的频数分布,(二)定性资料及等级资料的频数分布,709 对肺癌患者和非肺癌患者吸烟情况,此表是Doll和Hill于1

3、948年至1952年间采用回顾性配对调查方法研究了吸烟与肺癌的关系 得到的资料(此表分类方法是交叉分类),例:某医院探讨不同期次矽肺的胸部平片肺门密度变化,资料如下表,问矽肺患者肺门密度的增加与矽肺期次有无关系?,245,1 96 72 169,6 17 55 78,合 计 50 301 141 492,合计,矽肺期次,描述分布类型描述分布的特征便于发现特大、特小的可疑值便于计算有关指标、统计分析与处理,频数分布表和频数分布图的用途,(三)数据的分布类型,对称分布:非对称分布(偏态分布)对称分布:频数以中间最多,两侧逐渐减少,基本对称右偏态(正偏态):高峰在左侧,尾部拖在右侧左偏态(负偏态):

4、高峰在右侧,尾部拖在左侧 单峰分布:双峰或多峰分布:,正偏态(右),负偏态(左),分布的对称,峰的多少,某市 120 名 12 岁男童身高的频数分布,发汞含量(),239 人发汞含量的频数分布,人数,自评分,某城市 892 名老年人生存质量自评分的频数分布,人数,生存时间(月),102 名黑色素瘤患者的生存时间频数分布,人 数,人数,死亡年龄(岁),某地某年 10000 例死亡者年龄分布,分布类型,对称分布正偏态(右)负偏态(左),幻灯片 1,集中位置的描述 离散趋势的描述,三、定量资料的统计指标,是描述一组变量值的集中趋势或平均水平的统计指标。是一组变量值的集中水平的代表值。种类:算术均数、

5、几何均数、中位数、众数、加权均数等注意:同质的变量值才能在一起求平均数!,平均数(集中位置描述),(一)算术均数(arithmetic mean)简称均数(mean)1.适用条件:单峰对称分布、正态分布的资料2.计算公式:小样本:,加权系数,例:某门功课的成绩:平时占 0.2,期中占 0.3,期末占 0.5 则平均成绩为:,大样本:,各组段的频数各组段的组中值,1997 年某市 120 名 12 岁男童的身高(cm),组中值,126130134138142146150154158162,例:五人血清抗体滴度:1:10,1:100,1:1000,1:10000,1:100000,看一个实例,1

6、适用条件:各变量值成倍数或对数正态分布的资料2 公式:,3 计算,(二)几何均数(geometric mean),例、有 5 份血清的抗体效价分别为 1:10,1:20,1:40,1:80,1:160,求平均抗体效价?,此 5 人血清的平均抗体效价为 1:40。,使用注意:(1)变量值中不能有 0;(2)同一组变量值不能同时存在正,负值;(3)若变量全为负值,计算时将负号除去,算完后再加上。,有 25 份血清的抗体效价分别为抗体效价 1:10,1:20,1:40,1:80,1:160,人数 2 5 8 7 3,所以,这 25 份血清的平均效价是 1:44.7。,(三)中位数(median)及百

7、分位数(percentile)将一组变量值从小到大排列,居中的那个变量值。1.适用条件:任何分布(偏态、分布不明、两端无界限)2.计算公式:小样本:,当 n 为偶数,例、有 10 人的发汞值()1.1,1.8,3.5,4.2,4.8,5.6,5.9,7.1,10.5,16.3,当 n 为奇数:,L:M 所在组的下限i:M 所在组的组距fm:M 所在组的频数:M 所在组前一组累积频数,大样本:,5,7,发汞值,60,M,5,7,例 2.16 在某市测得 239 名正常人发汞,资料见表 2.11,试计算其 95 参考值范围。表 2.11 某市 239 名正常人发汞值,某市 239 名正常人发汞值,

8、累积频数,百分位数,0 Px M 100%,百分位数是一个位置指标,以 PX 表示。一个百分位数将全部观察值分为两部分:x%的变量值小于 PX;(100-x)%的变量值大于 PX。有 10 人的发汞值(umol/Kg)1.1,1.8,3.5,4.2,4.8,5.6,5.9,7.1,10.5,16.3,某市 239 名正常人发汞值,发汞值 男性 女性 合计频数 累积频数,应用中位数和百分位数时注意事项:所有分布类型的资料均可计算中位数和百分位数;例数较少时,接近两端的百分位数不稳定,不宜用两端 的百分位数估计频数分布范围;中位数抗极端值的影响,比均数好,但不及均数精确;当资料可计算均数或几何均数

9、时,不宜计算中位数。,描述集中趋势的指标:平均数 种类 适用条件 计算公式 正态分布 对数正态 任何分布,有甲、乙两组同性别同年龄儿童体重(公斤):甲组 26,28,30,32,34 乙组 24,27,30,33,36,看一个实例,上述两组数据的特点:集中位置 相同:均为30kg 离散程度不同:各观察值与均数的差值不同,离散趋势的描述,全距(range)四分位数间距(interquartile range Q)方差、标准差(variance and standard deviation)变异系数(coefficient of variation),1.全距(极差)R=Xmax-Xmin 反映资

10、料的分布范围 R 大变异程度大,R 小变异程度小 优点:简单明了 缺点:不灵敏:只考虑了最大、最小值 抽样误差大,不稳定,2.四分位数间距(Q)即 P75 与 P25 之差 P25:1/4 的观察值小于它,称下四分位数 P25 QL。P75:1/4 的观察值大于它,称上四分位数 P75 QU。Q=QU-QL,其间包含了中间的 50%变量值,即 中间 50%变量值的极差。,Q 值大变异程度大,Q 小变异程度小,偏态分布资料,集中趋势中位数离散趋势四分位数,3.方差与标准差,离均差总和,离均差平方和,方差,标准差,自由度,(1-4)+(2-4)+(3-4)+(4-3-2-1+0+1+2+3 0,对

11、于对称分布或正态分布资料其离均差总和恒等于 0。,4)+(5-4)+(6-4)+(7-4),例:1、2、3、4、5、6、7,计算公式:,甲组:26,28,30,32,34 乙组:24,27,30,33,36,标准差表示一组变量值与均数的平均距离直接、全面、平均地描述一组变量值的离散程度。,标准差是描述变量值变异程度的指标。标准差大 变异程度大 均数的代表性差标准差小 变异程度小 均数的代表性好,用途1 表示变异程度的大小2 计算标准误、变异系数3 估计正常值范围,幻灯片 31,标准差的意义,一个实例,例:某地 20 岁男子 100 人,身高均数为 166.06 cm,标准差为 4.95 cm;

12、体重均数为 53.7 kg,标准差为 4.96 kg,问:体重和身高,哪个变异大?,使用条件:均数相差较大时,比较各组资料的变异度;度量衡单位不同时,比较各组资料的变异程度。,4.变异系数(离散系数),某地 6 岁以下儿童身高(cm)的变异,绝对变异受平均水平的影响相对变异排除了平均水平的影响,描述离散程度的指标 种类 应用条件 计算公式 R 任何资料 R=Xmax-Xmin Q 偏态分布资料 S2(S)正态,单位同 均数相差不大 CV 单位不同,均数差大,小结:定量资料的描述,列表描述:频数分布表、一览表图形描述:频数分布图、趋势图指标描述定量资料 集中位置:算术均数、几何均数、中位数、百分

13、位数 离散程度:极差、四分位数间距、方差、标准差定性或等级资料相对数指标:率、构成比、比,平均数与变异度的关系,平均数表示的集中性与变异度表示的离散性,是从两个不同的角度阐明计量资料的特征 变异度越小,平均数对各变量值的代表性越好 变异度越大,平均数对各变量值的代表性越差,平均数与变异度的关系,通常,平均数与变异指标一起描述资料的分布特征。用均数和标准差描述正态分布资料的特征;用中位数和四分位数间距描述偏态分布资料的特征。,绝对数的概念与意义,调查研究和实验研究得到的定性资料或等级资料经过整理,清点数目得到的数值称为绝对数。如某病的发病人次数、医院收容人数、治愈人数等。绝对数反映一定条件下某种

14、事物的规模或水平,是计划或总结工作的依据,绝对数是计算相对数与平均数的基础。绝对数往往不便于比较。,例:调查得某年小学生中流脑发病:甲地区 63例,乙地区35例。,甲地区流脑流行比乙地区严重,如已知小学生总人数:甲地区50051人,乙地区14338人,可算出两个发病率:甲地区流脑发病率:63/500511000=1.26乙地区流脑发病率:35/14338 1000=2.44,乙地区流脑流行比甲地区严重,相对数的概念 和意义,概念:相对数是两个有联系的指标之比。两个特点:表示事物出现的频度。把基数化作相等,便于比较。常用相对数 率、构成比、相对比,率,率(rate)又称频率指标,用以说明某事物或

15、某现象在其可能发生的范围内实际发生的频率或强度。计算公式为:,表 1.5 某市某年各区急性传染病发生数及其相对数市区 年平均 急性传染病 各区与区 构成比 发病率 人口数 发生数 发病数之比()(/万)1 636723 2433 1.00 18.9 38.21 2 389540 3033 1.25 23.5 77.86 3 699712 1650 0.68 12.8 23.58 4 328363 1503 0.62 11.6 45.77 5 286967 1282 0.53 10.0 44.67 6 317504 1853 0.76 14.4 58.36 7 153838 1130 0.46

16、8.8 73.45合计 2812647 12884 100.0 45.81,关于率的几点说明(一),分子和分母都是计数值,从定义上来看,分子应为分母的一部分,但在实际应用中一些率的指标可能并不符合率的定义,但它们是约定俗成、沿习使用的。根据频率的稳定性,分母较大时,可以用率作为该事件发生机会(即概率)的近似值。例如:医治100例病人,90例痊愈,则:治愈率=90/100=90%。它近似的反映了病人治愈机会的大小。,关于率的几点说明(二),0 rate1率常以百分率(%)、千分率()、万分率(1万)、十万分率(l10万)等表示。比例基数(K)可以是100、1000、,其选取是根据习惯用法和需要选

17、用,主要使算得的率至少保留12位整数,便于阅读。患病率、发病率、感染率:百分率(%)人口出生率与死亡率:千分率()肿瘤死亡率:十万分率(l10万),构成比,构成比(proportion)又称构成指标,表示某一事物内部各组成部分所占的比重或分布,常以百分数表示,计算公式为:,设某事物个体数的合计由A1,A2,Ak个部分组成,构成比计算为:,构成比的特点:,同一事物内部的k个组成部分构成比总和为100%。各部分构成比之间是相互影响的,某一部分比重的变化受到两方面因素的影响:其一是这个部分自身数值的变化,其二受其他部分数值变化的影响。,相对比,相对比(ratio)亦称比,是 A、B两个有关指标之比。

18、说明A为B的若干倍或百分之几,它是对比的最简单形式。A、B两个指标可以是绝对数,也可以是相对数;可以性质相同,也可以性质不同;可以是定性资料,也可以是定量资料。,正确应用相对数(一),计算相对数的分母不宜过小 例数较少,相对数波动较大。如:0/2,1/2,2/2例数较少时,宜用绝对数表示,必须用相对数时,可同时列出其可信区间。,分析时不能以构成比代替率率反映的是频率或者强度构成比反映的是比重或分布,正确应用相对数(二),正确应用相对数(三),正确计算合并率对观察单位数不等的几个率,不能直接相加求其平均率(或称总率)例如用某疗法治疗肝炎,第一次治疗150人,治愈30人,治愈率20%;第二次治疗1

19、00人,治愈30人,治愈率30%。试计算两批的合并治愈率。观察单位数相等时?,正确应用相对数(四),计算率时要注意资料的同质性对比分析时应注意资料的可比性 所谓可比,就是说除了要对比的因素外(如不同药物),其余的影响因素应尽可能的相同、相似或接近。观察对象同质,研究方法相同,观察时间相等,以及地区、周围环境、风俗习惯和经济条件应一致或相近。观察对象内部构成是否相同,若两组资料的年龄、性别构成不同,可以分组或进行标准化后再作比较。,正确应用相对数(五),样本率或构成比比较时,不能仅凭表面上的数值大小下结论,应考虑到其抽样误差,进一步作统计学处理。,例2.10,率的标准化,基本思想 采用某种影响因

20、素的统一标准构成,以消除构成不同对合计率的影响,使通过标准化后的标准化合计率具有可比性。,标准化率(standardized rate),又称调整率(adjusted rate),实际上是一加权平均其中NiN 来自标准组,pi来自实际资料,表 2.6 某病两种疗法的治愈率比较,应用标准化时的注意事项,“标准组”的选择两组中的任一组作为标准组相比较两组合并作为标准组另选一个通用的便于比较的标准组。如本地的、本省的、全国的、世界的同一指标之构成皆可酌情选用选用不同的标准时,所得出的标准化率是不同的。但这种差别大多不致于影响对比的相对关系。,应用标准化时的注意事项,标准化率的应用价值仅限于相互比较,不反映具体的实际水平。要反映实际情况,则需用未标化前的率。,应用标准化时的注意事项,标准化率的适用范围仅适用于某因素两组内部构成不同,并有可能影响两组总率的比较,对于因其他条件不同而产生的不可比性问题,标准化率不能解决。,应用标准化时的注意事项,标准化率也有抽样误差两样本标准化率作比较时,当样本含量较小时,还应作假设检验,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号