卫生学 9. 数值变量的统计分析课件.ppt

上传人:牧羊曲112 文档编号:1406190 上传时间:2022-11-20 格式:PPT 页数:106 大小:1.15MB
返回 下载 相关 举报
卫生学 9. 数值变量的统计分析课件.ppt_第1页
第1页 / 共106页
卫生学 9. 数值变量的统计分析课件.ppt_第2页
第2页 / 共106页
卫生学 9. 数值变量的统计分析课件.ppt_第3页
第3页 / 共106页
卫生学 9. 数值变量的统计分析课件.ppt_第4页
第4页 / 共106页
卫生学 9. 数值变量的统计分析课件.ppt_第5页
第5页 / 共106页
点击查看更多>>
资源描述

《卫生学 9. 数值变量的统计分析课件.ppt》由会员分享,可在线阅读,更多相关《卫生学 9. 数值变量的统计分析课件.ppt(106页珍藏版)》请在三一办公上搜索。

1、第九章 数值变量资料的统计分析,预防医学教研室郭怀兰,数值变量资料的统计分析,集中趋势统计描述 离散趋势 统计推断,参数估计假设检验,内 容,数值变量资料的统计描述正态分布及其应用数值变量资料的统计推断,目的和要求,掌握 1 频数分布表及其主要作用 2 描述数据分布集中趋势和离散趋势的指标; 3 正态分布的概念和特征、标准正态分布下面 积分布规律熟悉 1 连续性变量的频数分布图,医学参考值范围的意义和计算方法; 2 正态分布表、正态分布的应用。了解 如何应用正态分布函数。,第一节 数值变量资料的统计描述,内容,数值变量资料的频数分布,1,集中趋势指标,2,离散趋势指标,3,正态分布和医学参考值

2、范围,4,案例,2007年9月份我室对我校2005级临床本科的1、2、3大班全体学生490人的个人情况(姓名、性别、年龄、身高、体重、吸烟、饮酒等)进行了调查,下面是调查资料问:(1)各变量是什么类型的变量?(2)如何描述2005级临本身高、体重?,一、数值变量资料的频数分布,例9-1 某地140名健康成人男性尿素氮(BUN)浓度测定值资料如下:6.005.28 2.10 6.55 ,1、计算极差(range,R) :R6.55-2.10=4.452、确定组数(K)、组段和组距:组数:取1015之间,样本含量较大时,组段数多一些,反之,可少一点。组距可以相等也可以不相等,根据资料的特征而定,分

3、组原则是以能够反映出资料的分布规律为准。,编制频数分布表步骤,年龄(岁)患者人数每岁人数 年龄(岁)患者人数每岁人数0 33 8 8 8 1 33 9 9 92 99 10 36 3.63 11 11 20 13 1.3 4 23 23 30 11 1.1 5 22 22 40 4 0.4 6 11 11 50 1 0.1 7 14 14,不等距离,1953年某市流行性乙型脑炎患者年龄分布,编制频数分布表步骤,组距:R/k4.45/12=0.370.4 确定组段:第一组要包含最小值,最后一组要包含最大值。3、列表划记,表9-2 140健康成年男性血清尿素氮浓度(mmol/L) 尿素氮浓度 划

4、记 频 数2.00| | 2 2.40正| | 72.80正正| | | 133.20正正| | | | 143.60正正正 154.00正正正| | | | 194.40正正正| | | 184.80正正正| 165.20正正| | | | 14 5.60 正正| | | 13 6.00 正| 6 6.40 6.80 | | | 3合 计 140,频数分布表的用途,偏态分布,正态分布,分布类型,频数分布表的用途,红细胞数划 记频 数 (1) (2) (3)3.70| | 2 3.90| | | | 44.10正 | | | | 94.30正正正 | 164.50正正正正 | | 224.70

5、正正正正正 254.90正正正正 | 215.10正正正 | | 175.30正 | | | | 95.50| | | | 45.705.90| 1合 计 130,某地区130名正常成年男子红细胞数(1012/L)的频数分布,某地100名20周岁应征男青年的身高频数分布,238名正常人发汞值(g/g) 的中位数和百分位数的频数表计算发 汞 值 频 数 累计频数 累计频率(%) (1) (2)(3) (4)=(3)/238 0.3 20 20 8.4 0.7 6686 36.1 1.1 60 146 61.3 1.5 48 194 81.5 1.9 18 212 89.1 2.3 16 228

6、95.8 2.7 6 234 98.3 3.1 1 235 98.7 3.5 0 235 98.7 3.94.3 3 238 100.0,正偏态分布,某地某年恶性肿瘤死亡数的年龄分布年龄组 恶性肿瘤死亡数 0 1 10 12 20 15 30 76 40 189 50 234 60 386 70 286,负偏态分布,分布特征,集中趋势(central tendency),离散趋势tendency of dispersion,分布特征,二、集中趋势的描述,描述数值变量资料的集中趋势,常用的指标是平均数(average)。平均数可用来反映一组性质相同的观察值的集中趋势、中心位置或平均水平。平均数包

7、括算术均数、几何均数、中位数、众数及调和均数等,是统计学中应用最广泛、最重要的指标体系。,(一)算术平均数 arithmetic mean,算术平均数的计算,1)直接法 将所有数据 直接相加,再除以总例数n,即:,例9-2 10名女孩身高,2)加权法当资料有较多相同观察值时,可用相同观察值的个数(即频数)乘以该观察值,以代替逐个相加。即:,表9-3 140名成年男子血清BUN浓度均数与标准差计算表,根据表9-2,用加权法求某地健康成人男性BUN(mmol/L)测定值均数如下: 由频数表求得的均数与直接由原始数据求得的均数稍有出入。,二、几何均数 geometic mean,对所有数据直接相乘,

8、再开n次根,即:,式中为连乘符号,xi为各观察值的大小。对公式两边取对数:,1)直接法,例9-3 设有8份血清抗体滴度为1:200,1:25,1:400,1:800,1:50,1:100,1:50、1:25,求平均滴度。,当资料由较多的观察值或频数表资料时,可用加权法求得几何均数。,式中fk为xk的频数。,2)加权法,表9-4 某地112名儿童接种疫苗后血清抗体滴度的计算表,应用G时注意事项,计算几何均数时,观察值中不能有0,因为0不能与其他任何数值呈倍数关系观察值中不能同时有正值和负值。若全是负值,计算时可先将负号除去,得出结果后再加上负号同一资料而言,若同时计算G与 ,则理论上可以证明G,

9、WARNING,三、中位数 Median,2)计算方法 1)直接法 当例数较小时,可将观察值按从小到大的顺序排列,直接求得M。,当n为奇数时,当n为偶数时,例9-6 某传染病11名患者的潜伏期分别为:1、2、2、3、3、4、5、6、7、7、9,求其中位数。本例中,n=11为奇数,且数据已经按照从小到大的顺序排列:,百分位数 ( Percentile,Px ),描述变量值序列在某百分位位置的水平,多个百分位数结合可更全面地描述变量值的分布特征。,把一组数据从小到大排列,数据数目分成100等份,各等份含1%的观察值,分割界限上的数值就是百分位数。,百分位数的计算方法:,例9-7 为了解某地儿童体内

10、铅负荷现状,某市儿保所2006年以随机抽样的方法调查了该市340名7岁以下儿童的血铅含量,求其中位数、P25、P75、P95。,表9-5 340名7岁以下儿童的血铅含量频数表潜伏期(天) 人数f 累计频数 累计频率% 0.00 22 22 6.47 0.25 36 58 17.06 0.50 23 81 23.82 0.75 42 123 36.18 1.00 41 164 48.24 1.25 55 219 64.41 1.50 36 255 75.00 1.75 28 283 83.24 2.00 15 298 87.65 2.25 24 322 94.71 2.50 6 328 96.4

11、7 2.75 9 337 99.12 3.00 3.25 3 340 100.00 合计 340,P25、 P75、 P95百分位数:,应用M时注意事项,对同一资料同时计算M与 ,若资料为对称分布,则M = ;若资料为单峰正偏态,则M ;若资料为单峰负偏态,则M M只受位次居中的观察值的影响,对两端极大或极小值均不敏感计算中位数时,不要求频数表的所有组距相等,WARNING,百分位数的用途,描述一组资料在某百分位置的水平,P50即中位数,P2.5,P5,P95,P97.5,P25,P75,应用百分位数注意事项,分布中部的百分位数较稳定,具有较好的代表性,但靠近两端的百分位数,只有在样本含量足够

12、大时才比较稳定,因此,当样本含量不够大时,不宜取太近两端的百分位数,WARNING,第三节离散趋势的描述,例:三组同年龄女大学生体重(kg)如下,试分析其分布特征。,甲组 46 48 51 53 57 乙组 44 47 52 55 57 丙组 45 49 50 55 56,一、全距(range,R),例:三组同年龄女大学生体重(kg)如下,试分析其分布特征。,甲组 46 48 51 53 57 乙组 44 47 52 55 57 丙组 45 49 50 55 56,二、四分位数间距(quartile interval,Q),计算,二、四分位数间距(quartile interval,Q),Q,

13、根据表9-5资料,求其四分位数间距。,故四分位数间距:,三、方差与标准差,考虑总体中每个观察值Xi与总体均数之差,即( ),称为离均差。,N-1 称自由度Degree of freedom,由于 ,故离均差之和不能反映变异度的大小,可使用离均差平方和 反映之。由于 为非负数,故离均差平方和 的大小还受观察值个数N 的影响,为了消除 N 的影响,取其均数,即可得到总体方差(population variance),用 表示。,(2)计算方法1)直接法,2)加权法 适用于频数表资料,例9-8 以例9-2中10名12岁女孩身高数据为例,求标准差,X=1422.1 X2=202924.37,表9-3

14、140名成年男子血清BUN浓度均数与标准差计算表,根据表9-3资料和加权法计算标准差:,由140个实测值可知:,有三组成人的血压资料,求全距、方差、标准差,并进行比较。,三组成人的舒张压测定值及离散趋势指标比较,组别舒张压 R S2S甲组6066758286 73.8 26117.210.83乙组6068758086 73.8 26 100.3 10.01丙组6072757686 73.8 26 88.5 9.41,离散趋势,(3)标准差与方差的用途,1 衡量一组观察值的离散程度(变异度),且结合均数可以全面描述正态分布资料的分布特征,2 在两组(或几组)资料均数相近、度量单位相同的情况下,可

15、以衡量样本均数的代表性。标准差越大,表示观察值的变异度越大,均数的代表性越差;反之,标准差越小,表示观察值的变异度越小,均数的代表性越好3 计算医学参考值范围及计算均数的标准误,四、变异系数(coefficient of variation),例9-10 某地40名7岁男童身高均数为121.48cm,标准差为4.65cm;体重均数为22.18KG,标准差为2.35KG,试比较该40名男童身高与体重的变异程度。,计量资料的主要描述性指标及其适用条件,主要指标 适用条件 、S 对称分布,正态或近似正态分布资料G、lg-1Slgx 等比或对数正态分布资料 M、Q 偏态分布、分布不明或分布末端无确 定

16、值的资料,第二节 正态分布和医学参考值范围,正态分布(normal distribution)是统计学中最重要的一个连续型分布,它的应用极为广泛,而且在理论上有着极其重要的地位。,正态分布曲线:指高峰位于中央(均数所在处)、两侧逐渐降低且左右对称、不与横轴相交的光滑的曲线。,式中f(x)为与x对应的正态曲线的纵坐标高度,与分别为总体均数和标准差,为圆周率,e为自然对数的底。,-x,一、正态分布概率密度函数,为应用方便,将x进行u转换:即u=(X-)/,此称作正态差(normal deviate) u转换后,使原来的正态分布变换为标准正态分布standard normal distributio

17、n ,亦称u分布。,标准正态分布的概率密度函数:,-u,U值的=0,=1,用(0,1)表示。此时公式简化成:,1、正态曲线在横轴上方均数处最高。2、正态分布以均数为中心,左右对称。3、正态分布有两个参数即均数(位置参数)和标准差(形态参数)。常用N(,2)表示正态分布曲线 N(0,1)表示标准正态分布曲线4、标准正态曲线在1处各有一个拐点。 正态曲线在处各有一个拐点。5、正态曲线下的面积有一定的规律。,二、正态分布的特征,正态分布曲线下的面积规律,正态分布曲线下的面积有一定的分布规律,可以通过其分布函数积分求得。(P164),正态分布的分布函数,标准正态分布的分布函数,对应某区间的面积占全部面

18、积的百分比, 等于观察值例数占全部观察值例数的百分比,亦等于观察值落在该区间的概率。,正态分布曲线下的面积规律,表8-11 正态分布或标准正态分布曲线下面积规律 正态分布 标准正态分布 面积(概率)()( , ) -11 68.27( -1.96, 1.96)-1.961.96 95.00( -2.58, 2.58)-2.582.58 99.00,三、医学参考值范围(reference ranges),判断是否需要分组,确定单双側界值,(二)制定参考值基本步骤,资料必须呈正分布或近似正态分布或经过变量变换可变换成正态分布。否则,应当用其它方法如百分位数法估计医学正常参考值范围。样本含量必须足够

19、大,否则估计出的医学正常参考值范围就不够可靠总体必须有明确的定义和范围观察仪器方法必须统一,注意事项,WARNING,1、正态分布法:正态或近似正态分布资料2、对数正态分布法:对数正态分布资料 3、百分位数法:偏态分布资料用。双侧界值:P2.5和P97.5 单侧下界:P5 ,单侧上界:P95,(三)医学参考值范围的估计(95%),例 9-11 试估计表9-1中140名成年男子血清BUN含量95%的参考值范围 2.316.51(mmol/L),例9-12 利用例9-7的资料计算7岁以下男童血铅95%的参考值范围,单侧上限 P95=2.54,某年某市调查了200例正常成人血铅含量(g/100g)如

20、下,试估计该市成人血铅含量95医学参考值范围。,200个血铅测量值,组段 频数f 累计频数f 累计频率()3 36 36 18.08 39 75 37.513 47 122 61.0 18 20 152 76.023 18 170 85.028 16 186 93.033 3 189 94.538 7 196 98.043 1 197 98.548 1 198 99.053 1 199 99.55862 1 200 100.0,200名血铅频数表及P95计算表,求95%的单侧上界:,200名血铅值对数变换后的频数表及 、SlgX计算表,39.278(g/100g),参考值范围的制定 双侧 单侧

21、下限 单侧上限 正态分布法 对数正态分布法百分位数法 P2.5P97.5 P5 P95,95%,应用正态统计理论或百分位数法估计医学正常值时一定要防止绝对化,必须知道 的范围只包括95%的正常人群,必然会有5%的健康者被遗漏;用 确定的医学正常值范围仍有1%健康者被遗漏。因此在临床实践中应根据各方面情况综合考虑,防止漏诊或误诊。,WARNING,本章学习目的和要求,掌握 1 频数分布表及其主要作用 2 描述数据分布集中趋势和离散趋势的指标; 3 正态分布的概念和特征、标准正态分布下面 积分布规律熟悉 1 连续性变量的频数分布图,医学参考值范围的意义和计算方法; 2 正态分布表、正态分布的应用。了解 如何应用正态分布函数。,复习思考题,1.描述集中趋势的指标;2.描述离散趋势的指标;3.正态分布特征;4.正态分布曲线下面积的分布规律。,课后题,请表9-2的资料,计算成年男性BUN大于5.68的人有多少?,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号