第二章定量数据的统计描述ppt课件.ppt

上传人:小飞机 文档编号:1355243 上传时间:2022-11-13 格式:PPT 页数:114 大小:2.22MB
返回 下载 相关 举报
第二章定量数据的统计描述ppt课件.ppt_第1页
第1页 / 共114页
第二章定量数据的统计描述ppt课件.ppt_第2页
第2页 / 共114页
第二章定量数据的统计描述ppt课件.ppt_第3页
第3页 / 共114页
第二章定量数据的统计描述ppt课件.ppt_第4页
第4页 / 共114页
第二章定量数据的统计描述ppt课件.ppt_第5页
第5页 / 共114页
点击查看更多>>
资源描述

《第二章定量数据的统计描述ppt课件.ppt》由会员分享,可在线阅读,更多相关《第二章定量数据的统计描述ppt课件.ppt(114页珍藏版)》请在三一办公上搜索。

1、第二章定量数据的统计描述,【例2-1】2006年某市120名10岁男孩的身高(cm)资料如下135.4139.8144.0 147.3146.3142.5138.1143.6141.6152.6132.1144.7143.6146.8144.2141.3137.5142.8140.6150.4145.9140.2144.5148.2146.4142.4138.5148.9146.2155.4134.2139.2143.5141.6143.5142.3148.9143.6141.5151.1132.5138.7149.6146.9148.7141.5137.8142.7144.6151.8136

2、.4140.0144.3147.5145.6142.5138.5143.7149.5153.6130.2138.9143.7146.5138.8141.7136.9142.0140.5150.3135.7145.7144.2147.8145.8142.6138.6143.8141.3153.9133.4139.6143.7147.5144.8148.0137.4142.1140.8141.8134.5139.4142.9147.5144.7141.8136.9143.5140.7151.4145.6147.3143.9141.9151.6145.6148.9144.3139.1145.8145

3、.6145.3147.6148.6145.5137.3146.5140.3148.4136.5,【问题2-1】该资料为何种类型资料?如何对该资料进行描述?,第一节 频数表和频数图,第二节 集中趋势的描述,第三节 离散趋势的描述,第四节 正态分布及其应用,频数表和频数图,由于个体变异的存在,医学研究中某指标在各个体上的观察结果不是恒定不变的,但也不是杂乱无章的,而是有一定规律的,呈一定的分布(distribution)。将原始数据按照一定的标准划分为若干个组,合计各组的频数,得到频数分布表;也可再将频数表绘制成频数分布图。,频数(frequency):一组资料中各观察值或不同组段内观察值出现的频

4、繁程度(次数)。频数分布表(frequency table):由变量值及其频数编制而成的表。,一、频数分布表,(一)频数表的编制,1. 求极差(range):极差又称全距,是指全部观察值中最大值与最小值之差,用符号R表示。 R=xmax-xmin,2. 确定组数和组距 (1) 根据样本含量的大小及研究目的确定组数: 一般设815个组。 (n50,915)。,(2)确定组距(class interval):相邻两个组段下限之差为组距,一般采用等距分组。 i=R/组数,为了方便资料整理汇总,组距一般取整数。,3. 确定组段组段起点称为下限(lower limit)组段终点称为上限(upper li

5、mit)注意:第一组段必须包含最小值,最后一个组段必须包括最大值,各组段不能重叠。除最末一个组段需同时写出上下限外,其余组段只写出其下限。,4. 归组计数,整理成表用计算机或手工划记法汇总,得到各组段观察单位个数,绘制成频数分布表。,表2-1 2006年某市120名10岁男孩身高(cm)的频数表,(二)频数分布表的用途,1. 揭示频数分布特征2. 揭示频数分布类型3. 便于发现特大或特小的可疑值4. 便于进一步计算统计指标和进行统计分析,频数分布的两个特征集中趋势(central tendency):指一组数据向某个位置聚集或集中的倾向。 离散趋势(dispersion tendency):指

6、一组数据的分散性或变异度。,频数分布的类型 对称分布(symmetric distribution) :集中位置在中间,左右两侧频数基本对称。,偏态分布(skewed distribution):集中位置偏向一侧,两侧频数分布不对称。正偏态(positive skew)负偏态(negative skew),频 数,频 数,频 数,血清肌红蛋白(g/ml),负(左)偏态,对称分布,正(右)偏态,二、频数分布图,频数分布图(graph of frequency)是以变量值为横坐标、频数(或频率)为纵坐标(不等距分组时以频率/组距=频率密度为纵坐标),以每个等宽的距形面积表示每组的频数(或频率)。,

7、连续型定量资料:频数图中各距形是相连的,又称直方图(histogram)。离散型定量资料:频数图中各距形是间隔的,又称直条图(bar graph)。,图2-1 2006年某市120名10岁男孩身高的频数图,离散型计量资料的频数表,434名少数民族已婚妇女现有子女数频数分布图,集中趋势的描述,平均数(average)是一类描述计量资料集中位置或平均水平的统计指标,在医学领域中常用的平均数有算术均数、几何均数、中位数、众数、调和均数。,一、算术均数(arithmetic mean),简称均数(mean),总体均数用希腊字母 (miu)表示,样本均数用 (x bar)表示。均数描述一组数据在数量上的

8、平均水平。,直接法将所有数据直接相加,再除以总例数:是希腊字母,读作sigma,为求和符号。,1. 计算方法,【例2-2】某医生测量了10名脑出血患者的血尿素氮(mmol/L)分别是:7.4、6.7、6.9、7.3、7.6、6.5、 7.8、8.2、8.0、6.6,试计算该组数据的均数。,加权法 用于频数表资料或样本中相同观察值较多时,将相同观察值的个数(频数 f )乘以该观察值 x,以代替相同观察值逐个相加。,【例2-3】根据表2-1资料,用加权法求120名10岁男孩身高的均数,f 起了“权数”的作用,权衡了各组中值由于频数不同对均数的影响。加权法计算的均数是近似的。,适用于描述单峰对称分布

9、,特别是正态分布或近似正态分布资料的集中趋势。均数在描述正态分布特征方面有重要意义。,均数的应用,我也知道了!,例 现有5人,其血清抗体效价分别为1:10、 1:100、 1:1000、 1:10000和 1:100000,求其效价倒数的平均水平。若计算效价倒数的算术均数用算术均数反映这类资料的平均水平是不合适的。,先求效价倒数对数值的均数,然后求反对数1000位于10、100、1000、10000、100000的中间位置,具有很好的表性,这种平均数就称为几何均数。,是n个观察值乘积的n次方根,又称倍数均数,用G表示 。,几何均数(geometric mean),二、几何均数(Geometri

10、c mean,G),直接法:当 n 较小时,直接将 n 个观察值的乘积开n 次方。,1. 计算方法,二、几何均数(Geometric mean,G),【例2-4】 某实验室测得7人血清中某种抗体的滴度分别为1/4,1/8,1/16,1/32,1/64,1/128,1/256,试求平均滴度。,加权法:当资料中出现相同观察值较多或资料已编制成频数表时,也可用加权法计算几何均数。,【例2-6】50名麻疹易感儿接种麻疹疫苗后,测得血凝抑制抗体滴度资料见表4-3,求抗体的平均滴度。,表4-3 50名麻疹易感儿血凝抑制抗体滴度,即50名麻疹易感儿接种麻疹疫苗后血凝抑制抗体的平均滴度为1/54。,2. 应用

11、及注意事项,几何均数应用于:等比资料,如抗体平均滴度;对数正态分布资料。,Remember!,使用几何均数时应注意:观察值不能有0;观察值不能同时有正值和负值。若全为负值,在计算时先把负号去掉,得出结果再加上负号。,Be careful!,【例2-7】200名食物中毒患者潜伏期资料如表2-4,研究人员据此采用加权法计算均数得平均潜伏期为27小时。(1)该组数据在分布上有何特点? (2)用均数描述该资料的平均水平是否合适?,三、中位数与百分位数,表2-4 200名食物中毒患者的潜伏期,中位数(median):一组观察值从小到大排列,位次居中的观察值即中位数,是一个位置指标。,直接法n为奇数,n为

12、偶数,,【例2-8】某实验师对10只小白鼠染毒后观察各小鼠的生存时间(分钟),得数据为:35,60,62,63,63,65,66,68,69,69,试计算小白鼠的平均生存时间将10个观察值由小到大排列:35,60,62,63,63,65,66,68,69,69,频数表法,LM 中位数所在组段下限,组距,中位数所在组段的频数,中位数所在组段前一组的累计频数,【例2-9】根据例4-7的资料计算中位数,表2-4 200名食物中毒患者的潜伏期,百分位数(percentile):是指将一组观察值由小到大排序后,将其平均分成100等份,对应于每一分割位置上的数值就称为一个百分位数,用 表示。,是一种位置指

13、标,一个百分位数将一组观察值分为两部分,理论上有x%的观察值比它小,有(100-x)%的观察值比它大。,式中:,第x百分位数所在组段下限组距第x百分位数所在组段的频数第x百分位数所在组段前一组的累计频数,【例4-10】根据表4-4,计算P25、P75,适用条件:偏态分布资料分布类型不明确的资料“开口资料”(即一端或两端无确切数值的资料),Understand?,均数、中位数,正态分布时: 均数中位数正偏态分布时:均数中位数负偏态分布时:均数中位数,集中趋势指标小结,1.即计量资料分布与平均数的选择2.计量资料的分布与统计分析,正态分布,非正态分布,可转换为正态分布,其他分布,应用手段丰富,应用

14、手段有限,离散趋势的描述,描述离散趋势的常用指标,极差(range)四分位数间距(interquartile range)方差(variance)和标准差(standard deviation) 变异系数(coefficient of variation),1. 极差/全距(range),全部观察值中最大值与最小值之差,用符号R表示, 即常用于描述单峰对称分布小样本资料的变异程度,或用于初步了解资料的变异程度,极差描述离散趋势的局限只考虑最大值与最小值之差异,不能反映组内其它观察值的变异程度样本含量越大,极差可能越大,样本含量相差悬殊时不宜用极差作比较,四分位数 : P25,P50,P75三个

15、点将全部观察值等分为四部分,处于分位点上的数值就是四分位数下四分位数即第25百分位数,用QL表示 上四分位数即第75百分位数,用QU表示,2. 四分位数间距,四分位数间距(interquartile range)即上、下四分位数之差200名食物中毒患者的潜伏期资料,P25=15.4, P75=36,四分位数间距常用于描述偏态分布及分布的一端或两端无确切数值资料的离散程度四分位数间距较全距稳定,但仍不能全面概括所有观察值的变异情况,3. 方差(variance)和标准差(SD),式中 n 1 称为自由度(Degree of freedom),允许自由取值的变量值个数,用符号 (niu)表示,方差

16、的度量单位是原度量单位的平方方差开方后即与原数据的度量单位相同,这就是标准差(standard deviation),标准差应用公式 直接法 加权法,【例2-13】某医生测量了10名脑出血患者的血尿素氮(mmol/L)分别是:7.4、6.7、6.9、7.3、7.6、6.5、7.8、8.2、8.0、6.6,试计算该组数据的标准差,【例2-14】根据表4-1资料,计算120名10岁男孩身高的标准差,描述对称分布,特别是正态分布或近似正态分布资料的变异程度,【例2-15】某医院预防保健科,对一组5岁男孩进行体检,测量身高、体重等指标。得身高均数与标准差为115.8cm和4.5cm,体重均数与标准差为

17、20.2kg和0.56kg,由此认为身高的变异程度比体重大。上述结论是否正确?,4. 变异系数(coefficient of variation),【例2-16】某实验室分别测量了10只小白鼠和10只家兔的体重,得小白鼠体重的均数与标准差分别为22g和3g,家兔体重的均数与标准差分别为1500g和100g。经比较得出结论,因家兔体重的标准差大于小白鼠体重的标准差,所以家兔体重的变异程度比小白鼠体重的变异程度大。,变异系数(coefficient of variation, CV):是一组观察值的标准差与其均数的比值用途:比较度量衡单位不同的资料的变异度比较均数相差悬殊的资料的变异度,描述数值变

18、量资料集中趋势的指标,描述数值变量资料离散趋势的指标,描述频数分布特征的指标总结,正态分布及其应用,图2-2 频数分布逐渐接近正态分布示意图,1. 正态分布的概念及特征,正态分布(Normal distribution),也称高斯分布(Gaussian distribution),是一种非常重要的连续型随机变量的概率分布,是自然界中最常见的一种分布,正态分布(normal distribution)称为高斯分布(Gauss distribution),如果连续型随机变量X的概率密度函数为:,概念,正态分布的概念与特征,则称随机变量X服从参数为 和 的正态分布,记作:,x,正态曲线(normal

19、 curve)在横轴上方均数处最高;并以均数为中心,左右对称;两端与横轴永不相交,呈钟形的曲线。,正态分布特征,正态分布的概念与特征,正态曲线,正态分布有两个参数,即位置参数 和形状参数,正态分布的概念与特征,位置参数,方差相等、均数不等的正态分布图示,形态参数,正态分布的概念与特征,均数相等、方差不等的正态分布图示,1,正态分布的概念与特征,正态曲线下面积的分布有一定的规律。,正态分布曲线下一定区间内的面积代表了取值于相应区间内的观察值个数在全部观察值总数中所占的比例(概率),或者是观察值落在该区间内的概率。,正态分布的概念与特征,正态曲线下面积的分布规律:,正态曲线与横轴之间的面积恒等于1

20、或100%;对称分布,对称轴两侧的面积各为50;在 区间的面积为68.27 在 区间的面积为95.00 在 区间的面积为99.00,正态曲线下的面积规律,-,+,15.87%,15.87%,68.27%,-1.96,+1.96,2.5%,2.5%,95%,-2.58,+2.58,0.5%,0.5%,99%,若X服从正态分布 ,则Z就服从 。,2. 标准正态分布,标准正态分布与标准化变换(Z变换),标准正态分布曲线下面积分布规律,标准正态分布曲线下面积 (z),z 0.00 0.02 0.04 0.06 0.08-3.00.00130.00130.00120.00110.0010-2.50.00

21、620.00590.00550.00520.0049-2.00.02280.02170.02070.01970.0188-1.90.02870.02740.02620.02500.0239-1.60.05480.05260.05050.04850.0465-1.00.15870.15390.14920.14460.1401-0.50.30850.30150.29460.28770.2810 00.50000.49200.48400.47610.4681,0,z,【例2-18】 已知某地2003年18岁男大学生身高的均数 cm,标准差 cm,且18岁男大学生的身高服从正态分布。问该地18岁男大学

22、生中身高在166.8 cm及其以下者占多大的比例?,查附表3:表的左侧找-1.9,表的上方找0.06,相交处为0.025,3. 正态分布的应用,估计频率分布 【例2-19】某地2003年抽样调查了100名18岁男大学生身高,算得均数为172.70cm,标准差为4.01cm。该地18岁男大学生中身高在162.35cm183.05cm范围内者所占的比例是多少?,查附表3, 左侧的面积为0.005,由正态分布曲线的对称性可知, 右侧的面积也为0.005,又由正态分布曲线下的总面积为1,可得-2.58与2.58之间的面积为1-20.005=0.99=99% 。,制定医学参考值范围医学参考值范围也称正常

23、值范围绝大多数正常人某观察指标的波动范围。绝大多数:90%、95%、99%等,最常用的是95%正常人:不是指完全健康的人,而是指排除了影响研究指标的疾病和有关因素的同质人群,正常人,病人,假阳性率,假阴性率,正常人与病人的数据分布重叠示意图(单侧),制定医学参考值范围的注意事项:要确定一批样本含量足够大的“正常人”根据研究目的和使用要求选定适当的百分界值根据专业知识确定单侧或双侧界值根据资料的分布选用恰当的计算方法,根据医学专业知识确定!单侧:下限: 肺活量、IQ 上限: 转氨酶、尿铅、发汞双侧:白细胞计数、血清总胆固醇,过低异常-单侧下限 过高异常-单侧上限 过低、过高均异常-双侧,正态分布

24、法:适用于正态或近似正态分布的资料,双侧界值,单侧界值,标准正态分布曲线下面积 (z),z 0.00 0.02 0.04 0.06 0.08-3.00.00130.00130.00120.00110.0010-2.50.00620.00590.00550.00520.0049-2.00.02280.02170.02070.01970.0188-1.90.02870.02740.02620.02500.0239-1.60.05480.05260.05050.04850.0465-1.00.15870.15390.14920.14460.1401-0.50.30850.30150.29460.28

25、770.2810 00.50000.49200.48400.47610.4681,0,z,表4-6 常用z值表,【例2-20】利用例2-19资料估计该地18岁男大学生身高的95参考值范围。,164.84180.56cm,【例2-21】测得某地200名正常人尿汞值,求该地正常人尿汞值的95%参考值范围。,表4-7 某地200名正常人尿汞值,表2-7 某地200名正常人尿汞值( ),百分位数法单侧上界,质量控制,UCL (上控制限)UWL(上警戒限)CL (中心线)LWL(下警戒限)LCL (下控制限),样本编号、取样时间,质量控制图(quality control chart),123456789101112131415取样时间,正态分布是许多统计方法的理论基础后面章节将要讲到的t检验、F检验及相关回归分析等多种统计方法均要求分析的指标服从正态分布或近似正态分布,小 结,通过频数图和频数表可以揭示资料的分布特征定量资料的描述包含集中趋势和离散趋势正态分布是一种非常重要的连续型随机变量分布,其曲线下面积的分布有一定的规律。可用于估计频数分布、制定医学参考值范围和质量 控制等。,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号