《计量(定量)的统计描述课件.ppt》由会员分享,可在线阅读,更多相关《计量(定量)的统计描述课件.ppt(85页珍藏版)》请在三一办公上搜索。
1、第十一章 资料的描述性分析,2022/12/23,2,第十一章 资料的描述性分析,第一节 计量资料的统计描述方法第二节 计数资料的统计描述方法统计图表,2022/12/23,3,第一节 计量资料的统计描述方法,常用的描述定量资料分布规律的统计方法有两类: 统计图表:频数分布表/图 选用适当的统计指标:集中趋势指标:均数、中位数离散趋势指标:极差、标准差,2022/12/23,4,频数分布表( frequency distribution table ): 将变量值化分为若干个组段,清点并记录各组段变量值的个数,称为频数表(frequency table ) 。,第一节 数值变量资料的频数分布,
2、2022/12/23,5,最小值,最大值,第一节 数值变量资料的频数分布,2022/12/23,6,1. 频数表的编制步骤(1)求数据的极差: 极差(range)是全部数据中的最大值与最小值之差,它描述了数据的变异幅度。 公式:RXMaxXMin 例8.1: XMax =5.59 XMin =3.60 R=5.59-3.60=1.99,第一节 数值变量资料的频数分布,2022/12/23,7,(2)划分组段 确定组数: n100,1015组;n100,810组 确定组距:组距可以相等也可以不相等,一般采用等距分组,组距=极差/组数 例8.1 1.99/102,故组距=2mmol/L,1. 频数
3、表的编制步骤,2022/12/23,8,(2)划分组段 确定各组段的上下限:每个组段的起点称为该组的下限(low limit), 终点称为上限(upper limit), 上限=下限+组距;第一组段必须包括最小值,因此其下限取包含最小值、较为整齐的数值;例8.1 第一组段下限为 3.60,上限为3.60+0.20=3.80 各组段不能重叠,每一组段均为半开半闭区间,即包括下限,不包含上限。例8.1 第一组段为3.60 即3.60,3.80);以此类推。 最后一组段,须包括最大值,且要列出这一组段的下限和上限,即5.405.60, 5.40,5.60,1. 频数表的编制步骤,2022/12/23
4、,9,1. 频数表的编制步骤,最后一组段,第一组段,列出各组段,2022/12/23,10,(3)列表划记,1. 频数表的编制步骤,将原始数据一一对应入每个组段,通过划“正” 字,来统计每个组段内的数据,2022/12/23,11,(3)列表划记,1. 频数表的编制步骤,统计每个组段内的频数(例数)频数的合计数等于样本含量,2022/12/23,12,1. 频数表的编制步骤,(3)列表划记,计算出每个组段的频率每组的频数 样本含量,2022/12/23,13,1. 频数表的编制步骤,(3)列表划记,计算出每个组段的累计频率=本组段的频率+上一组段的累计频率,2022/12/23,14,1. 频
5、数表的编制步骤,2022/12/23,15,2.绘制频数分布直方图,绘制频数分布直方图坐标轴横坐标:变量值即研究指标,无需从0开始,以单位尺度划分。纵坐标:为频数f,必须从0开始(f为每一组段内的人数)直条直条的宽度:组距直条的高度:每一组段的频数累计,2022/12/23,16,2.绘制频数分布直方图,2022/12/23,17,2.绘制频数分布直方图,2022/12/23,18,3、频数分布的特征,从频数表可以看到频数分布的两个重要的特征 集中趋势(central tendency)血糖值向中央部分(中等水平)集中,以中等水平的血糖值者居多,是为集中趋势。 离散趋势(tendency of
6、 dispersion)从中央部分到两侧(血糖值从中等水平到较低或较高水平)的频数分布逐渐减少,是为离散趋势。集中趋势和离散趋势是频数分布的两个重要侧面,从这两方面就可全面的分析所研究的事物。,2022/12/23,19,4.频数分布的类型,频数分布又可分为对称分布和偏态分布对称分布:集中位置在正中,左右两侧频数分布大体对称偏态分布:集中位置偏向一侧,频数分布不对称正偏态分布:集中位置偏向年龄小的一侧负偏态分布:集中位置偏向年龄大的一侧 不同类型的分布,应采用相应的统计分析方法。,2022/12/23,20,4.频数分布的类型,正态分布( normal distribution )中间高、两边
7、低、左右对称属于对称分布的一种许多医学资料都属于这种分布,例如人体正常的生理生化指标,正态分布,2022/12/23,21,4.频数分布的类型,a.尖峭峰 b.正态峰c.平阔峰,2022/12/23,22,正偏态分布:峰偏左,尾部向右侧延伸如:以儿童为主的传染病发病人数的分布右偏态,4.频数分布的类型,负偏态分布:峰偏右,尾部向左侧延伸如:以老年人为主的慢性病发病人数的分布左偏态,(positive skewed),(negative skewed),2022/12/23,23,5.频数表的用途,频数表可揭示资料的分布特征和分布类型便于进一步计算统计指标和统计分析处理(第二节)便于发现某些特大
8、或特小可疑值,便于资料的校对。,2022/12/23,24,一、集中趋势指标,算术均数(arithmetic mean)几何均数(geometric mean)中位数和百分位数(median percentile)以上统称为平均数(average)常用于描述一组变量值的集中位置,代表其平均水平或是集中位置的特征值。,2022/12/23,25,1.算术均数,又简称为均数(mean)定义:是反映一组观察值在数量上的平均水平。总体均数用希腊字母 表示,样本均数用 表示计算方法:直接法:频数表法:应用: 正态分布或近似正态分布资料,(arithmetic mean),2022/12/23,26,1.
9、算术均数,计算方法直接法:即将所有观察值x1,x2,x3,xn直接相加再除以观察值的个数,写成公式,为样本均数 n为变量值个数,i为各变量值, 表示求和,2022/12/23,27,1.算术均数,例1 有9名健康成人的空腹胆固醇测定值(mmol/L)为5.61,3.96,3.67,4.99,4.24,5.06,5.20,4.79,5.93,求算术均数。,2022/12/23,28,1.算术均数,计算方法 频数表法(weighting method)当资料中相同观察值的个数较多时,可将相同观察值的个数,即频数f,乘以该观察值x,以代替相同观察值逐个相加。对于频数表资料,用各组段的频数作f,以相应
10、的组中值(class mid-value)作x。组中值=(下限+上限)/ 2公式,fi为各组段的频数xi为各组段的组中值,2022/12/23,29,1.算术均数,2022/12/23,30,1.算术均数,组中值=(下限+上限)/ 2如:3.60组段的组中值=(3.60+3.80)/2=3.70以此类推,2022/12/23,31,f1, f2,fk分别为各组段的频数,这里的f起到了“权数”的作用,它权衡了各组中值由于频数不同对均数的影响。即频数多,权数大,作用也大;频数少,权数小,作用也小,故称为加权法。,1.算术均数,用组中值,加权法计算出的均数是精确值吗?,2022/12/23,32,均
11、数的两个重要特性各离均差(即各观察值x与均数 x之差)的总和等于零。离均差的平方和小于个观察值x与任何数( x )之差的平方和。,1.算术均数,2022/12/23,33,1.算术均数,各离均差(即各观察值x与均数 x之差)的总和等于零。,偶知道另一个也能证明了!嘿嘿,2022/12/23,34,1、最常用,特别是正态分布资料2、均数对极值特别敏感, 极大值或极小值通常将均数拉向自己,1.算术均数,均数的特征,2022/12/23,35,CASIO fx-3600P计算器统计功能,步骤 键 盘 说 明 1. MOOD 3 进入SD统计功能 2. SHIFT AC 清除原有数据 3. 2.35
12、DATA 输入数据 4.21 DATA 3.32 DATA 4. SHIFT 1(数字键) 显示计算的 5. SHIFT 3 (数字键) 显示计算的S 6. Kout 3 (数字键) 显示计算的n 7. Kout 1 (数字键) 显示计算的,2022/12/23,36,2.几何均数,定义:有些医学资料,如抗体滴度、细菌计数等,其频数分布明显偏态,各观察值之间呈倍数变化(等比关系),此时宜用几何均数反映其平均增减倍数。计算方法:直接法加权法应用:等比资料或对数正态分布资料,(geometric mean),2022/12/23,37,计算方法:直接法:直接将n个观察值( x1,x2,x3,xn
13、)的乘积开n次公式写成对数形式为,2.几何均数,几何均数:变量对数值的算术均数的反对数。,2022/12/23,38,例3 有7份血清的抗体效价分别为1:2,1:4,1:8,1:16,1:32,1:64,1:128,求平均抗体效价。本例先求抗体效价的倒数,再求几何均数,2.几何均数,血清抗体的平均效价为1:16,2022/12/23,39,计算方法:加权法:当资料中相同观察值得个数f(即频数)较多时,如频数表资料写成公式,2.几何均数,2022/12/23,40,例4 有60人的血清抗体效价,分别为7人1:5,11人 1:10,22人1:20,12人1:40,8人1:80,求平均抗体效价。,2
14、.几何均数,60人的血清平均抗体效价为1:20.705,2022/12/23,41,注意事项等比资料,如:抗体的平均滴度、药物的平均效价、卫生事业平均发展速度、人口的几何增长对数正态分布:是右偏态分布观察值不能有0。因为0不能去对数,不能与任何其他数呈倍数关系。观察值不能同时有正值和负值。若全是负值,计算是可以把负号去掉,得出结果后再加上负号。同一组资料求得的几何均数小于算术均数。,2.几何均数,2022/12/23,42,若一组数值变量资料为偏态分布,变量为x,令y=lgx后,变量y服从正态分布,请问变量x为什么样的偏态分布资料?,2.几何均数,变量y 服从,则变量x服从,2022/12/2
15、3,43,3.中位数和百分位数,(1)中位数定义:是将一组观察值从小到大按顺序排列,位次居中的观察值就是中位数。例:,((median percentile)),X: 5,5, 6, 7, 20, 位次: 1 2 3 4 5,中位数(M): 6,6.5,23 6,2022/12/23,44,(1)中位数,计算方法:直接由原始数据计算中位数先将观察值按大小顺序排列,再按下面公式计算:,2022/12/23,45,例5 有7名正常人的血压(舒张压)测定值(mmHg)为:72,75,76,77,81,82,86,求中位数。解:n=7 为奇数 变量x: 72,75,76,77,81,82,86 位 次
16、: 1 2 3 4 5 6 7,(1)中位数,请大家思考下:计算中位数和其他平均数有什么不同?,特点:仅利用了中间的12个数据,2022/12/23,46,计算方法:用频数表计算中位数,按所分组段,由小到大计算累计频数和累计频率。再按下面公式计算为:,(1)中位数,2022/12/23,47,下限值L,上限值U,i; fm,中位数M,(1)中位数,2022/12/23,48,0 ,2.27 ,4.55 ,10.61 ,28.03 ,46.21 ,65.15 ,80.30 ,89.39 ,96.97 ,(1)中位数,累计频数,3 614376186106118128132,2022/12/23,
17、49,(1)中位数,反映了位次居中的观察值的水平 优点:不受两端特大值和特小值影响 缺点:并非考虑到每个观测值适用于各种分布类型的资料, 特别适合于:大样本偏态分布资料 或者一端/两端无确切数值的资料 3.中位数和算术均数再对称分布的资料中,理论上数值是相 同的,中位数的特征,2022/12/23,50,(2)百分位数,定义:是一种位置指标,用 PX 来表示。将n个变量值从小到大依次排列,再把它们的位次转换为百分位。对应于X%位次的数值即为第X百分位数。 变量值: 5 5 8 89 758 位 次: 1 2 3 75 150 百分位次:0.7% 1.3% 2% 50% 100%,2022/12
18、/23,51,百,分,数,示,意,(100-x)%,x%,位,图,(2)百分位数,一个PX将全部变量值分为两部分,在不包含 PX的全部变量值中有X%的变量值比它小, 有(100-X)%的变量值比它大。,PX是一个界值。,2022/12/23,52,(2)百分位数,计算方法 频数表法 公式如下,Lx:第X百分位数所在组段的下限ix:第X百分位数所在组段的组距fx:第X百分位数所在组段的频数 :第X百分位数所在组段上一组段累计频数,2022/12/23,53,例3 某传染性疾病的潜伏期(天)见表8-3,求平均潜伏期和潜伏期的第25、75与95百分位数P25,P75,P95。,(2)百分位数,202
19、2/12/23,54,(2)百分位数,2022/12/23,55,1、四分位数(Quartile)(三个四分位数)2、十分位数(Centile): 9个十分位数3、百分位数(Percentile)99个百分位数,(2)百分位数,P50,P25,P75,2022/12/23,56,百分位数是用于描述样本或总体观察值序列在某百分位置的水平,最常用的是P50即中位数;多个百分位数结合应用时,可更全面地描述总体或样本的分布。百分位数常用于确定医学参考值范围(reference ranges),(下节后述)。一般,分布中部的百分位数相当稳定,具有较好的代表性,但靠近两端的百分位数,只在样本例数足够多时才
20、比较稳定。因此,样本例数不够多时,不宜取太近两端的百分位数。,(2)百分位数,2022/12/23,57,常用平均数的意义及其应用场合,小 结,2022/12/23,58,第三节 离散趋势指标,平均水平的指标只是描述了一组数据的集中趋势指标,可以作为总体的一个代表值,那么这组观察值之间的是否存在差异?描述差异的指标有哪些呢?差异究竟有多大?如何计算?,2022/12/23,59,第三节 离散趋势指标,例:设甲、乙、丙三人,采每人的耳垂血,然后作红细胞计数,每人数5个计数盘,得结果如下(万/mm3),甲,乙,丙,2022/12/23,60,描述计量资料数据间离散程度的指标 变异指标。常用的指标:
21、极差 四分位间距方差标准差变异系数。,第三节 离散趋势指标,2022/12/23,61,1.极差,定义:亦称为全距,即一组观察值中最大值与最小值之差计算方法: RXMaxXMin 意义: R值越大,表示该组数据的变异越大。缺点: 数据利用不全,仅利用了两个极端值,部分信息损失,在例数少时结果不稳定。,(Range),2022/12/23,62,1.极差,例 三组同龄男孩的身高值(cm) R 甲组 90 95 100 105 110 100 20 乙组 96 98 100 102 104 100 8 丙组 96 99 100 101 104 100 8,2022/12/23,63,2、四分位数间
22、距,四分位数( quartile ):可看作特定的百分位数,第25百分位数P25,表示全部观察值中有25(四分之一)的观察值比它小,为下四分位数,记做QL ;同理第75百分位数P75为上四分位数,记做记做Qu ;四分位数间距,简记为Q,第75百分位数与第25百分位数之差。,(inter-quartile range),P50,P25,P75,2022/12/23,64,计算方法:Q= Qu QL=P75%-P25%意义: Q值越大,表示该组数据的变异度越大。优点:1. 四分位数间距包括了全部观察值的一半,因此也可看成是中间一半观察值的极差。 2.四分位数间距作为说明个体差异的指标,比极差稳定。
23、缺点:未考虑到每个观察值的变异度大。应用:常用于表示偏态分布资料的变异。,2、四分位数间距,2022/12/23,65,例7 利用表计算四分位数间距Q。,2、四分位数间距,2022/12/23,66,极差仅采用了观察值中的最大值和最小值;而四分位数间距也仅仅采用了上、下四分位数,均没有考虑每个观察值,因此这两项指标不能全面反映资料的离散程度。,第三节 离散趋势指标,2022/12/23,67,3.方差,若要克服以上缺点,就必须全面考虑到每一个观察值。可用总体中每一个观察值xi与总体均数 ,之差的总和(离均差总和),反映资料的离散程度,但若计算离均差平方和 ,结果就不为0,但受到样本例数多少的影
24、响,为了消除这一影响,就取离均差平方和的均数,该指标简称为方差(variance)。总体方差用2 表示,样本方差用S2表示。,(variance),2022/12/23,68,3.方差,公 式,奇怪:为什么样本方差是除以n-1呢?后述,2022/12/23,69,方差 (variance)是全部观察值的离均差平方和的均值。表示一组数据的平均离散情况。特点: 方差的分子离均差平方和,是将每一个观察值与均数作差之后平方:反映了全部观察值的离散程度;但同时也将变量值的度量衡单位平方了,变成了(m)2、(kg)2,3.方差,唉!这个指标还是不够尽善尽美,继续探索,2022/12/23,70,4.标准差
25、,方差的单位是原度量衡单位的平方,为了用原单位,就把总体方差开平方,取其正的平方根,这就是总体标准差,用表示:,(standard deviation),其单位与原变量x的单位相同。,2022/12/23,71,总体标准差在实际的应用当中只是个“理论值”。因为实际工作中常常得到的是样本资料,不知道的,只能用样本均数 来估计,这样就用 代替 ,用样本例数n代替N,但这样计算得结果常比真实的低,英国统计学家W.S.Gosset提出用样本例数n-1代替n来校正。应用更多的是样本标准差S。,4.标准差,频数表资料,基本公式,样本方差为什么要除以(n1),与自由度(degrees of freedom)
26、有关。 自由度是统计学术语,其意义是随机变量能自由取值的个数。如:n个数据如不受任何条件的限制,则n个数据可取任意值,称为有n个自由度。若受到k个条件的限制,就只有(nk)个自由度了。,4.标准差,如有一个n=4数据样本,受到 5的条件限制,在自由确定4,2,5三个数据之后,第四个数据只能是9,否则均数不是5,推而广之,任何统计量的v=n-限制条件的个数。,计算标准差时,n个变量值本身有n个自由度。但受到样本均数的限制,任何一个“离均差”均可以用另外的(n1)个“离均差”表示,所以只有(n1)个独立的“离均差”。因此只有(n1)个自由度。,2022/12/23,72,2022/12/23,73
27、,例8 有三组成人的舒张压资料(见表8.4),求全距、方差和标准差,进行比较。,4.标准差,2022/12/23,74,4.标准差,三组舒张压值的全距R相同,不能反映出各组数据的离散程度的区别; 方差和标准差考虑了每个数据和均数的相差情况,三组的S2和S明显不同,全面的反映了资料的变异情况。,2022/12/23,75,例 利用表8-2资料和加权法计算标准差。,4.标准差,2022/12/23,76,意义:从上例可以看出,方差、标准差越大,其观察值之间的变异就越大,则平均数的代表性就越差。,4.标准差,2022/12/23,77,用 途:反映一组观察值的离散程度,标准差小,数据间的离散程度小,
28、均数的代表性好。用于计算变异系数用于计算标准误结合均值与正态分布规律估计医学参考值范围。,4.标准差,2022/12/23,78,5.变异系数,变异系数(coefficient of variation,CV)即标准差s与均数 之比用百分数表示,写成公式为单位:极差、四分位数间距和标准差都是有单位的,其单位与观察值单位相同,而变异系数是相对数,没有单位,更便于资料间的分析比较。,2022/12/23,79,应 用(1)比较度量衡单位不同的多组资料的变异度(2)比较均数相差悬殊的多组资料的变异度。,5.变异系数,2022/12/23,80,(1)比较度量衡单位不同的多组资料的变异度例 比较某地2
29、0岁男子100人,其身高和体重的均数、标准差如下表,试比较身高、体重变异度何者为大?,5.变异系数,2022/12/23,81,(2)比较均数相差悬殊的多组资料的变异度。例: 表 某地不同年龄组男童身高(cm) 年龄组 S CV% 1-2月 56.3 2.1 3.73 5-6月 66.5 2.2 3.31 3-3.5岁 96.1 3.1 3.22 5-5.5岁 107.8 3.3 3.06 结论:随着年龄增加,身高的变异变小。,5.变异系数,2022/12/23,82,变异指标小结,1.极差较粗,适合于任何分布2.四分位数间距,也不全面,常用于偏态分布3.标准差与均数的单位相同,最常用,适合于正态/近似正态分布4.变异系数主要用于单位不同或均数相差悬殊资料5.平均指标和变异指标分别反映资料的不同特征, 常配套使用 如 正态分布:均数、标准差; 偏态分布:中位数、四分位数间距,2022/12/23,83,数值变量资料的统计描述 小结*,1.在医学杂志中,正态或近似正态资料,常以 的形式表达,描述和比较数据的平均水平和离散程度。2.偏态分布或特定资料(生存时间、病程、潜伏期时间等)用中位数和四分位间距描述。 表达形式:M,(Q)3.等比数据和正偏态资料可用几何均数和几何标准差描述 表达形式:GSG,2022/12/23,84,实 例,2022/12/23,85,谢谢大家!,