卫生统计学定量资料的统计描述.ppt

上传人:小飞机 文档编号:6248640 上传时间:2023-10-10 格式:PPT 页数:58 大小:312.50KB
返回 下载 相关 举报
卫生统计学定量资料的统计描述.ppt_第1页
第1页 / 共58页
卫生统计学定量资料的统计描述.ppt_第2页
第2页 / 共58页
卫生统计学定量资料的统计描述.ppt_第3页
第3页 / 共58页
卫生统计学定量资料的统计描述.ppt_第4页
第4页 / 共58页
卫生统计学定量资料的统计描述.ppt_第5页
第5页 / 共58页
点击查看更多>>
资源描述

《卫生统计学定量资料的统计描述.ppt》由会员分享,可在线阅读,更多相关《卫生统计学定量资料的统计描述.ppt(58页珍藏版)》请在三一办公上搜索。

1、第二讲 定量资料的统计描述,主要内容,频数与频数分布定量变量的特征数常用统计图表,一、离散型定量变量的频数分布,二、连续型定量变量的频数分布,第一节 频数与频数分布,一、频数与频数分布,频数:对一个随机事件进行重复观察,其中某变量值出现的次数被称作频数(frequency)某个测量值的个(例)数。(当汇总大量的原始数据时,把数据按类型分组,其中每个组的数据个数,称为该组的频数。)频数表(频数分布):是用于反映各变量值及其相应频数之间的关系。(表示各组及它们对应的组频数的表格称为频数表或频数分布。),(一)离散型定量变量的频数分布,例2-1 1998年某山区96名孕妇产前检查次数资料如下:0,3

2、,2,0,1,5,6,3,2,4,1,0,6,5,1,3,3,4,7等共96个数值。,离散型定量变量的频数分布表,表2-1:96名妇女产前检查次数分布的频数分布表,离散型定量变量的频数分布图,(二)连续型定量变量的频数分布,例2-2 抽样调查某地120名18岁35岁健康男性居民血清铁含量(mol/L)。将数据适当分组,计数每组的频数,根据这些数据编制成的频数分布表(表2-2)则能显示出这组数据分布的特点。,连续型定量变量的频数分布,原始数据,1、频数表的编制,(1)求全距(R):R=最大值 最小值=29.64-7.42=22.22(mol/L)(2)确定组数、组距:通常815组 计算组距(i)

3、i=R/组数 相邻两组段下限值之差称组距。一般都用等距,且用全距的十分之一进行估计。本例:22.2210=2.222,取整为2,该样本可分为12组。,频数表的编制,(3)确定组段:第一组段包括最小值,如本例为6.00;最后组段包括最大值,如本例28.0030.00(要求第一个组段的下限应略小于最小值,最后通一组要同时写出上下限。);尽量取较整齐的数值作为组段的端点;一般都用等距。(4)列表划记:做出如表2-2的表格,将选好的组段顺序地列在(1)列。将原始数据按照“下限x上限”的原则确定每一例数据x应归属的组段。依次完成(2)(5)列的清点频数、计算频率、累计频数与累计频率等步骤,得如表2-1的

4、频数表。,表2-2 120名18岁35岁健康男性居民血清铁含量(mol/L)。,2、频数分布图,在表2-2的基础上,可以绘制出图2-2,称为直方图(频率直方图)。横轴:血清铁含量纵轴:频率密度,即频率/组距(直条面积等于相应组段的频率)。在组距相等时,直方图中矩形直条的高度与相应组段的频率成正比。,频数分布图,1、正态分布:图形高峰在中央,两边对称(或基本对称)地逐渐减少,统计学上称之为正态分布或近似正态分布。2、正偏态分布:高峰位于左侧,右侧的组段数多于左侧,如图2-3。3、负偏态分布:高峰位于右侧,左侧的组段数多于右侧,如图2-1。进行描述性统计时,需要根据数值的分布形态选择统计指标和相应

5、的计算公式。,3、频数分布的类型,频数分布具有两个特征:集中趋势(central tendency):变量值集中位置。如120名正常男子血清铁含量虽然高低不等,但向中间集中(18),中等的人数最多。平均水平指标离散趋势(tendency of dispersion):变量值围绕集中位置的分布情况。本例1424,共有89人,占74.2;离“中心”位置越远,频数越小;且围绕“中心”左右对称。变异水平指标,4、频数分布的特征,5、频数表的主要用途,(1)揭示分布类型;(2)便于发现特大值和特小值;(3)计算集中趋势指标与离散趋势指标;(4)作为陈述资料的形式,可以代替繁复的原始资料,便于进一步分析;

6、(5)当样本含量比较大时,可用各组段的频率作为概率的估计值。如上述频数表(2)栏的频数除以总例数即为第(3)栏的频率,由此可推测正常男子的血清铁含量出现在各组段的概率分别为0.0083、0.025、0.050、0.0083。,一、算术平均数,二、几何均数,三、中位数与百分位数,四、众数,五、调合均数,第二节 集中趋势指标,集中趋势指标,平均指标又称平均数(average),是一类用于描述数值变量资料平均水平(或集中趋势)的指标。统计上的平均数一般包括5种,即算术平均数、几何平均数、中位数、众数以及调和均数。在医学研究上对于连续型定量变量,较常用的为算术平均数、几何平均数和中位数3种。,一、算术

7、均数(均数),意义:一组性质相同的观察值在数量上的平均水平。(它是一组已知性质相同的数值之和除以数值个数所得的商。)表示:(总体)、(样本)计算:直接法、间接法、计算机特征:估计误差之和为0。应用:正态分布或近似正态分布注意:合理分组,才能求均数,否则没有意义。,(1)直接法:当观察例数不多(如样本含量n小于30)时,宜选择直接法。公式为:,例题:有5个自然数分别为1,2,3,4,5,求算术均数。将5个自然数代入公式,得:,计算:,例2-3 测得8只正常大鼠血清总酸性磷酸酶(TACP)含量(U/L)为4.20,6.43,2.08,3.45,2.26,4.04,5.42,3.38。试求其算术均数

8、。算术均数=(4.20+6.43+2.08+3.45+2.26+4.04+5.42+3.38)/8=3.9075(U/L),(2)加权法(weighted method):当观察例数很多可以用加权法计算。,例题:利用下表的资料,用加权法计算120名成年18岁35岁健康男性居民血清铁含量(mol/L)算术均数,计算表如下:,首先将数据编制成频数表,得出每组的频数,求出组中值,代入下列公式,得到均数。,直接法均数=18.61(mol/L),二、几何均数(geometric mean,G),意义:N个数值的乘积开N次方即为这N 个数的几何均数。表示:G 计算:,应用:当一组观察值不呈正态分布、且其差

9、距较大时,用均数表示其平均水平会受少数特大或特小值影响;数值按大小顺序排列后,各观察值呈倍数关系或近似倍数关系。如抗体的平均滴度、药物的平均效价等。(适用于观察值变化范围跨越多个数量级的资料,其频数图一般呈正偏态分布。)计算几何均数的观察值不能小于或等于0,因为无法求对数。同一组数据的几何均数小于算术均数。,(1)直接法 当观察例数不多(如样本含量n小于30)时采用直接法计算:,例题:有5份血清的抗体滴度分别为1:10,1:100,1:1000,1:10000,1:100000,求平均抗体滴度。,将各抗体滴度的倒数代入公式,得:,血清的抗体平均效价为1:1000。,计算:,例2-5 7名慢性迁

10、延性肝炎患者的HBsAg滴度资料为1:16,1:32,1:32,1:64,1:64,1:128,1:512。试计算其几何均数。,(2)加权法,例2-6 52例慢性肝炎患者的HBsAg滴度数据如表2-4。试计算滴度的几何均数。,计算公式为:,三、中位数、百分位数,意义:中位数:将一组观察值从小到大排序后,居于中间位置的那个值或两个中间值的平均值。百分位:把一组数据从小到大排列,分成100等份,各等份含1的观察值,分割界限上的值就是百分位数。中位数是百分位的特殊形式。同样的例子还有四分位数、十分位数等。表示:M、Px,计算:,应用:任何分布的资料都可以用中位数反映平均水平;资料一端或两端无确定数值

11、;对于资料的分布情况不清楚时。,计算:(1)中位数的直接计算法:样本含量不大时使用。将观察值按大小顺序排列,当样本含量n为奇数时,位置居中的那个数值就是M;当n为偶数时,位置居中的两个数值的平均数就是M。,特点:仅仅利用了中间的12个数据,(2)中位数和百分位数的频数表计算法 当观察例数较多时采用。先将观察值编制成频数表,按所分组段由小到大计算累计频数和累计频率,找出中位数或百分位数所在的组,将该组段的下限(L)、组距(i)、频数(fx)和小于L的各组段累计频数(fL)代入下列公式即可求出中位数M和百分位数Px。,例2-8 试利用表2-2的频数表求例2-2中血清铁含量的中位数。从表2-2可判断

12、出位于“18-”这个组段。将相应数据代入式(2-8)该组血清铁资料的中位数为18.74(mol/L)如果按(2-7)式计算,结果为18.99(mol/L)。,表2-2 120名18岁35岁健康男性居民血清铁含量(mol/L)。,四、众数,众数(mode):原指总体中出现机会最高的数值。样本众数则是在样本中出现次数最多的数值。,产前检查次数的众数为4次。,五、调合均数,调和均数(harmonic mean,H):先求原始数据倒数的算术均数。该算术均数的倒数便称为原数据的调和均数。计算公式:,例2-10 接受某种处理的5只小鼠生存时间(分钟)分别为49.1、60.8、63.3、63.6和63.6,

13、试计算其调和均数。,一、全距,二、四分位数间距,五、方差和标准差,六、变异系数,三、离均差总和,四、离均差平方和,第三节 离散趋势特征数,平均水平指标仅描述了一组数据的集中趋势,可以作为总体的一个代表值。由于变异的客观存在,需要一类指标描述资料的离散程度。观察两组数据:甲组:4,5,6,7,8。n5;6 乙组:2,5,6,7,10。n5;6 两组资料的倒数和均数都相同,但它们的分布情况是不一样的,因此要全面描述这两组资料的特征,还需要有能表示其离散程度的指标。,例2-11 试观察三组数据的离散状况。A组:26,28,30,32,34;B组:24,27,30,33,36;C组:26,29,30,

14、31,34。三组数据个数都为5,均数都为30。将三组数据分别点在直线上,如下图所示。,一、全距(range),1概念 全距用R表示,是一组资料最大值与最小值之差。例2-11中三组数据的极差 A组 R=34-26=8 B组 R=36-24=12 C组 R=34-26=82含义 全距越大,离散程度越大;反之,全距越小,离散程度越小。,3、优缺点优点:简单明了,容易理解,使用方便。缺点:(1)仅考虑两端数据的差异,未考虑其他数据的变异情况;(2)变量值个数不同时无意义(n大,R也会大);(3)不稳定,易受极端值的影响(抽样误差大)。,1概念 四分位数间距用Q表示,是上四分位数QU(P75)和下四分位

15、数Q L(P25)之差。如例:表22资料:QQU Q LP75 P2521.44 16.005.44(mol/L)2含义 其值越大,说明变异程度越大;反之,值越小,离散程度越小。常常和中位数一起描述偏态分布资料的的分布特征。3优缺点:该指标比全距稍稳定,但仍未考虑每个观察值。,二、四分位数间距(quartile range),三、离均差总和,考虑到了每一个变量值的影响,但对称分布的资料,由于正负相消,故离均差总和等于0。如上例:三组数据的离均差总和均等于0。,四、离均差平方和(sum of squares),如上例:A组=(26-30)2+(28-30)2+(30-30)2+(32-30)2+

16、(34-30)2=40B组=(24-30)2+(27-30)2+(30-30)2+(33-30)2+(36-30)2=90C组=(26-30)2+(29-30)2+(30-30)2+(31-30)2+(34-30)2=34 和离均差总和一样,考虑到了每一个变量值的影响,而且克服了正负相消的缺点,但变量值个数不同时无意义。,为了能反映每个观察值之间的离散情况,同时又能考虑到观察单位数多少的影响,可取离均差平方和的均数,简称方差(variance)。总体方差用2表示,样本方差用S2表示,公式分别为:,五、方差(variance),六、标准差(standard deviation),由于每一离均差都

17、经过平方,使原来观察值的度量单位也都变为平方单位了。为了还原成为原来的度量单位,所以又将方差开平方,这就是标准差。,(1)小样本资料:,例题:有数据1,2,3,4,5,求其标准差。,标准差计算,例2-14 分别计算例2-11中三组数据的标准差。A组:B组:C组:C组的标准差最小,B组的最大。意味着C组数据的离散趋势最小,B组的最大,(2)大样本资料:对于大样本资料,可用频数表进行计算,公式为:,例题:根据下列频数表资料,计算140名成年男子红细胞数的标准差。计算表如下:,表2-2 120名18岁35岁健康男性居民血清铁含量(mol/L)。,方差和标准差的意义都是说明资料的变异程度,算出的值越大

18、,说明变异程度越大。标准差愈小,说明观察值的离散程度愈小,从而也反映了用平均数反映平均水平,其代表性愈好。反之,平均数的代表性愈差。(越大说明围绕均数越离散,反之说明较集中在均数周围,均数代表性越好),方差和标准差的含义:,反映一组观察值的离散程度,标准差小,离散程度小,均数的代表性好;用于计算变异系数;计算标准误;结合均值与正态分布的规律估计参考值的范围。,标准差用途:,六、变异系数,无单位(量纲)应用:单位不同的多组数据比较 均数相差悬殊的多组资料,意义:标准差与均数之比用百分数表示。符号:CV计算:,1、比较均数悬殊的资料变异程度,例题:某地7岁男孩身高均数为121.16cm,标准差为4

19、.31cm;胸围均数为57.71cm,标准差为2.82cm,比较身高和胸围的变异程度。,身高:,胸围:,说明胸围的变异程度大于身高。,2、比较度量衡单位不同的资料变异程度,例题:通过十省调查得知,农村刚满周岁的女童体重均数为8.42kg,标准差为0.98kg;身高均数为72.4cm,标准差为3.0cm。试计算周岁女童身高与体重的变异系数。,体重:,身高:,说明体重的变异程度大于身高。,第四节 分布形态特征数,描述分布形态的统计量:偏度系数与峰度系数。偏度系数(coefficient of skewness,SKEW):理论上总体偏度系数为0时,分布是对称的;取正值时,分布为负偏峰(态);取负值

20、时分布为正偏峰(态)。样本偏度系数计算公式:,峰度系数(coefficient of kurtosis,KURT),理论上,正态分布的总体峰度系数为0;取负值时,其分布较正态分布的峰平阔;取正值时,其分布较正态分布的峰尖峭。样本峰度系数,小 结,1.为了解定量变量的分布规律,可编制频数表并绘制频数分布(或频率分布)图,用于描述资料的分布特征(集中趋势与离散趋势),以及分布类型(对称或偏峰)2.描述性统计量可以用来定量地刻画统计分布的特征。常用的描述性统计量有三类:描述集中趋势的算术均数、几何均数、中位数;描述离散趋势的极差、四分位数间距、方差、标准差和变异系数;描述分布类型的偏度系数与峰度系数。3.百分位数是一种位置参数,既可用来描述集中趋势(P50),又可用来描述离散趋势(P75-P25)。可用于各种连续型分布。,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号