《定量变量的统计描述.ppt》由会员分享,可在线阅读,更多相关《定量变量的统计描述.ppt(52页珍藏版)》请在三一办公上搜索。
1、定量变量的统计描述,lzhmin,统计分析模式图,lzhmin,频率分布表与频率分布图,lzhmin,基本概念,频数(frequency)频率分布表(frequency distribution table)频率分布图(frequency distribution chart)集中趋势(central tendency)离散趋势(tendency of dispersion)正态分布(normal distribution)-正偏态分布(skewed positively distribution):若高峰位于左侧。-负偏态分布(skewed negatively distribution):
2、若高峰位于右侧。,lzhmin,离散型定量变量的频率分布,离散型定量变量的取值是不连续的(P11,例2-1)可用频数、频率;累计频数、累计频率来表示(P12,表2-1)可用直条图(bar chart)来表达各组频率的大小(P12,图2-1),lzhmin,lzhmin,连续型定量变量的频率分布,连续型定量变量的取值是连续的(P11,例2-2;P12,表2-2)。可用组段的频数、频率;组段的累计频数、累计频率来表示(P13,表2-3)。可用直方图(histogram)来表达各组段频率的分布状况(P13,图2-2),lzhmin,lzhmin,频率分布表(图)的用途,描述变量的分布类型(P14,图
3、2-3)-正偏峰分布:左侧偏移的分布-负偏峰分布:右侧偏移的分布揭示变量的分布特征-集中趋势(central tendency)-离散趋势(tendency of dispersion)便于发现某些极端值或离群值便于计算统计指标和进行统计分析,lzhmin,lzhmin,频数表的编制方法,计算极差,或称全距(range)决定组数、组段和组距列表划记绘制频数分布图,lzhmin,描述平均水平的统计指标(集中趋势指标),lzhmin,常用的平均水平指标,算术平均数(arithmetic mean)几何平均数(geometric mean)中位数(median)众数(mode)调和均数(harmon
4、ic mean),lzhmin,算术平均数(arithmetic mean)指一组同质的数值之和除以数值个数所得的商。总体均数用希腊字母表示,样本均数用 表示。-适用条件:正态分布或近似正态分布资料。-计算方法:*直接法(P15,例2-3),lzhmin,式(2-1),*频数表法或加权法(P15,例2-4,表2-4),各组的权数越大,权数和组中值(class mid-value)乘积越大,作用也越大;反之依然。,式(2-2),lzhmin,几何均数(geometric mean)指各观察值x对数值均值的反对数。用G表示。-适用条件:*偏态分布资料;*各观察值呈倍数关系或近似倍数关系资料。如抗体
5、的平均滴度、药物的平均效价等。-计算方法:*直接法(P16,例2-5),lzhmin,式(2-3,2-4),*频数表法或加权法(P17,例2-6,表2-5),式(2-5),lzhmin,中位数(median)和百分位数(percentile)中位数是指一组数据中位置居中的数值。用M表示。-适用条件:*明显的偏态分布资料;*未知分布资料。-计算方法*直接法(P17,例2-7)-n为奇数时,-n为偶数时,,lzhmin,式(2-6),式(2-7),*频数表法(P18,例2-8,表2-6),百分位数是把数据从小到大分成100等份,各等份分成1%的观察值,分割界限上的值。用Px表示。中位数实际上就是5
6、0百分位数,用P50表示。,式(2-8),lzhmin,众数(mode)(P18,例2-9)指一组数据中出现频率最多的那个数据。一组数据可以有多个或没有众数。调和均数(harmonic mean)指变量倒数的算术平均数。调和平均数又称倒数平均数。,lzhmin,描述变异程度的统计指标(离散趋势指标),lzhmin,例(P19,2-10):试观察A、B和C三组数据的离散状况。A组:24,27,30,33,36 B组:26,28,30,32,34 C组:26,29,30,31,34,lzhmin,离散趋势指标,极差或称全距(range)指一组资料最大值和最小值之差。用R表示。四分位数间距(quar
7、tile range)指上四分位数QU(P75)和下四分位数QL(P25)之差。用Q表示。Q=P75-P25,lzhmin,方差(variance)指离均差平方和的均数。总体方差用2表示,样本方差用S2表示。,式中(n-1)称为自由度,用 或 表示。自由度(degree of freedom):随机变量能“自由”取值的个数。,式(2-9),lzhmin,标准差(standard deviation)(P21,例2-13,14)指方差开平方的值。总体标准差用方差表示,样本标准差用S表示。在实际计算中,样本标准差较总体标准差小,故英国统计学家提出了校正方法,即N用n-1的自由度代替。,lzhmin
8、,方差和标准差都表示资料变异的程度,值越大,说明变异程度就越大。,式(2-12),变异系数(coefficient of variation)(P22,例2-15)指标准差除以算术均数,以百分数表示。用CV表示。常用于比较度量单位不同或均数 相差悬殊的两组(或多组)资料的变异程度(式2-16)。,式(2-16),lzhmin,描述分布形态的统计指标,lzhmin,偏度系数(coefficient of skewness,SKEW)理论上,总体偏度系数为0时,分布是对称的;取正值时,分布为正偏峰;取负值时,分布为负偏峰。,式(2-17),lzhmin,峰度系数(coefficient of ku
9、rtosis,KURT)理论上,正态分布的总体峰度系数为0;取负值时,其分布较正态分布的峰平阔;取正值时,其分布较正态分布的峰尖峭。,式(2-18),lzhmin,统计表和统计图,lzhmin,统计表(statistical table),统计表的基本结构表号及标题:位于统计表的上方中央,要简明扼要,必要时要表明时间、地点。-标目:用简单的文字说明表格内的项目。横标目:位于表的左侧,说明横行数字的涵义;。纵标目:位于表的上侧,说明纵行数字的涵义。-线条:只用横线,不用竖线,斜线;线条不宜过多,常用“三线表”。-数字:用阿拉伯数字表示,小数位数要一致,上下要对齐,表内不留空格。数字暂缺或未记录用
10、“”表示;。无数字用“-”表示;。数字为零用“0”表示。-备注:可用“*”标注后,在表的下方用文字加以说明。,lzhmin,统计表的种类-简单表(simple table):主辞仅有一个标志。(P23,表2-7),lzhmin,lzhmin,-复合表(combinative table):又称组合表,主辞有两个以上的标志。(P24,表2-8),lzhmin,lzhmin,编制统计表常存在的问题-内容庞杂;-标题不确切,不精练,不完善,甚至缺标题;-标目安排不恰当,重复;-计算指标不能说明研究事物的本质;-数字不准确或数字位数未对齐。,lzhmin,编制统计表应注意的事项-重点突出,简单明了;-
11、主谓分明,层次清楚。,lzhmin,统计图(statistical chart),描述定量变量的常用统计图 1)直方图(histogram)用各直方的面积表示各组段的频数,用以表示连续型定量变量的频数分布。横轴常表示被观察的对象(变量),通常为连续型变量;纵轴表示频数或频率。以各矩形面积代表各组段的频数或频率,各矩形之间不留空隙(P25,图2-5)。,lzhmin,2)累计频率分布图(cumulative histogram)可用于描述连续型变量的累计频率分布,其横轴为变量的组段,纵轴为各组段的累计频率(P25,图2-6)。,lzhmin,lzhmin,3)箱式图(box plot)可用于描述
12、定量变量的平均水平和变异程度,还可显示数据中的离群值(outlier)或极端值(extreme case)(P26,图2-7)。,lzhmin,4)线图(line graph)用线段的升降来表示某变量随另一个变量的变化而变化的趋势。通常纵轴为统计指标,如频数或比率,横轴为时间或连续性变量(P51,图3-5)。,lzhmin,lzhmin,5)半对数线图(semi-logarithmic line graph)表示某事物发展的相对速度(相对比)。纵轴为对数尺度;横轴为算术尺度。也可把纵轴值转换成常用对数值表示(P53,图3-7)。,lzhmin,6)散点图(scatter diagram)用点的
13、位置表示两变量间的数量关系和变化趋势(P195,图10-1)。,lzhmin,7)直条图(bar chart)用等宽直条的长短表示统计指标数值的大小。适用于相互独立,性质相似的各指标间比较。横轴为基线,表示分组因素,纵轴表示频数或频率,必须从零开始。单式条图各直条的间隔是半个或一个直条宽;复式直条图各组直条的间隔一般是一个直条图,同组直条间不留间隙,组内各直条的排列顺序要一致(P26,图2-8)。直条所表示的类别应有图例说明。,lzhmin,lzhmin,绘制统计图的基本要求 1.按资料的性质和分析目的选用适当的图形。-资料是连续性的,目的是用线段升降表达事物的动态变化趋势,选择普通线图;若指
14、标的最大值和最小值相差悬殊,可考虑选用半对数线图;-资料是连续性的,但分析的目的是用线段升降表达事物动态变化的速度,选择半对数线图;-数值变量的频数表资料,其分析目的是用直方的面积表达各组段的频数或频率分布情况,宜选择直方图;,lzhmin,-资料是相互独立的,目的是用直条的长短比较数值的大小,选用直条图;-双变量连续性资料,目的是用点的密集程度和趋势表达两个变量的相互关系,选用散点图;-地区性资料,目的是用不同的颜色或纹线表示某事物在地域上的分布情况,选择统计地图。,lzhmin,2.要有图号及标题,概括统计图的主要内容。标题一般位于图的下方,要简明扼要。3.有纵轴和横轴为坐标的图形,一般以第一象限为准做图,两轴的交点为起点,纵横两轴应有刻度、数量单位和标目。4.图的纵横两轴的比例以7:10为宜;5.在同一图内比较几个不同的事物时,须用不同的图案或颜色表示,并附图例说明。,lzhmin,例2-1:某地进行冠心病危险因素研究时,调查了居民的心理得分值与其它冠心病的相关因素,结果如下表。,问题:内容较多,层次复杂,缺乏条理。特别是将两个不同类型资料(定量资料和 定性资料)的统计量放在一起。3.互不相容的内容分别占了不同的列,导致 表格中有许多空格。4.纵横标目倒置。5.小数点位数不一致。6.标目缺单位。,