《计量资料统计描述.ppt》由会员分享,可在线阅读,更多相关《计量资料统计描述.ppt(46页珍藏版)》请在三一办公上搜索。
1、1,第二章计量资料的统计描述Description of measurement data,基本内容,Meta analysis,3,本章在临床资料处理中的用途,资料整理阶段,判断资料适合何种方法分析的初步阶段,对变量的特点进行描述(求出均数和标准差)为假设检验做准备,4,主要内容,第一节 计量资料的频数分布第二节 集中趋势第三节 离散趋势,5,第一节 频数分布,什么是频数频数分布的特点频数分布的类型,7,SPSS建立数据库,进入SPSS操作窗口进入数据编辑窗口(data editor)Variable View 变量名 类型 整数位 小数位输入数据:Data View,8,检查输入的数据(打
2、开数据库)找出最大值、最小值(数据排序)data View窗口datasort cases身高sort by-身高身高主要集中在什么阶段?(这个程序能否看得出来大多数人身高在何处?应该怎么办?),10,变量变换:将身高转化成一个新变量(组段)Transform-recode-into different variables(身高组段)-changeold and new-old value(range)-new value(value)-oldnewaddcontinue(可以试用不同的分组方法,例如“5”“2”)产生新变量(组段),1998年100名18岁健康女大学生身高的频数分布,12,产
3、生频数表,Analyze-Descriptive Statistics-Frequencies组段display frequency table,频数表,计量资料等级资料,15,频数:当汇总大量的原始数据时,把数据按类型分组,其中每个组的数据个数,称为该组的频数。频数表(频数分布):表示各组及它们对应的组频数的表格称为频数表或频数分布。,16,频数分布的两个特征:集中趋势与离散趋势(共性与个性)频数分布的类型:对称分布与偏态分布(集中位置偏向小的一侧叫正偏态,反之叫负偏态)频数表的主要用途:1.揭示分布类型 2.发现特大值和特小值 3.计算集中趋势指标与离散趋势指标,总结前面,17,第二节 集
4、中趋势,集中位置的描述,即大多数数值落在什么位置上。(针对一个变量的若干个数值),描述集中趋势的几种指标(用不同的方法将不同类型数值的集中位置表示出来)1.算术均数(均数mean)2.几何均数(geometric mean)3.中位数(median)4.众数(Mode),18,1.算术均数(均数),意义:一组性质相同的观察值在数量上的平均水平。表示(总体)X(样本)(spss:“mean”)应用:正态分布或近似正态分布注意:合理分组,才能求均数,否则没有意义。计算方法:直接法和加权法,19,20,均数的特征,21,用SPSS计算均数,File-Open-Data-身高-Analyze-Desc
5、riptive Statistics-Frequencies-Statistics-Mean-Continue-OK,22,有一组血中抗体滴度数据:32,2,4,8,4,16,1,1,4,1,1,2,2,2,4,8,16,2,4,32,4,8,4,求它们的平均水平,23,首先看这组数据的频数分布,大概集中在什么位置。用“mean”求,看结果如何。File-Open-Data-抗体滴度-Analyze-Descriptive Statistics-Frequencies-Statistics-Mean-Continue-OK,24,2.几何均数,意义:N个数值的乘积开N次方即为这N 个数的几何均
6、数。表示:G应用:原始数据分布不对称,经对数转换后呈对称分布的资料。数值范围跨越多个数量级。例如抗体滴度。,25,SPSS计算几何均数,File-Open-Data-抗体滴度-Analyze-Reports-Case Summaries-抗体滴度Statistics-Geometric Mean-Continue-OK,Case Summaries,a,1.00,1.00,1.00,1.00,2.00,2.00,2.00,2.00,2.00,4.00,4.00,4.00,4.00,4.00,4.00,4.00,8.00,8.00,8.00,16.00,16.00,32.00,32.00,23,
7、4.00,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,N,Grouped Median,Total,抗体滴度,Limited to first 100 cases.,a.,27,1、几何均数适用于对数正态分布,如药物的效价、抗体的滴度、传染性疾病的潜伏期、体内铅浓度等资料。2、变量x服从对数正态分布,即表示变量lg(xi)服从正态分布。对于lg(xi),具有正态分布的所有特性。,几何均数的特征,28,3.中位数、百份位数,意义:将一组观察值从小到大排序后,居于中间位置的那个值或两个中间值的平均值。(身高排队)data
8、editordatasort cases表示:M、P50百分位数(Px):将N个观察值从小到大依次排列,再分成100等份,对应于X%位的数值即为第X百分位数。中位数是百分位的特殊形式。应用:偏态资料,开口资料,29,11个大鼠存活天数:4,10,7,50,3,15,2,9,13,60,60平均存活天数?(一)中位数(median)是将每个变量值从小到大排列,位置居于中间的那个变量值。,存活天数 2,3,4,7,9,10,13,15,50,60,60秩次 1 2 3 4 5 6 7 8 9 10 11,30,计算,公式:n为奇数时 n为偶数时,31,例 9名中学生甲型肝炎的潜伏期分别为12,13
9、,14,14,15,15,15,17,天,求其中位数。,19,32,频数表资料的中位数,下限值L,上限值U,i;fm,中位数M,偏态资料用算术均数处理会产生什么样的结果?大家试举一个偏态资料的例子。,2503 128356000150015201600168019202000230023002530,2580 950130003000421031003120321032104102452068120,35,SPSS计算中位数、百分位数,File-Open-Data-收入(抗体滴度)-Analyze-Descriptive Statistics-Frequencies-Statistics-Me
10、dian(mean)-Continue-OK,36,中位数的特征,计算时只利用了位置居中的测量值 优点:对极值不敏感 缺点:并非考虑到每个观测值适用于各种分布类型的资料,特别适合于:大样本偏态分布资料 或者一端或两端无确切数值的资料,37,四、众数(Mode)是一群数据中出现次数(频数)最多的值。适用于大样本;较粗糙。例 有16例高血压病人的发病年龄(岁)为:42,45,48,51,52,54,55,55,61,61,62,62,试求众数。众数的特征1、对于某些数据而言,例如均匀分布,并不存在众数;2、对于某些数据存在两个或多于两个的众数;3、定性数据可以存在众数;众数对于进一步的统计学计算与
11、分析不具备应用价值。,58,58,58,58,38,第三节 离散趋势,描述一组数据参差不齐的程度,39,全距四分位数间距方差标准差变异系数,常用指标,40,标准差,相关概念:离均差、离均差之和、离均差平方和、方差(2 S2)标准差的符号:S(SPSS:Std.deviation)意义:全面反映了一组观察值的变异程度(大小)应用:描述变异程度、计算标准误、计算变异系数、描述正态分布、估计正常值范围,41,用SPSS计算标准差,File-Open-Data-身高-Analyze-Descriptive Statistics-Frequencies-Statistics-Std.deviation-
12、Continue-OK,42,随机变量xi的标准化,如果随机变量xi服从正态分布,均数和标准差分别为 和s,则随机变量xi的标准化正态离差值(Standard normal deviation)又称为标准化得分值(Standard Scores)为:,教育学中常用,43,变异系数,意义:标准差与均数之比用百分数表示。符号:CV计算:CV=(S/X)100%无单位应用:单位不同的多组数据比较 均数相差悬殊的多组资料,44,四分位数间距(inter-quartile range),四分位数间距,用IQR表示:IQR=第三四分位数:Q3 第一四分位数:Q1,各百分位数(percentile),45,描述频数分布离散程度的指标:)极差与四分位数间距,后者较 稳定,但均不能综合反映各观 察值的变异程度。)方差和标准差,最为常用,对 正态分布尤为重要。)变异系数,可用于多组资料间 度量衡单位不同或均数相差悬 殊时作变异度的比较。以上指标都是数值越小,说明观察值的变异 度越小,均数的代表性越好。,46,谢谢!,