第一章医学统计学基本概念与常用统计描述指标.ppt

上传人:sccc 文档编号:5991416 上传时间:2023-09-12 格式:PPT 页数:77 大小:691.54KB
返回 下载 相关 举报
第一章医学统计学基本概念与常用统计描述指标.ppt_第1页
第1页 / 共77页
第一章医学统计学基本概念与常用统计描述指标.ppt_第2页
第2页 / 共77页
第一章医学统计学基本概念与常用统计描述指标.ppt_第3页
第3页 / 共77页
第一章医学统计学基本概念与常用统计描述指标.ppt_第4页
第4页 / 共77页
第一章医学统计学基本概念与常用统计描述指标.ppt_第5页
第5页 / 共77页
点击查看更多>>
资源描述

《第一章医学统计学基本概念与常用统计描述指标.ppt》由会员分享,可在线阅读,更多相关《第一章医学统计学基本概念与常用统计描述指标.ppt(77页珍藏版)》请在三一办公上搜索。

1、医学统计学(Medicine Statistics),南京大学医学院范怡梅,第一章 医学统计学基本概念与常用统计描述指标,统计学(statistics):“The science and art of dealing with variation in data through collection,classification and analysis in such a way as to obtain reliable results.”,第一节 医学统计学在医学科学中的地位和作用,医学统计学(Medicine Statistics)是应用概率论和数理统计的基本原理和方法,结合医学实际阐

2、述统计设计的基本原理和步骤,研究资料或信息的收集、整理与分析的一门学科。是统计学在医学上的应用;理论基础是概率论和数理统计;SPSSStatistical Package for Social SciencesStatistical Product and Service Solutions SASStatistical Analysis System作用;统计工作的步骤。,第二节 统计工作的步骤,研究设计(research design)调查设计、实验设计资料收集(data collection)统计分析(statistical analysis)统计描述(statistical descr

3、iption)统计推断(statistical inference),例 某医生发明了一种新的治疗某病的疗法(治疗组),用现在公用的疗法作为对照(对照组),经临床试验,对照组与治疗组的疗效分别为P1=75%与P2=95%,问:能认为这两个有效率之间的差别有显著性意义吗?假设的3批实验结果,组别,例数,有效率(%),疗效:有效 无效 合计,甲实验 对照组 治疗组乙实验 对照组 治疗组丙实验 对照组 治疗组,151930384557,51102153,202040406060,75.095.075.095.075.095.0,甲实验中,c2=1.765,P0.05,两个有效率之间的差别无显著性意义

4、;乙实验中,2=6.275,0.01 P 0.05,两个有效率之间的差别有显著性意义;丙实验中,2=9.412,P 0.01,两个有效率之间的差别有极显著性意义。,第三节 统计学中的几个基本概念,1.总体与样本(population and sample)根据研究目的确定的同质观察单位的全体称为总体。从总体中随机抽取、进行研究的一部分个体所组成的集合,称为样本。要保证样本的可靠性、代表性。2.同质与变异(homogeneity and variation)统计研究的是有变异的事物,统计分析的任务就是在同质分组的基础上,通过对变异所呈现出来的统计规律性的研究,透过偶然现象,揭示同质事物的本质特征

5、和规律。,3.抽样误差(sampling error)因抽样产生的样本与样本,样本与总体相应统计指标之间的差异,称为抽样误差。抽样误差的大小主要取决于观察单位间变异程度的大小和样本含量的多少。4.参数和统计量(parameter and statistic)总体的指标统称为参数,样本指标称为统计量。,5.概率(probability)概率是描述随机事件发生的可能性大小的数值,常用P表示。随机事件概率的大小在0与1之间,即0P 1。习惯上将P 0.05,称为小概率事件。,6统计资料的类型,定量资料,分类资料,如身高(cm)、体重(kg)等。,无序分类,有序分类,二项分类,多项分类,(等级资料),

6、如阳性与阴性、治愈与未愈。,如血型为A、B、AB、O型。,如治疗结果为治愈、显效、好转、无效四级。,第四节 数值变量的描述性统计,统计图表;统计指标。,一、频数分布(frequency distribution),(一)编制频数表的步骤,求极差R=84-57=27(次/分)划分组段确定组数:较大样本时,一般取10组左右。确定组距:极差/组数=27/10=2.73(次/分)确定各组段的上下限:上限=下限+组距统计各组段内的数据频数,编制频数表,表2.1 130名健康成年男子脉搏(次/分)的频数分布表,脉搏组段(1),频数(2),频率(%)(3),累计频数(4),累计频率(%)(5),565962

7、6568717477808385合计,25121525261915101130,1.543.859.2311.5419.2320.0014.6211.547.690.77,2719345985104119129130,1.545.3814.6226.1545.3865.3880.0091.5499.23100.00,(二)频数表的用途,可以揭示资料的分布类型和分布特征,以便于选用相应的统计分析方法。便于进一步计算指标和统计处理。便于发现某些特大或特小的可疑值。,二、集中趋势(central tendency)的描述,三种平均数(average)算术均数(arithmetic mean)几何均数

8、(geometric mean)中位数(median),(一)算术均数(arithmetic mean,),简称均数,适合于表达呈正态分布资料的平均水平。直接法:,例2-2:,=,81+70+66+69,13,=71.69(次/分),加权法:,例:=,57.52+60.55+63.512+84.51,130,=71.62(次/分),(二)几何均数(geometric mean,G),适用于原始数据分布不对称,但经对数转换后呈对称分布的资料。,例:40名麻疹易感儿童接种麻疹疫苗后一个月,测其血凝抑制抗体滴度,结果如表所示,求几何均数。,抗体滴度,人数 f,滴度倒数 X,lgX,1:41:81:1

9、61:321:641:1281:2561:512,145811641,48163264128256512,0.60210.90311.20411.50511.80612.10722.40822.7093,(三)中位数(median,M),适合于表达偏态资料、或分布不明的资料的平均水平,尤其适合于表达只知数据的个数、但部分较大或较小数据的具体数值未准确知道的资料的平均水平。,对于原始数据和频数分布表资料,分别用下列两式计算中位数。,M=,(X n/2+X(n/2+1)/2,(n为偶数),X(n+1)/2,(n为奇数),其中,LM:中位数所在组下限;iM:中位数所在组的组距;fM:中位数所在组的频

10、数;fL:中位数所在组前一组的累计频数。,例2-4 表2.3 107正常人的尿铅含量(g/L)的中位数计算表,含量(g/L)(1),频数f(2),累计频数 f(3),累计频率%(4),0481216202428合计,1422291815612107,1436658398104105107,13.0833.6460.7577.5791.5997.2098.13100.00,M=8+(107/2-36)=10.41(g/L),4,29,三、离散趋势(tendency of dispersion)的描述,例:设有三组同年龄、同性别儿童体重(kg)数据如下:甲组 26 28 30 32 34乙组 24

11、 27 30 33 36丙组 26 29 30 31 34,描述离散程度的指标:极差、四分位数间距、方差、标准差及变异系数。,(一)极差(全距,range,R),为一组同质观察值中最大值与最小值之差。甲组 R=34-26=8乙组 R=36-24=12甲组数据分布较乙组集中。,优点:计算简单缺点:1.没有充分利用样本信息,只考虑最大值与最小值之差异,不能反映组内其它观察值的变异度。2.样本含量越大,抽到较大或较小观察值的可能性越大,则极差可能越大,因此,样本含量悬殊时不宜用极差比较分布的离散度。所以,一般不用极差来反映离散程度。,(二)四分位数间距(quartile interval,Q),1.

12、分位数的概念分位数是一种位置指标,一个特定的分位数将任何一个频数曲线下的面积分为两部分。第1四分位数记作Q1,第2、第3四分位数,分别记作Q2、Q3;第1百分位数,记作P1。同理,还有第2、第3、第99百分位数,分别记作P2、P3、P99。显然,Q1=P25、Q2=P50=M、Q3=P75,2.百分位数(percentile)的计算公式对连续型变量频数表资料,按下式计算第X百分位数PX:,其中,LX:第X百分位数所在组下限;iX:第X百分位数所在组的组距;fX:第X百分位数所在组的频数;fL:第X百分位数所在组前一组的累计频数。,例 某地200例正常成人血铅含量的频数分布如表所示,请计算出血铅

13、含量的95%正常值范围。200例正常成人血铅含量的频数分布表,血铅含量 频数 累计频数(mol/L)(1)(2),00.240.480.720.971.211.451.691.932.172.422.662.903.14,6484336281314441201,65497133161174188192196197199199200,解:即求P95。nX%=20095%=190,故某地正常人血铅含量95%的单侧正常值范围的上限为 1.81(mol/L)。,3.四分位数间距(quartile interval,Q)Q=P75-P25Q=QU-QL优缺点:用四分位数间距作为描述数据分布离散程度的指标

14、,比极差稳定,但仍未考虑到每个数据的大小,常用于描述偏态频数分布以及分布的一端或两端无确切数值资料的离散程度。,例2-10 据书中表2.3资料求四分位数间距Q。P25=4+,4,22,(107 25%,14)=6.32(g/L),P75=12+,4,18,(107 75%,65)=15.39(g/L),Q=P75-P25=15.39-6.32=9.07(g/L),(三)方差(variance),n-1称为自由度,(四)标准差(standard deviation),加权法:,(五)变异系数(coefficient of variation,CV),1.用于比较度量衡单位不同的多组资料的变异度。

15、2.比较均数相差悬殊的多组资料的变异度。,例 某地不同年龄组男子身高(cm)的变异程度,年龄组33.5岁3035岁,人数 100 100,均数 96.1170.2,标准差 3.1 5.0,变异系数 3.2%2.9%,四、正态分布(normal distribution),(一)正态分布的概念和特征,正态分布的图形:正态分布的密度函数:,-X+,通常用N(,2)表示均数为、方差为2的正态分布。,正态分布的特征,1.正态曲线在横轴上方均数处最高;2.正态分布以均数为中心,左右对称;3.正态分布有两个参数,即均数与标准差。是位置参数,当固定不变时,越大,曲线沿横轴越向右移动;越小,曲线沿横轴越向左移

16、动。是变异度参数,当固定不变时,越大,曲线越平阔;越小,曲线越尖峭。4.正态曲线下的面积分布有一定的规律。,常用的两个区间:1.96 及2.58 的区间面积分别占总面积(或总观察例数)的95%及99%,如下图所示:,95%,2.5%,2.5%,-1.96,+1.96,99%,-2.58,+2.58,0.5%,0.5%,(二)标准正态分布(standardized normal distribution),令,-u+,用N(0,1)表示标准正态分布,(三)正态分布的应用,制定医学参考值范围(medical reference range)许多统计方法的理论基础,参考值范围的制定,正态分布法 百分

17、位数法,%909599,单只有下限,侧只有上限,双侧P5P95P2.5P97.5P0.5P99.5,单只有下限P10P5P1,侧只有上限 P90 P95 P99,例 出生体重低于2500克为低体重儿。若由某项研究得某地婴儿出生体重均数为3200克,标准差为350克,估计该地当年低体重儿所占的比例。,补充题 以下是101名30-49岁正常成年男子的血清总胆固醇(mmol/L)测定值的频数表,请据此资料:(1)选择适当的集中趋势指标并计算之;(2)选择适当的离散程度指标并计算之;(3)求该地30-49岁健康男子血清总胆固醇的正常值范围;(4)估计该地30-49岁健康男子血清总胆固醇值小于4.50

18、mmol/L的概率。,血清总胆固醇2.53.03.54.04.55.05.56.06.57.07.5合计,频数f1892325179621101,fx2.752633.7597.75118.7589.2551.7537.513.57.25478.25,fx27.5684.50126.56415.44564.06468.56297.56234.3891.1352.562342.31,第五节 抽样误差与区间估计,一、均数的抽样误差与标准误,从样本获取有关总体信息的过程称为统计推断(statistical inference)。由个体差异产生的,抽样造成的样本与样本、样本与总体相应统计指标之间的差异

19、,称为抽样误差(sampling error)。,标准误(standard error,SE):样本统计量的标准差。均数的标准误(SEM,):即样本均数的标准差。样本观测值的标准差与样本均数的标准误的比较:1.标准差与标准误都反映数据的离散性;2.标准差的大小反映各个个体的观测值X之间的变异 程度(离散程度),标准误的大小反映各个样本均 数 间的变异程度(离散程度),也反映了样本均 数代表总体均数的可靠性。,数理统计推出:1.从正态总体N(,2)中,随机抽取例数为n的样本,样本均数 也服从正态分布;即使从偏态总体随机抽样,当n足够大时,也近似正态分布;2.从均数为,标准差为的正态或偏态总体,抽

20、取例数为n的样本,样本均数 的总体均数也为,标准差用 表示,则 可按下式计算:,二、t分布,(一)t分布的概念,,即u分布。,用S代替,得到,t分布,(二)t分布的图形和特征,以0为中心,左右对称的单峰分布;t分布曲线是一簇曲线,其形态变化与自由度的大小有关。自由度越小,则t值越分散,曲线越低平;自由度逐渐增大时,t分布逐渐逼近u分布;当=时,t分布即为u分布。t分布曲线下总的面积等于1,即t值落入区间(-,)内的概率为1。t值落入任一区间(t1,t2)内的概率等于该区间内曲线和横坐标轴所夹的面积。,附表2 t界值表通式:单侧:P(t-t,)=,或P(t t,)=双侧:P(t-t/2,)+P(

21、t t/2,)=图中非阴影部分面积的概率为:P(-t/2,t t/2,)=1-,三、总体均数的估计,参数估计是指用样本指标值估计总体指标值。包括点估计和区间估计。,点估计:就是用样本统计量直接作为总体参数的估计值。区间估计:即按预先给定的概率(1-)确定包含未知总体参数的可能范围。该范围称为参数的可信区间或置信区间,预先给定的概率称为可信度或置信度,常取95%或99%。可信区间的确切含义指的是:有1-的可能认为计算出的可信区间包含了总体参数。,总体均数可信区间(confidence interval)的计算:1.未知:按t分布。由于P(-t/2,t t/2,)=1-,,2.已知或未知但n足够大

22、时:按u分布双侧可信区间为:(,)或(,),均数的可信区间与参考值范围的区别:1.意义不同均数的可信区间的统计意义:(1)按预先给定的概率,确定的包含总体均数的可能范围,因此它用于估计总体均数。(2)可信度要高,但精度不能下降。参考值范围的统计意义:“正常人”的解剖、生理、生化某项指标的波动范围,可以用于判断观察对象的某项指标正常与否。2.两者的计算公式有差别:可信区间用了标准误,参考值范围用了标准差。,补充题 152例麻疹患儿病后血清抗体滴度倒数的分布如下,试作总体几何均数的点值估计和95%区间估计。152例麻疹患儿病后血清抗体滴度倒数的分布,滴度倒数 1 2 4 8 16 32 64 12

23、8 256 512 1024 合计人 数 0 0 1 7 10 31 33 42 24 3 1 152,第六节 SPSS演示,Data EditorViewerSyntax Editor Script,例2.1 View Variable:,View Data:,定义变量名,变量名最长不超过64个字节;首字符必须是字母或汉字,不能以_或.结尾;变量名中不能有空格或某些特殊符号,如!?*;变量名不能与SPSS的关键字相同,如ALL,AND,BY,EQ,GE,GT,LE,LT,NE,NOT,OR,TO,WITH等;对变量名英文字母的大小写不作区分.,Analyze Descriptive Stat

24、isticsFrequenciesVariable:xStatistics Percentile Values:Quartiles Central Tendency:Mean;Median Dispersion:Std.deviation Distribution:Skewness ContinueCharts Histogram ContinueFormat Order by:Ascending ContinueOK,频数分布分析:,正态性检验:Analyze Nonparametric Tests 1-Sample Kolmogorov-Smirnov TestTest Variable

25、List:xTest Distribution:NormalOK,练习 2.2 View Variable:,View Data:,TransformComputeTarget Variable:logxMumeric Expression:lg10(x)OKData Weight CasesWeight Cases by Frequency Variable:fOKAnalyze Descriptive Statistics DescriptivesVariable:logxOK,可信区间:补充题 View Variable:,View Data:,Transform Compute Tar

26、get Variable:logxNumeric Expression:LG10(x)OKData Weight Cases Weight Cases by Frequency Variable:fOKAnalyze Descriptive Statistics ExploreDependent list:logxDisplay:StatisticsStatistics:DescriptivesContinueOK,教材:余松林.医学统计学.人民卫生出版社,2002.3第1版.参考文献:颜虹.医学统计学.人民卫生出版社,2010.8第2版.陈平雁.SPSS13.0统计软件应用教程.人民卫生出版社,2005.9.第1版.,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 建筑/施工/环境 > 农业报告


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号