人群健康研究的统计方法课件.ppt

上传人:小飞机 文档编号:3680495 上传时间:2023-03-15 格式:PPT 页数:116 大小:699KB
返回 下载 相关 举报
人群健康研究的统计方法课件.ppt_第1页
第1页 / 共116页
人群健康研究的统计方法课件.ppt_第2页
第2页 / 共116页
人群健康研究的统计方法课件.ppt_第3页
第3页 / 共116页
人群健康研究的统计方法课件.ppt_第4页
第4页 / 共116页
人群健康研究的统计方法课件.ppt_第5页
第5页 / 共116页
点击查看更多>>
资源描述

《人群健康研究的统计方法课件.ppt》由会员分享,可在线阅读,更多相关《人群健康研究的统计方法课件.ppt(116页珍藏版)》请在三一办公上搜索。

1、第七章 医学统计学的基本概念和步骤,一、统计学基本概念,1.总体与样本2.同质与变异3.参数与统计量4.误差5.概率与频率,1.总体与样本总体:根据研究目的而确定同质观察单位的全体。样本:从总体中抽取的部分观察单位。,随机抽样 random sampling,为了保证样本的可靠性和代表性,需要采用随机的抽样方法(在总体中每个个体具有相同的机会被抽到)。,2.同质与变异,同质:除了实验因素外,影响被研究指标的非实验因素相同被称为同质。变异:在同质的基础上被观察个体之间的差异被称为变异。,3、参数与统计量 parameter and statistic,参数:总体的统计指标,如总体均数、标准差,采

2、用希腊字母分别记为、。是固定的常数。,总体,样本,抽取部分观察单位,统计量,参 数,推断inference,统计量:样本的统计指标,如样本均数、标准差,采用拉丁字母分别记为。在参数附近波动的随机变量。,4、误差(error),误差:实际观察值与客观真实值之差,(1)系统误差(2)随机误差,90mmhg,。,85,真值,血压计测定值,系统误差,。,。,随机误差和系统误差,随机 误差,概率:随机事件发生的可能性大小,用大写的P 表示;取值0,1。频率:样本的实际发生率称为频率。频率与概率间的关系:样本频率总是围绕概率上下波动样本含量 n 越大,波动幅度越小,频率越接近概率。,5、概率与频率,二、数

3、据类型,1.计量资料用仪器、工具等测量方法获得的数据2.计数资料按某种属性分类,然后清点每类的数据。也叫定性数据3.等级资料半定性或半定量的观察结果。有大小顺序,所以也叫有序分类资料(ordinal category data)。癌症分期:早、中、晚。药物疗效:治愈、好转、无效、死亡。尿蛋白:,+,+及以上,三类资料间关系,例:一组2040岁成年人的血压值,以12kPa为界分为正常与异常两组,统计每组例数,8 低血压 8 正常血压 12 轻度高血压 15 中度高血压 17 重度高血压,计量资料,等级资料,计数资料,实例数据,第八章 数值变量资料的统计描述,一、计量资料的统计描述,平均指标(算术

4、均数、几何均数、中位数)变异指标(极差、百分位数与四分位间距、方差、标准差、变异系数),1、平均指标,1.算术均数(mean):适用条件:资料呈对称分布,一般用于正态或近似正态分布。2.几何均数(geometric mean)。适用条件:呈倍数关系的等比资料或对数正态分布资料。3.中位数(median)。适用条件:适合各种类型的资料。尤其适合于大样本偏态分布的资料;资料有不确定数值;资料分布不明等。,2.变异指标,反映数据的离散程度。即个体观察值的变异程度。1.极差(全距)2.四分位数间距 3.方差 Variance 4.标准差Standard Deviation 5.变异系数 CV,变异指标

5、小结,1极差较粗糙,适合于任何分布2标准差最常用,适合于正态或近似正态分布3变异系数主要用于单位不同或均数相差悬殊资料4平均指标和变异指标分别反映资料的不同特征,常配套使用 如 正态分布:均数标准差 偏态分布:中位数(四分位间距),图形特点:钟型(中间高,两头低,左右对称,以X轴为渐进线)最高处对应于X轴的值就是均数两个参数:位置参数和形态参数。曲线下面积恒为1或100%。,二、正态分布,1.意义:医学参考值是指包括绝大多数正常人的人体形态、机能和代谢产物等各种生理及生化指标常数,也称正常值。由于存在个体差异,生物医学数据并非常数而是在一定范围内波动,故采用医学参考值范围(medical re

6、ference range)作为判定正常和异常的参考标准,但不是“金标准”。,三、医学参考值范围的制定,双侧:血清总胆固醇无论过低或过高均属异常白细胞数无论过低或过高均属异常单侧上限:如:血清转氨酶、体内有毒物质过高异常单侧下限:如:肺活量过低异常 单双侧常依据医学专业知识而定。,2.单、双侧问题:,3.医学参考值范围有90%、95%、99%等,最常用的为95%。计算医学参考值范围的常用方法:1.正态分布法 2.百分位数法,第九章 数值变量资料的统计推断,一、均数的抽样误差与标准误,总体,样本,抽取部分观察单位,统计量,参 数,统计推断,如:样本均数 样本标准差S,如:总体均数 总体标准差,抽

7、样误差(sampling error):由于个体变异产生的、抽样造成的样本统计量与总体参数间差异,称为抽样误差。,1标准误(standard error,SE),统计量的标准差称为标准误,是衡量样本统计量抽样误差大小的统计指标。均数标准误:样本均数的标准差称为均数的标准误,它用来说明均数抽样误差的大小。,降低抽样误差的途径有:减小S。增加样本含量n。,由于总体标准差 通常是未知的,而用样本标准差S来估计,因此,均数标准误 的估计值为,二、总体均数的估计,总体均数的点估计(point estimation)与区间估计(interval estimation),参数的估计,点估计:由样本统计量 直

8、接估计总体参数,区间估计:按预先给定的概率(1-)所确定的、包含未知参数的一个范围,这个范围称为参数的可信区间(Confidence interval,CI),区间估计:可信度与可信区间,预先给定的概率1-称为可信度或置信度(confidence level),常取95%或99%。没有特别说明,一般取双侧95%。可信区间有可信下限(lower limit,L)和可信上限(upper limit,U),一般表示为(L,U)。,t 检验,亦称student t 检验,主要用于样本含量较小(如n60)的两个样本均数的比较。1单样本t检验 2配对样本t检验 3两样本t检验,三、t 检验,四、方差分析

9、1、完全随机设计 2、随机区组设计,(1)设计 将全部试验对象随机分配到g个处理组,各组分别接受不同的处理,试验结束后比较各组均数之间的差别有无统计学意义,推论处理因素的效应。,1、完全随机设计,(2)统计分析方法选择,1.对于正态分布且方差齐性的资料,常采用完全随机设计的单因素方差分析(one-way ANOVA);2.对于非正态分布或方差不齐的资料,可采用Wilcoxon秩和检验。,2、随机区组设计,先按影响试验结果的非处理因素(如性别、体重、年龄、职业、病情、病程等)将受试对象配成区组,再分别将各区组内的受试对象随机分配到各处理或对照组。,(1)随机分组方法,(2)统计方法选择,1.正态

10、分布且方差齐同的资料,应采用两因素方差分析(two-way ANOVA);2.当不满足方差分析时,可采用随机区组设计资料的Friedman M 检验。,当方差分析的结果为拒绝H0,接受H1时,只说明g个总体均数不全相等。若想进一步了解哪两个总体均数不等,需进行多个样本均数间的两两比较或称多重比较。,3、多个样本均数间的多重比较,多重比较不能用两样本均数比较的 t 检验!,若用两样本均数比较的t检验进行多次重复重比较,将会加大犯类错误(把本无差别的两个总体均数判为有差别)的概率。,1、LSD-t检验,适用范围:一对或几对在专业上有特殊 意义的样本均数间的比较。,2、Dunnett-t 检验,适用

11、条件:适用于g-1个实验组与一个对照组均数差别的多重比较。,3、SNK-q检验,适用于多个样本均数两两之间的全面比较。,第十章 分类变量的统计描述,心理反应 病例数 焦虑 102 抑郁 57 自我认同紊乱 10 恐惧 5 合计 174 反映该指标(心理反应)分类的分布,1.一个因素分类计数的频数表,一、分类数据的统计描述方法,2.两因素交叉频数表 不同用药与疗效的关系分组 疗效(Y)(X)有效数 无效数 合计 A药组 20 30 50 B药组 10 40 50,不同用药、性别与疗效的比较,男 女用药 有效 无效 有效 无效试验组 20 10 10 10对照组 10 15 15 20反映用药与疗

12、效、性别与疗效的关系。,3.两因素以上的交叉分组表,1.定义:是两个有关的绝对数之比,统称为相对数。相对数的意义:消除基数影响,便于事物间的比较。给出事物发生频率(强度)的估计。相对数是工作决策的依据。,二、常用相对数,3、常用的相对数指标,(1)率:又称为强度相对数,说明某事物在单位观察数中发生的频率和强度。率的计算通式:,率指标做统计结论的描述,描述内容:描述某现象发生频率水平。不同组间频率指标可作比较。,例:某地中老年人白内障的患病情况,年龄组 受检 白内障 患者 白内障(岁)人数 患者 构成比%患病率%40-560 68 15.18 12.1450-441 129 28.79 29.2

13、560-296 135 30.13 45.6170-149 97 21.65 65.1080 22 19 4.24 86.36合计 1468 448 100.00 30.52,描述:随着年龄的增加,白内障患病率增加,80岁人群达86.36%,2.构成比,概念:说明某事物内部各组成部分在总量中所占的比重.一般为构成比、百分比。计算通式:,例:某地中老年人白内障的患病情况,年龄组 受检 白内障 患者 白内障(岁)人数 患者 构成比%患病率%40-560 68 15.18 12.1450-441 129 28.79 29.2560-296 135 30.13 45.6170-149 97 21.65

14、 65.1080 22 19 4.24 86.36合计 1468 448 100.00 30.52,构成比的特点和意义,特点:(1)各部分构成比的合计为100%。(2)事物内部某一部分的构成比发生变化,其他部分构成也发生变化。意义:研究事物按一个特征分类,构成比反映事物内部组成的结构特征,指出工作重点。,3.相对比,相对比:反映两个指标(指标可为绝对数、相对数;性质相同或不同)相比的倍数或百分数。例:某医院出生性别比=男性婴儿数/女性婴儿数=370/358=1.03(或 103%)医护比=医生人数/护士人数,第十一章 分类变量资料的统计推断,2检验(Chi-square test)是现代统计学

15、的创始人之一,英国人K.Pearson(1857-1936)于1900年提出的一种具有广泛用途的统计方法,此方法以2分布为理论依据,可用于两个或多个率间的比较,计数资料的关联度分析等等。,表 两组降低颅内压有效率的比较,1、四格表资料的卡方检验,四格表专用公式,多个样本率比较时,有R行2列,称为R 2表;两个样本的构成比比较时,有2行C列,称2C表;多个样本的构成比比较,有R行C列,称为R C表。,2、行列表资料的 检验,2,(1)多个样本率或两个构成比比较的2检验,三种疗法有效率的比较,(2)双向无序分类资料的关联性检验,表 某地5801人的血型,问题:(1)两分类变量有无关联?(2)关联程

16、度如何?,第十二章 基于秩转换的非参数检验,参数检验方法回顾,参数检验方法:t检验,方差分析;总体分布假定:各组样本所来自的总体为正态分布;各总体分布间的关系假定:各总体分布的形状相同,即方差相等(方差齐性)。,一、非参数检验方法概述,1、定义:不依赖于总体的分布类型,对样本所来自总体的分布不作严格假定的统计推断方法,称为非参数检验。又可称为任意分布检验。非参数检验是一类统计学方法的总称,基于秩转换(rank transformation)的非参数检验只是其中的一种。,2、秩次以及秩转换的概念,秩次(rank):某种测量值按照从小到大的顺序排序后,每一测量值所对应的序号。秩转换:将某一变量值从

17、小到大排序后,获得每一变量值的秩次,并用此秩次代替原有变量值的过程。,3、非参数检验的应用场合,计量资料,不满足参数检验的条件,且无适当的变量变换方法解决此问题时;分布类型无法获知的小样本计量资料;一端或两端存在不确定数值(如1000IU)的计量资料;等级资料,比较各组间等级强度的差别时。,4、非参数检验的优点与不足,优点:1.适用范围广泛;2.多数方法计算简便;3.易于理解和掌握;4.无法精确测量的资料及等级资料可以采用;不足:1.参数检验适用的资料,非参数方法会降低检验效能;2.某些方法的计算过程仍然复杂。,二、几种非参数方法:,1.配对样本比较的Wilcoxon符号秩检验;2.两个独立样

18、本比较的Wilcoxon秩和检验;3.完全随机设计多个样本比较的Kruskal-Wallis H 检验;,一、配对样本比较的Wilcoxon符号秩检验,例 两种方法ALT测量结果比较,二、两个独立样本比较的Wilcoxon秩和检验,例 两类肺病患者RD值比较,三、完全随机设计多个样本比较的Kruskal-Wallis H检验,例 三种药物杀灭钉螺的死亡率比较,2.参数检验和非参数检验的对应关系,第十二章 直线相关与直线回归,一、直线相关,相关-变量间在数量上的相互关系,直线相关(linear correlation):用于描述具有线性关系的两变量X、Y间的相互关系。,相关系数示意图,散点呈椭圆

19、形分布(相关)X、Y 同时增减-正相关(positive correlation);X、Y 此增彼减-负相关(negative correlation)。,散点在一条直线上(完全相关)X、Y 变化趋势相同-完全正相关;反向变化-完全负相关。,相关系数示意图,X、Y 变化互不影响(无直线相关关系)-零(不)相关(zero correlation),1、相关系数概念,相关系数又称为Pearson相关系数(软件中常用此名称)相关系数说明两变量间相互直线关系的密切程度和方向的指标。r 样本相关系数,2、相关系数的计算和假设检验,二、直线回归,函数关系:确定,各点在线上。例如y=5+3x,回归关系:不确

20、定,各点并非恰好都在线上。例如血压和年龄的关系(血压随年龄的增长而增高,并呈直线趋势)。,目的:建立直线回归方程(linear regression equation),1、直线回归方程,一般表达式:,a:截距(intercept),直线与Y轴交点的纵坐标。b:斜率(slope),回归系数(regression coefficient)。,2、直线回归方程的求法 3、回归方程的检验,4、直线回归与相关应用的注意事项,(1)直线回归与相关分析要有实际意义(变量选择要结合专业背景,相关未必真有内在联系)(2)分析结果的解释及正确应用,不能任意“外延”(3)正确选择自变量与应变量(分析目的、专业知识

21、、因果、变异大小、测量难易程度)(4)相关与回归分析前应绘制散点图(两变量间可能关系的重要提示、考察现有数据是否满足正态分布、有助于异常点的识别与处理),第十六章 统计表与统计图,一、统计表 统计表(statistical table)是表达统计分析结果中数据和统计指标的表格形式,是统计描述的重要方法,也是科研论文中数据表达的主要工具。,1、统计表的结构,2、统计表的意义,清晰地展示数据的结构、分布和特征方便阅读、比较和计算研究论文中可代替冗长的文字叙述,3、统计表的制表原则,重点突出:一张表,一个中心内容表述清楚:主语与宾语的选择、位置的确定简单明了:文字、数字、线条应尽量从简,4、制表的基

22、本要求,标题:概括表的主要内容标目:横标目、纵标目、总标目线条:三条基本线:顶线、底线、纵标目下 横线。无斜线、竖线。数字:无数字“-”,缺失数字“”,不留空 项,小数位对齐。备注:列于统计表的下方。,5、常见不良统计表,统计表过大、内容过多标目设置不合理,导致统计表内容表述混乱线条过多,如出现不必要的竖线、斜线等数字区有空项,同一指标小数位不同、未对齐将备注列于统计表中统计表基本结构中要素缺失:无标题、少线条,二、统计图,统计图(statistical graph)是用点、线、面等各种几何图形来形象化地表达统计数据的图形。与统计表相比,统计图具有形象直观的特点,易于给读者留下深刻的印象;但不

23、象统计表那样,能提供精确的数值。,1、统计图的结构,标题:概括统计图的主要内容、时间和地点;置于图的下方;横轴和纵轴:横标目、纵标目(指标名称、单位),纵横轴的比例以5:7为宜;图例:说明图中不同颜色或线条所表达的对象,刻 度,图 例,2、几种常用的统计图,(1)直条图(bar chart)意义:等宽直条长短表示相互独立的统计指标值的大小(绝对数、相对数、平均数);制图要求:纵轴必须从“0”开始;直条等宽、条间距等宽;直条由高到低或按自然顺序排列;分类:单式条图、复式条图、误差条图,单式条图(simple bar chart):一个分组标志、一个统计指标,复式条图(clustered bar

24、chart):多个分组标志、一个统计指标,误差条图(error bar chart):用条图表示均数的基础上,在图中附上标准差的范围。,图2-27 四种营养素喂养小白鼠三周后所增体重(克),(2)圆图和百分条图(pie chart and percent bar chart),圆图:以圆形总面积为100%,将其分割成若干个扇面以表示事物内部各构成部分所占的比例。适合描述分类资料的各类别所占的构成比。百分条图:以矩形的总长度表示100%,将其分割成不同长度的段以表示事物内部各构成部分所占的比例。用途同圆图,但特别适合进行多个构成比的比较。,2006年某医院1402例孕妇分娩结果,(3)线图(li

25、ne graph),用线段的升降表示某事物动态变化,或某现象随另一现象变化的趋势。适用于连续性资料纵轴:统计指标,算术尺度,以“0”为起点横轴:连续性变量(时间、年龄等),算术尺度连线:两点之间用直线相连,不可修匀成光滑曲线,某炮团和坦克团某年不同月份的发病人数,关于考试:题型:选择、计算举例:(1)一组变量的标准差将()。A.随变量值的个数n的增大而增大B.随变量值的个数n的增加而减小C.随变量值之间的变异增大而增大D.随系统误差的减小而减小,(2)方差分析的主要目的是比较()A 总体均数之间的差异性 B 样本均数之间的差异性C 总体方差之间的差异性 D 总体变异系数之间的差异性,(3)某医

26、院2003年全部门诊患者中,上呼吸道感染患者占5%,则下述正确的是()A.上呼吸道感染患病率为5%B.该院门诊的上呼吸道感染患者构成比为5%C.该院门诊患者中上呼吸道感染的发病率为5%D.该院门诊患者中上呼吸道感染的患病率为5%,(4)率可以用来反映()A.两个指标之间的大小对比关系B.某现象发生的频率或强度C.某部分个体数与各部分个体数总合的比D.计算资料的集中趋势,计算:(1)西安地区55-58岁健康成人的血糖值(mmol/L),经检验服从正态分布。求得 试估计95%参考值范围。,解:采用正态法求双侧95%的参考值范围的计算公式为:本例中,(2)某医院用新药与常规药物治疗婴幼儿贫血,将20名贫血患儿随机等分两组,分别接受两种药物治疗,测得血红蛋白增加量(g/L)见表1。问新药与常规药的疗效有无差别?,表1 两种药物治疗婴幼儿贫血结果,可能会用到的值:新药组,常规药组,解:1.建立假设,确定检验水准H0:H1:,2.计算检验统计量t,3.确定P值,因故P0.05,拒绝H0,接受H1,认为两种药物治疗效果不同。,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号