《人群健康研究的统计学方法.ppt》由会员分享,可在线阅读,更多相关《人群健康研究的统计学方法.ppt(44页珍藏版)》请在三一办公上搜索。
1、1,第九章人群健康研究的统计学方法,2,一、统计学(statistics),统计学是研究数据的搜集、整理与分析的科学,面对不确定性数据作出科学推断。,第一节 统计学概述,3,二 统计学中的几个基本概念,4,(1)总体(Population)是指根据研究目的所确定的同质研究对象的全体。更确切地说是同质的所有观察单位某种观察值(变量值)的集合。分有限总体与无限总体。,1、总体与样本,有限总体(finite population):研究对象的个体数目是有限的总体。无限总体(infinite population):研究对象的个体数目不确定或无限多。,5,(2)样本(Sample)是指从总体中随机抽取
2、的一部分观察单位。样本含量(Sample size)医学上称为样本例数 是指样本包含的个体的数目,用“n”表示。而总体中包含的个体的数目,用“N”表示。,6,样本的特性,1.随机性(randomization):遵循随机化原则。(随机随意随便)2.代表性(representative):样本中的每个个体来自同一总体。3.可靠性(reliability):所作的结论可信度较高,样本含量“足够”。4.可比性(comparable):遵循齐同对比的原则。,7,变量:被观察对象的特征或指标称为变量。(习惯上称指标)变量值:也称观察值(observed value,measurements)是变量的观察
3、结果 可以是定量的如:身高、体重血压等;亦可以是定性的如性别、血型、疗效等),2.变量及变量值(variable and value of variable),被观察对象的年龄、体重、血压性别、种族文化程度等,3、参数与统计量(parameter and statistic),参数:总体的统计指标,如总体均数、总体标准差,分别用希腊字母记为、。固定的常数,推断inference,统计量:样本的统计指标,如样本均数、标准差,采用拉丁字母分别记为。参数附近波动的随机变量。,9,统计上所说的误差包括:实测值与真值之差(系统误差、随机测量误差);样本指标与总体指标之差(抽样误差)。,4、抽样误差,系统
4、误差 是由于仪器初始状态未调整到零、标准试剂未经校正、医生掌握疗效标准偏高或偏低等原因使测量结果呈倾向性偏大或偏小。特点:可避免,随机测量误差 由于偶然因素(如操作技术不稳定、不同操作员之间的操作差异、电压不稳、环境温度差异等)的影响所致的误差。特点:不可避免,抽样误差:是指由随机抽样引起的某指标的样本统计量与该指标的总体参数的差异以及各样本统计量之间的差异 原因:个体之间存在差异 抽样只能抽取总体中的一部分 特点:不可避免,10,11,(1)改进抽样方法,增加样本的代表性。样本量 n 相等的情况下:整群抽样单纯随机抽样系统抽样分层抽样(2)增加样本量n(3)选择变异程度较小的研究指标,减少抽
5、样误差的方法:,12,5、概率(probability):是指某事件发生的可能性大小。用“P”表示。P的取值范围:0P1 P=0 不可能事件(事件必不发生)P=1 必然事件(事件必发生)小概率事件:P 0.05(5)或P 0.01(1)称为小概率事件(习惯),统计学上认为不大可能发生。随着实验次数增至足够大,频率逐渐稳定于某一常数附近,则该常数称之为概率。,13,三 统计资料类型,14,一、资料的类型(变量类别),1、计量资料(定量、数值变量)2、计数资料(定性、无序分类变量)3、等级资料(半定量、有序分类变量),15,1、计量资料(measurement data)定义:通过度量衡的方法,测
6、量每一个观察单位的某项研究指标的量的大小,得到的一系列数据资料。特点:取值是定量的 表现为数值大小 有度量衡单位(计量单位)变量值是连续的如:身高、红细胞计数、血压等,16,2、计数资料(enumeration data)定义:将全体观测单位按照某种性质或特征分组,然后再分别清点各组观察单位的个数。特点:取值是定性的(无度量衡单位计量单位)多为间断性资料 数据分类互相排斥(互不相容)数据分类无逻辑顺序 可分二项分类和多项分类 如:性别、血型等,17,3、等级资料(ordinal data)定义:是介于计量资料和计数资料之间的一种资料,通 过半定量方法测量得到。特点:取值是定性的(无度量衡单位计
7、量单位)数据分类互相排斥 分类等级有定量含义(又称为半定量资料)数据分类有程度上的差别(等级顺序关系)多为间断性资料 如:疗效(痊愈、好转、无效、死亡)尿蛋白(-、+、+、+、+)病情(轻、中、重)等,18,资料间的转化 在实际应用中,根据分析的需要,各类变量间可以互相转化。例如:血红蛋白 正常 重度贫血(16.0g%)计量资料计数资料等级资料,19,四、统计工作的基本步骤,20,1、统计设计 设计(design)是根据研究的目的,对研究工作的全过程作一个全面的规划,制定总的研究方案,是统计工作中最关键的一步。,设计,实验设计,调查设计,21,2、收集资料(collection data):是
8、根据研究目的及实验设计的要求,收集准确的、完整的、可靠的原始资料(raw data)。收集资料是统计工作的前题和基础。,任务:取得准确可靠的原始数据,22,医疗卫生工作记录和报告,专题调查或试验研究,统计报表(报告卡),经常性资料,一时性资料,(1)资料的来源,23,(2)资料的要求,必须完整、及时、正确 要有足够的数量 注意资料的代表性和可比性,24,3、整理资料(sorting data):把搜集到的原始资料有目的地进行科学加工,使资料条理化、系统化,便于进一步的统计分析。,首要工作:进行数据审核(资料清理data cleaning)完整性检查:要求无缺项和漏项。准确性检查:要求无逻辑错误
9、,无区间错误。,25,整理资料的步骤,(1)检查核对资料,(2)设 计 分 组,(3)资料列表划记归组,按质分组(用于计数资料和等级资料),按量分组(用于计量资料),26,4、分析资料(analysis data):把经过统计整理的资料作一系列的描述性分析和推断性分析,从而阐明事物的规律性。不同类型的资料使用的统计分析的方法不一样。,分析的关键:依据资料的类型和特征,正确选择统计分析方法。,27,统计描述descriptive statistics,统计推断inferential statistics,分析资料analysis of data,统计描述:是指用一些统计指标、统计图表等方法描述数
10、据的分布特征和变化趋势。统计推断:是指用调查、实验取得的样本信息估计总体特征。,统计推断:参数估计:由统计量来推断参数假设检验:由样本差异来推断总体之间 是否可能存在差异,28,29,基本概念和基本步骤测试题,30,1、计量资料、计数资料和等级资料的关系是:,A、计量资料兼有计数资料和等级资料的一些性质。B、计数资料兼有计量资料和等级资料的一些性质。C、等级资料兼有计量资料和计数资料的一些性质。D、计数资料兼有计量资料的一些性质。E、三者差别不大。,A型题,31,2、统计学中的系统误差、随机测量误差和抽样误差,在实际工作中是:,A、三种误差都不可避免 B、系统误差和测量误差不可避免 C、系统误
11、差和抽样误差不可避免 D、随机测量误差和抽样误差不可避免 E、三种误差都可避免,A型题,32,3、抽样误差是指:,A、个体值和总体参数之差 B、个体值和样本统计量之差 C、样本统计量和总体参数之差 D、样本统计量和总体测量值之差 E、总体测量值和总体参数之差,A型题,33,4、在统计工作中,整理资料时首要工作是:,A、设计分组 B、拟整理表 C、检查资料 D、资料归组 E、计算全距,A型题,34,5、搞好统计工作,达到预期目的,最重要的是:,A、原始资料要多B、原始资料要正确C、整理资料要详细D、分析资料要先进E、统计计算精度要高,A型题,35,6、关于随机抽样,下列说法哪一项是正确的:,A、
12、随机抽样即随意抽取个体B、研究者在抽样时应精心挑选个体,以使样本更能代表总体C、抽样时应使得总体中的所有个体有同等机会被抽取到D、为确保样本具有更好的代表性,样本量应越大越好E、随机抽样即随便抽样,A型题,36,7、统计学中所说的总体是指:,A、根据目的划分的研究对象的全体B、根据地区划分的研究对象的全体C、根据人群划分的研究对象的全体D、根据研究目的确定的同质研究对象的全体E、随意想象的研究对象的全体,A型题,37,8、统计学中所说的样本是指:,A、随意抽取总体中任意部分B、按照随机原则抽取总体中有代表性的一部分C、有意识的选择总体中典型部分D、依照研究者要求,选取总体中有意义的一部分E、随
13、便抽取总体中任意部分,A型题,38,9、搜集资料的具体要求是:,A、完整B、及时C、正确D、条理化E、系统化,X 型题,39,10、整理资料的目的是:,A、检查核对资料B、使资料条理化C、为了分组D、便于统计分析E、使资料系统化,X 型题,40,常用抽样方法特点,简单随机抽样(simple random sampling):最基本的抽样方法。系统抽样(systematic sampling):又称等距抽样。整群抽样(cluster sampling):群间差异小,群内差异大。分层抽样(stratified sampling):层(strata)间差异大,层内差异小,抽样误差的大小:分层抽样系统
14、抽样简单随机抽样整群抽样,1)简单随机抽样(simple random sampling):将调查总体全部观察单位编号,再用抽签法或随机数字表随机抽取部分观察单位组成样本。优点:操作简单,均数、率及相应的标准误计算简单。缺点:总体较大时,难以一一编号。,2)系统抽样(systematic sampling):又称机械抽样、等距抽样,即先将总体的观察单位按某一顺序号分 成n个部分,再从第一部分随机抽取第k号观察单位,依次用相等间距,从每一部分各抽取一个观察单位 组成样本。优点:易于理解、简便易行。缺点:总体有周期或增减趋势时,易产生偏性。,3)整群抽样(cluster sampling):先按某特征将总体分为若干个群,再随机抽取几个群组成样本,群内全部调查。多用于群与群之间差别较小的总体。优点:便于组织、节省经费。缺点:抽样误差大于单纯随机抽样。,4)分层抽样(stratified sampling):先按对观察指 标影响较大的某种特征,将总体分为若干个类别,再从每一层内随机抽取一定数量的观察单位,合起 来组成样本。有按比例分配和最优分配两种方案。优点:样本代表性好,抽样误差减少。,