《医学统计学基本概念(马修强)ppt课件.ppt》由会员分享,可在线阅读,更多相关《医学统计学基本概念(马修强)ppt课件.ppt(68页珍藏版)》请在三一办公上搜索。
1、医学统计学(medical statistics),卫生统计学教研室马修强 副教授2011-9-13,名人名言,学者不能离开统计学而研学;政治家不能离开统计学而施政;事业家不能离开统计学而执业;军事家不能离开统计学而谋略。马寅初,统计学的定义,A science dealing with the collection, analysis, interpretation and pre-sentation of messes of numerical data. (关于数据的收集、分析、解释和表达的学科) - Websters International Dictionary,统计学的定义,Th
2、e science and art of dealing with variation through collection, classifi-cation, and analysis in such a way as to obtain reliable result. (通过数据的收集、分类和分析来处理变异以获得可靠结果的一门学科和艺术)-John M. Last, A Dictionary of Epidemiology,统计学与医学,统计学在医学方面应用的分支名称:生物统计学(biostatistics)医学统计学(medical statistics)卫生统计学(health st
3、atistics)医学统计学运用统计学原理和方法研究医学科研中有关数据的收集、整理和分析的应用学科。,1.学会驾驭变异性(variation) 变异性是社会和生物医学中的普遍现象。 WHO报告中国期望寿命:平均 71(岁) 实际上每个人的实际寿命是不确定,有些用现有的知识可以解释,有些不能解释。统计试图为不能解释的问题(困惑费解的问题)提供线索和依据。 统计学就是处理数据中变异的科学。,为什么要学习医学统计学?,The odds of finding two identical fingerprints were 1 in 64 billion.Francis Galton,两个随机个体具有相
4、同DNA图形的概率为310-11;如果同时用两种探针进行比较,两个个体完全相同的概率小于510-19。,每支枪的枪管都有独一无二的特征,这种特征影响了它所发射的每一发子弹。司法弹道学,120名正常成年男子红细胞计数值(1012/L),2. 设计你的研究,随机对照试验,Randomized Controlled Trial(RCT) 不一定是最好的医学研究方法, 但是最好的试验方法。,国际生物医学杂志编辑协会一般要求(包含了统计学要求):Uniform Requirements for Manuscripts Submitted to Biomedical Journals,国际医学杂志编辑委员
5、会对随机对照试验论文报告要求:CONSORT (Consolidated Standards of Reporting Trials) http:/www.consort-statement.org/Statement/revisedstatement.htm#ref5,3. 论文的统计学审查,在全世界报告的122个关于Selective Sero-tonin Reuptake Inhibitors (SSRI) 抗抑郁作用的RCT研究报告中,仅有一个(0.8%)报告符合CONSORT的描述规范。,“良好愿望的医学”(well-meaning medicine)转入“基于证据的医学” (evi
6、dence-based medicine,EBM)。所有临床试验的结果都是先有统计学结论(统计指标比较、P 值),再给出专业结论。,4. 统计学结论是重要的科学证据之一,统计学与数值计算,统计学的结论是建立在正确的数值计算的基础上;数值计算可以由多种途径完成,如心算、手工计算、计算器、电脑(统计软件);使用统计软件仅仅是解决复杂统计计算的快速实现问题,其真正的精髓并不在于如何操作软件,而在于你是否具有足够的统计学知识选择合适的统计方法,并对结果作出合理的解释。,产生的问题:数据的可靠性:数据造假问题统计方法的选择:误用非常严重,舍恩(Schon)事件,维克托尼努夫化学元素发现造假事件,黄禹锡事
7、件,数据造假,2005年6月9日,自然杂志公布了一份令人震惊的调查结果。,美国调查人员对3247名科学家的问卷调查结果显示: 约5%的科学家承认,由于得到的信息与他们正在进行的研究相抵触,他们曾丢弃某些数据;10%的科学家承认,他们在发表研究报告时,曾不适当地将自己或他人的名字列为作者;超过15%的科学家承认,他们曾改变原来的设计或结果,或忽略一些观测以便使赞助商满意。,统计方法的误用,70%左右的文章有统计学错误;其中,70%的错误出在初等的、基本的统计学方法,30%的错误出在高等的、复杂的统计学方法。,1966年,据对美国医师协会杂志(JAMA)等医学杂志的来稿的统计显示,149篇投稿论文
8、中,仅有28%可以接受,67%有统计缺陷但尚可以纠正,5%不可救药。,“生物统计学者是我们的可贵盟友。生物统计学不是远离我们的数学,而是现代医学的一门基本学科,就像大厦中的一个支柱”。,美国医师协会杂志编辑,“非常痛心地看到,因为数据分析的缺陷和错误,那么多好的生物研究工作面临着被葬送的危险”。,Yates和Healy,How to lie with statistics-Darrell Huff如何用统计学说谎或统计数字会撒谎,统计这种神秘的语言,在一个用事实说话的社会里是如此吸引人,但有时它却被利用并成为恶意夸大或迷惑他人的工具。统计方法和统计术语是必不可少的。但如果不能准确理解和恰当使用
9、这些统计语言,不能正确了解其含义,统计结果只能是一堆废话。统计不仅是一门科学,更是一门艺术(加工、处理、升华)。,统计学的几个基本概念,同质与变异总体与样本参数与统计量变量与资料误差频率与概率,同质:指事物的性质、影响条件或背景相同或非常相近。,同质与变异(homogeneity and variation),例:调查2010年上海市7岁男童的身高和体重 同质:2010年、上海市、7岁男童,变异:同质个体间测量结果的差异。,变异: 上海市7岁男童的身高和体重各不相同,我的红细胞数比其他同事都低,该去医院看看了,个体变异是普遍存在的。一种或多种不可控因素(已知的或未知的)作用下所产生的综合表现。
10、变异是不可避免的。个体变异是有规律的。没有变异,就没有统计学!,同质与变异(homogeneity and variation),总体(population),定义:根据研究目的确定的、同质的全部研究对象的观测值的全体。如研究18岁男青年的生长发育情况,指标为身高、体重,则所有18岁男青年的身高测量值为一个总体,体重测量值为另一个总体。有限总体(finite population) 如2011年上海市在校大学生无限总体(infinite population) 如高血压病人,样本(sample),来自总体的部分研究对象的观测值。抽样(sampling):总体中的每个研究单位被抽取作为样本的过程
11、。样本量(sample size):样本包含的研究对象的个数。,参数:反映总体特征的统计指标,如总体均数、标准差,采用希腊字母分别记为、。固定的常数。,推断,统计量:反映样本特征的统计指标,如样本均数、标准差,采用拉丁字母分别记为 。 参数附近波动的随机变量。,参数与统计量 (parameter and statistic),误差(error),误差的定义:实测值与真实值之间的差异误差的分类:随机误差(random error)非随机误差(nonrandom error)系统误差(systematic error)非系统误差(nonsystematic error),随机误差,由多种尚无法控制
12、的因素引起的误差。无法消除或不可避免,但有规律可循。抽样误差(sampling error)在抽样过程中由于抽样的偶然性而出现的误差。表现为总体参数与样本统计量的差异,以及多个样本统计量之间的差异。可用标准误描述其大小。,系统误差,由可知的或可掌握的因素引起的误差。其值恒定不变或遵循一定变化规律,产生原因往往是已知或可能掌握的理论上可以通过周密的研究设计和严格的技术措施消除,实际操作上要看具体情况。实验者感觉或操作上的差异;仪器设备的测量精度;抽样不均匀,分配不随机等。,举例:用动脉血压计测量某人血压(实际值为80mmHg),各次测量的均值为100mmHg。下图为系统误差和随机误差的示意图。,
13、非系统误差,又称过失误差(gross error)由研究者偶然失误造成的误差。可通过研究者的认真检查核对避免此类误差。仪器失灵记录错误(点错小数点、指标弄错等),确定性现象和不确定现象,确定性现象:在一定条件下,必定会发生的现象。必然事件(P1)和不可能事件(P0)。随机现象:在同样条件下会出现两种或多种结果,事先不能确定可能发生何种结果的现象。在一定条件下可能发生的事件为随机事件(0P1)。,频率与概率,频率(relative frequency):在相同条件下,独立地重复n次试验,随机事件A出现 f 次,则称 f/n 为随机事件A出现的频率。,频率与概率,概率(probability):随
14、机事件发生可能性大小的度量指标。当n趋近无穷大时,频率f/n始终在一个常数左右微小摆动,称该常数为随机事件A的概率用 P 表示,0 P 1。随着样本量的增加,频率越来越接近概率。只要观察单位数足够多,可将频率作为概率的估计值。,Probability = Frequency?,Patient: Will I survive this risky operation? Surgeon: Yes, Im absolutely sure that you will survive the operation. Patient: How can you be so sure? Surgeon: Wel
15、l, 9 out of 10 patients die in this operation, and yesterday my ninth patient died.,Surely not,在一次实验或观察中该事件发生的可能性很小。,P 0.05:小概率事件(rare event),小概率事件在一次实验或抽样中不可能发生,如果发生就怀疑前提假说(检验假设)的正确性。,小概率反证法思想(统计推断的基础),变量(variable),研究者对每个观察单位的某项特征进行观察或测量,该特征称为变量。观察或测量的结果称为变量值或观察值。变量值可以是数值,也可以是某种属性。变量值构成资料(data)。,医学
16、研究中常见的资料类型,计量资料(measurement data)计数资料(enumeration data)等级资料(ranked data),计量资料,又称定量资料(quantitative data),即观测每个观察对象某项指标的大小而得到的资料;必须通过“量”才能获得;带有度量衡单位;每个个体拥有一个数值;可以转换为等级资料和计数资料。,计量资料的类型,离散型:在一定范围内取值的个数为有限。如:出生婴儿数、死亡人数等。连续型:在一定范围内取值的个数为无限。如:身高、体重等。,计数资料,又称定性资料(qualitative data),或称无序分类变量(unordered categor
17、ical variable),即将观察单位按某种属性或类别分组计算各组的例数,分组汇总各组观察单位数后得到的资料。必须通过“数”才能获得;不带有度量衡单位,每个个体拥有一个属性。,计数资料的类型,两分类:阳性或阴性;存活或死亡; 有效或无效;男性或女性多分类:如血型中的A、B、O、AB四种,等级资料的特点,又称有序分类资料(ordinal categorical data),即将观察单位按某种属性的大小程度分成等级后分组计算各组的例数,分组汇总各组观察单位数后得到的资料。必须先“量”后“数”才能获得;不带有度量衡单位,每个个体拥有一个属性;如治疗效果分为痊愈、有效、无效、恶化等,练习:资料类型
18、的判断,资料类型的转化,计量资料可以转化为等级资料和计数资料如血压中收缩压为计量资料;按照90160mmHg为界值,可分为低血压、正常血压、高血压(等级资料);也可以分为正常和不正常(计数资料)。计量资料的信息最丰富,研究中尽可能收集计量资料。,医学统计学的基本步骤,设计(design),收集资料(collection of data),整理资料(sorting data),分析资料(analysis of data),一、设计(design),统计设计:对资料收集、整理和分析全过程总的设想和安排。是后续步骤的依据,是最关键的一环。是提高观察或实验质量的重要保证。,科研设计,专业设计,统计设计
19、,成果:先进性、创新性 科学性和可行性,研究者在统计设计过程中的几个关键问题:(1)如何进行抽样,如何安排设计所规定的干预措施?(2)要达到研究目的应抽取多少个观察单位?(3)如何在诸多的影响因素中,分离出研究因素对结果的效应?,二、收集资料(collection of data) 根据设计方案,取得准确可靠的原始数据,是统计分析的基础。,来源,统计报表资料,经常性工作记录,专题调查或实验研究,统计年鉴和统计数据专辑,三、整理资料(sorting data) 将原始数据净化、系统化、条理化,以便为进一步计算和统计分析。 净化是指对原始数据的清理、检查、核对和纠正错误等; 系统化和条理化是指根据
20、研究目的,将原始数据合理分组并归纳汇总等。,资料整理包括:,1、首先对原始数据进行核对和检查2、设计分组 质量分组:将观察单位按其属性或类别归类分组。如性别、职业分类等。 数量分组:将观察单位按数值大小进行分组。如年龄大小、血压高低等。3、按分组要求设计整理表,汇总资料。,数据的预处理: 把原始数据转化为能被统计软件识别的数据集。,例:性别:男、女 sex: =1(男) =2(女),数据录入工具:EpiData、Ecxel等,四、分析资料(analysis of data) 计算有关统计指标,反映数据的综合特征,阐明事物的内在联系和规律。,统计分析分为: (1)统计描述 (2)统计推断,统计学
21、发展简史,统计学的发展史可分为三个时期:17世纪70年代18世纪末:古典统计学18世纪末19世纪末:近代统计学20世纪初现在:现代统计学,Statisticians are very careful!,As a biologist, a physicist, and a statistician are riding on a train through Wisconsin, they pass a herd of cows, one of which is completely white. “Oh look, there are white cows in Wisconsin,” says
22、 the biologist. “You mean,” says the physicist with an air of superiority, “there is at least one white cow in Wisconsin.” “No,” says the statistician, “there is at least one cow in Wisconsin thats white on at least one side!”,现代统计学的开端,Francis Galton(1822-1911),维多利亚女王时代最博学的人,创用和发展了“相关”与“回归”。平生著书15种,
23、撰写各种学术论文220篇,涉猎范围包括地理、天文、气象、物理、机械、人类学、社会学、统计学、教育学、医学、生理学、心理学、遗传学、优生学、指纹学、音乐、美术等,是一位百科全书式的学者。,生物统计学派创始人,Karl Pearson是Galton的学生开创了统计方法学,把这门学科由描述性统计改变为推断性统计。创造“标准差”术语,提出2检验、线性相关与回归。1911年,在伦敦大学创立了世界首个综合大学统计系。,现代统计学的开端,现代统计学之父,Karl Pearson对相对论的贡献,爱因斯坦23岁时设立 Olympia专业研究组,向成员推荐的第一本书,Pearson认为自然的法则与观察者的理解能力
24、有关。自然进程的不可逆纯粹是相对的概念。一个能以光速前进的观察者将看到永恒的现在。他推测如果研究者的速度超过了光速将会看到时光倒流,就像电影回放一样。该书介绍的某些主题后来成为爱因斯坦理论的部分内容。,Biometrika shall serve as a means not only of collecting or publishing under one title biological data of a kind not systematically collected or published elsewhere in any other periodical, but also
25、of spreading a knowledge of such statistical theory as may be requisite for their scientific treatment. 19061936 Karl Pearson 19361966 Egon Pearson,创办世界上最权威的生物统计学专业期刊,IF 1.446 (2009),R. A. Fisher是另外一位与Karl Pearson齐名的现代统计学的奠基人。Fisher创立了随机化实验设计和方差分析的理论和方法。证明了许多统计量的精确分布,如t统计量、相关系数r。,现代统计学的开端,1925年,编写出版
26、了研究者的统计方法(Statistical Methods for Research Workers)。1935年,编写出版了实验设计(The Design of Experiments)。两本书建立了实验设计的基本原则:重复、对照、随机化,R. A. Fisher的实验设计理论,M. Greenwood是Karl Pearson的学生,是第一个即懂医学又懂统计学的医学统计学家,领导Lister预防医学研究所创建的第一个统计系。1840年,法国人J. Gavarret出版了世界上第一部医学统计学教科书。1948年,郭祖超(1912-1999)出版了我国的第一部医学统计方法的教材医学与生物统计方
27、法。,医学统计学的开端,统计学家与二战,Abraham Wald1902-1950,Abraham Wald 主要从事数理统计研究,用数学方法使统计学精确化、严密化,取得了很多重要的成果。其中,最重要的成就是统计决策理论、序贯分析。提出了一般的判别问题,引进了损失函数、风险函数、极小极大原则和最不利先验分布等重要概念。,被视为军事机密的统计研究,统计学家与二战,本章重点内容,统计学的基本概念:同质和变异、总体和样本、参数和统计量、误差、频率和概率。医学研究中常用的数据类型:计量资料、计数资料、等级资料。,课程安排和考试,课程组构成:组长:马修强 副教授成员:陆 健 副教授 赵艳芳 讲 师 何 倩 讲 师学时:共60学时,20次授课(包括1次复习、1次答疑和1次考试)考试形式:开卷考试考试时间:2011年11月24日上午8:00,Thank you,