《医学统计学重点知识总结.docx》由会员分享,可在线阅读,更多相关《医学统计学重点知识总结.docx(5页珍藏版)》请在三一办公上搜索。
1、医学统计学第一章绪言研究设计、资料分析、结论定量资料:以定量值表达每个观察单位的某项观察指标,如血脂心率等。定性资料:以定性方式表达每个观察单位的某项观察指标,如血型性别等。等级资料:以等级方式表达每个观察单位的某项观察指标,如疗效分级等。总体:是指按研究目的所确定的研究对象中所有观察单位某项指标取值的集合。样本:是指从研究总体中随机抽取具有代表性的部分观察单位某项指标取值的集合。(以上均可能考名解)描述某总体特征的指标称为总体参数,简称参数;描述某样本特征的指标称为样本统计量,简称统计量。概率是随机事件发生可能性大小的一个度量,概率小于或等于0.05时,统计学通常称该事件为小概率事件,其涵义
2、为该事件发生的可能性很小,进而认为其在一次抽样中不可能发生,此即为小概率原理。定量资料的统计指标(大题):算术均数,几何均数,中位数和百分位数。同质性与异质性:同质是指观察单位具有相同的性质,是构成研究总体的必备条件;异质性是指性质不同,研究内容不同,对同质性的要求不同。第二章个体变异与变量分布变异(名解):是以具有同质性的观察单位为载体,某项观察指标在观察单位之间显示的差别。【在同质的基础上各观察单位(或个体)之间的差异】正偏态与负偏态【2.3节为重点,尤其是统计指标与图的关系】几何均数应用于比值数据,中位数适用于偏态分布离散趋势指标(重点简答):全距,四分位数间距,方差,标准差和变异系数,
3、其中常用的是标准差和变异系数。变异系数(名解):亦称离散系数,是标准差S与均数1之比,即cv=q7xoo%,变异系数常用于比较度量衡单位不同的两组或多组资料的变异度、比较均数相差悬殊的两组或多组资料的变异度。如何正确使用相对数(选择或简答):1,计算相对数的分母不宜过小。2,分析时不能以构成比代替率。3,对观察单位数不等的几个率,不能直接相加求其平均率(或称总率)。4,计算率时要注意资料的同质性,对比分析时应注意资料的可比性。标准化率:又称调整率,实际上是一加权平均。标准化的目的是为了进行合理的比较。正态分布的特征:1,正态分布是一单峰分布,高峰位置在均数X=R处,这一点由f(X)的定义即知。
4、总体中位数亦为02,正态分布以均数为中心,左右完全对称。3,正态分布取决于两个参数,即均数H和标准差。4,有些指标不符合正态分布,但通过适当的变换后符合正态分布。5,正态分布曲线下的面积分布是有规律的。3离散趋势TP18例2.11(典型)二项分布(事件数&率的标准差)_!公式:x(n-x)从阳性率为n的总体中随机抽取含量为n的样本恰有X例阳性的概率为P(X)=。;(1一元)-“他,1=0,1,2n性质:1,均数与标准差在二项分布资料中,当n和n已知时,阳性数X的均值以及其标准差。可由=n冗和。二师算出。若均数与标准差不用绝对数而用率表示时,即用上两式分别除以n得=冗。2,累计概率(选择)常用的
5、有左侧累计和右侧累计两种方法。从阳性率为n的总体中随机抽取n个个体,则k最多有k例阳性的概率:P(XWk)=ZP(X)=P(O)+P(I)+P(k)0最少有k例阳性的概率:P(XMk)=ZP(X)=I-P(XWk-Dkn-X计算时可借助下列递推公式:a+D=天节。尸(X)3,二项分布的图形当九二0.5时,分布对称;当n0.5时,分布呈偏态;当打0.5时分布呈负偏态;特别是当n值不是很大时,n偏离0.5越远,分布越偏。随着n的增大,二项分布逐渐逼近正态分布。均数与方差PoiSSon分布的方差/与均数相等,均为,即2=4=b,(选择)poisson分布是二项分布的极限形式参考值范围(名解):是根据
6、正常人的数据估计绝大多数的正常人所在的范围。这一范围的确定需要根据数据分布的特征选择相应的估计方法。【正态分布法、百分位数法、对数正态分布法(了解)】参考值范围确定的原则(简答备选,详见P24):选定同质的正常人作为研究对象、控制检测误差、判断是否分组、单双侧问题、选择百分界值、确定可疑范围第三章抽样误差抽样误差:由抽样引起的样本统计量与总体参数间的差异中心极限定理(重点):从均数为、标准差为。的正态总体中独立、重复、随机抽取含量为n的样本,样本均数的分布仍为正态分布,其均数为,标准差为即使从非正态总体(均数为R、标准差为。)中独立、重复、随机抽取含量为n的样本,只要样本含量足够大(如n叁50
7、),样本均数也近似服从均数为,标准_差为。X的正态分布。标准误的概念在统计理论上将样本统计量的标准差称为统计量的标准误,用来衡量抽样误差的大小。据此,样本均数的标准差。X称为均数的标准误,简称标准误。由上式可见,此标准误与个体变异。成正比,与样本含量n的平方根成反比。标准差s随着样本含量的增加而趋于稳定。(选择)t分布的公式及特征:中心极限定理表明,从任何总体中随机抽样,当样本含量较大时,其均数的抽样分布将趋于正态分布。设从正受分布上中随机抽取含量XuXu为n的样本,样本均数和标准差分别为X和s,且=b=%7特征:1,t分布为一簇单峰分布曲线。2,t分布以O为中心,左右对称。3,t分布与自由度
8、V有关,自由度越小,t分布的峰越低,而两侧尾部翘得越高;自由度逐渐增大时,t分布逐渐逼近标准正态分布;当自由度为无穷大时,t分布就是标准正态分布。第四章可信区间(注意各情况下的自由度的计算)统计推断(名解):根据样本所提供的信息,以一定的概率推断总体的性质。统计推断包括两方面的内容:参数估计和假设检验。可信区间的概念:区间估计是按一定的概率或可信度(1.-)用一个区间估计总体参数所在范围,这个范围称作可信度为的可信区间。可信区间估计的理论基础是统计量的抽样分布规律。总体均数的(1.-)可信区间定义为-ta,S+ta,S)9其中v=n1.为自由度。两个要素:可靠性和精确性。当抽样误差确定后,可靠
9、性和精确性是相互牵制的。如何解释可信区间4.6可信区间和参考值范围的比较(重点)p42,尤其注意区间%。5/和X%05q三;可信区间X%)5qS又和容许区间X%3的区别。第五章假设检验的步骤(计算):建立检验假设,确定检验水准,计算检验统计量并求P值,界定P值并作结论。正确理解P值(P49),。水准在假设检验结论中的意义(选择)两类错误(名解):HO真实时被拒绝为第一类错误,HO不真实时不拒绝为第二类错误。验效能(名解):第二类错误标书失去对真实的H1作出肯定结论之概率,故I-B就是对真实的H1作出肯定结论之概率,常被用来表达某假设检验方法的假设检验对真实的H1作肯定结论之把握程度。假设检验和
10、可信区间的区别和联系(重点大题):两者是从两个不同目的出发密切关联的分析方法。详见P54。第六章定量资料的分析样本总体的比较和样本比较(HOHI的书写)结合假设检验的步骤公式6.123不同情况下假设检验步骤的书写t检验的应用条件阐述:独立性、正态性、方差齐性多个均数的比较:方差分析:三个变异的因素(挖空填写,知道对应的公式及含义)总变异(SS总),组间变异(SS组间),组内变异(SS组内)三种变异关系可表示为SS总=SS组间+SS组间,V总=V组间+v组内。且F=MS组间/MS组内两因素多个样本均数的比较方差齐性检验:两个方差的齐性检验:检验水准一般取0.20,避免类错误。方差分析的正确应用:
11、第三点:两两比较不能用t检验,因为此时将人为地增加第一类错误率(选择)第四点:=F=f2卡方检验的应用条件(多种,确切概率法、配对设计的卡方检验)单双侧检验第七章定性资料的分析正态近似检验:(n的条件)一般习惯上以np三5同时n(Hp)三5时为界限,1一宿此时即可用正态近似检验。统计量U的计算为=。5)/校正的U检验:(使用条件)当n1.p1.、n2p2n1.(1.p1.)n2(1.-p2)均大于5时才适用,如果n较小,则可用校正的U检验nRnC两样本率的卡方检验:理论频数T的计算可用公式Trc=F-卡方检验的基本思想:X=zITJ行X列表的自由度V可由式V=(行数T)(列数T)四格表卡方值的
12、校正,从而人为地扩大了第一类错误。7.3多个率的比较,属于卡方检验。7.4构成比的比较:似然比检验或者确切概率法的应用条件是:RXC表用卡方检验也是一种近似,当样本含量较大,且每个格子的理论数均较大时,近似程度较好,当有1/5以上格子的理论频数小于5时,宜用上述两种检验方法。7.5当b+c40时,用7.12计算检验统计量;当20b+c40时用7.13;当b+c20时直接计算确切概率寸二的-d)2(zc-y1.Xb+c,V=rI(7.12)Xb+c,V=I(7.13)四格表的确切概率法是属于超几何分布。确切概率法(选择)7.9定性资料假设检验的正确应用(选择)P84选择检验方法的条件第八章等级资
13、料的分析编秩秩变换秩次秩和秩次:是指全部观察值按某种顺序排列的位序秩和:同组秩次之和两组秩和相加等于N(N+2)2两组比较的秩和检验:HO:AB两组等级分布相同;H1.:AB等级分布不同多组比较的秩和检验:H0:总体分布相同;H1:总体不同或不全相同(方法:H检验,又叫kruska1.-wa1.1.is法)配对设计秩和检验的编秩(注意正负号的问题):H0:总体中位数为0;H1.总体中位数不为0.编秩P91.按差值的绝对值从小到大编秩,若差值为0,舍去不计;若差值绝对值相等,则取平均秩次。P93基本思想区组设计资料的秩和检验(方法:M检验,又称friedman秩和检验)秩和检验的思想和适用范围(
14、简答题)1,等级资料2,定量资料,但数据某一段或两端无确定数值3,定量资料,但数值的分布是极度偏态的4,定量资料,但各组离散程度相差悬殊,即使经过变量变换,也难以达到方差齐性5,定量资料,但分布型尚未确知,此时可先用秩和检验法进行分析6,兼有等级和定量性质的资料秩和检验的优缺点:(摘要)如果定量资料不满足t检验的条件而仍用t检验,则检验功效同样会降低。第十章两指标间的直线相关相关关系:当两个数借变量之间出现如下情况:当一个变量增大时,另一个变量也随之增大(或随之减小),我们称这种现象为共变,也就是两变量有相关关系直线相关系数:又称积差相关系数,简称相关系数,是表达两变量间线性相关的程度和方向的
15、一个统计指标。样本的相关系数用符号r表示,总体相关系数用希腊字母P表示。公式:P108相关系数的示意图作了解相关系数的假设检验:检验步骤:HO无相关关系;H1.有相关关系注意自由度的计算,下结论的时候要注意写明是“正相关”还是“负相关”。相关系数取值范围是-1到1的闭区间。当对相关系数r作Z变换时,原来的偏性几乎消失(见P1.Io-III)相关分析的正确应用:1,相关关系是一种共变关系。2,充分利用散点图。3,识别离群值。4,排除资料的间杂性。(详见P117-118)第十一章两指标间的直线回归(计算)A直线回归方程的一般表达式:y=+8X,其中ab是决定回归直线的两个参数,a为回归直线在Y轴上
16、的截距,b为回归系数,即回归直线的斜率。经典的估甲数ab的方法是最小二乘法。=2=金=歹-应(X-X)IXX注意:所绘直线必然通过(Xj)11.3回归系数和回归方程的意义及性质(重点)P121SyX为剩余标准差,常用于评价回归方程的拟合精度。越小说明拟合度越好。2y(y-y)SyX=In211.7直线回归的区间估计P125直线回归与直线相关的区别及联系P131(可能是大题)回归分析的正确应用:1,作直线回归分析要有实际意义。2,充分利用散点图。3,回归系数的统计学意义。4,内插和外推,5,应用条件(线性、独立、正态、等方差)第十三章研究设计基本原则:对照、随机、重复混杂因素常用的两种处理办法:排除、改为修饰因素。对照组的条件:对等、同步、专设。研究对象的随机化,具体体现在如下的三个方面:1,抽样随机。2,分组随机。3,实验顺序随机最小样本含量的影响因素(8个方面):数据种类、指标间差值、变异度、相关程度、研究设计质量、设计方法、各组例数分配、所定义QB水准