《医学统计学复习知识点汇集.docx》由会员分享,可在线阅读,更多相关《医学统计学复习知识点汇集.docx(21页珍藏版)》请在三一办公上搜索。
1、医学统计学复习知识点汇集正态分布:随着观察例数标准误sx=s/n率的标准误sp=p(1-p)/n t检验的注意事项: 逐渐增多,组段不断分细,直方图顶端的连线就会逐渐形率的标准误的估计值要有严密的抽样设计,随机、均衡、可比。选Sp=p(1-p)/n 成一条高峰位于中央,两侧逐渐降低且左用的检验方法必须符合其适用条件。单侧检验和双侧检验,单侧Nn数学上的正态分布。 检验的界值小于双侧检验的界值,因此更容易拒绝,犯第标准误越小,表示抽样误差越小,样本平均数对总体平均错误的可能性大。假设检验的结论不能绝对化。不变异系数:是相对数估计越可靠。 能拒绝H0,有可能是样本数量不够,拒绝H0,有可能犯数没有
2、单位,用来比较度量单位不同或均数相差悬殊的两t分布:总体均数可信区间估计: 第类错误。正确理解P值与差别有无统计学意义。组或多组资料间的变异度。 S未知且n小时,按分布原理计P越小,CV=100%不是说明实际差别越大,而是说越有理由拒绝H0,x算可信区间。X-t sm50,果”变量:进行搜集资料时,都要有明确的观察单的可信区间;检验水准人为规定,是相对的,报告结论时应列出检验统位,然后对每个观察单位的某项特征进行观测,这种被观X-ua/2X,X+ua/2X 计量和P值的确切范围。注意是单侧检验还是双侧检察单位的特征称为变量。 验。 总体率的估计: 总体:总体是根据研究目的确定的同质研究对象中所
3、有观查表法:当样本含量n50,特别是p很接近于0或假设检验的步骤:建立假设和确定检验水准:根察单位某种变量值的集合。 1时,按二项分布原理估计总体率的可信区间,可根据样据实际情况确定单、双侧检验,建立假设,确定检验水准;样本:样本是从总体中随机抽取部分观察单位选定检验方法和计算统计量:根据设计的类型及研性),其变量值的集合。 近态近似法:当样本含量n足够大,且np5且究目的选择合适的检验方法并计算出对应的统计量;概率:是描述随机事件发生的可能性大小的量,n(1-p)5,样本率p的抽样分布近似正态分布,总体率的确定P值并做出推断结论。若tt,v,则P,按检验统计学上用符号“P”来表示。 可信区间
4、(p-uS,p+uS) 水准,拒绝H0,接受H1,尚可认为差异显著有统计学意a/2pa/2p误差:指测定值与真实值或研究结果与实际情况之间的差义;相反则差异不显著,无统计学意义。 别,有系统误差、随机测量误差和抽样误差。 已知:n=,p= 应用相对数时的注意事项有哪些? 参数:描述总体变量值特征的指标,一般未p(1-p) 正确区分分子、分母,且计算相对数的分母不宜过sp=知,需通过样本指标估计,用希腊字母表示。 n小;观察例数过小时抽样误差较大,计算的相对数往往不统计模型:指以概率论为基础,采用数学np=?5 n(1-p)=?5 稳定,可靠性差。所以当观察例数较少统计方法建立的模型.常用的这类
5、模型有:标准差模型,回归总体率的可信区间 (p-1.96S,p+1.96S)时,一般以绝对数表示为好,如以相对数表示,应给出其pp模型. 可信区间。分析时不能以构成比代替率;对观察可信区间:是按一定的概率100%实际准备的药物:求出的上下限分别乘以总n。 单位数不等的几个率,不能直接相加求其平均率;资估计总体均数所在的范围,亦称估计区间。常取的可信度正态分布、二项式和泊松分布的关系: 对样本率的比为95%和99%。 二项分布:对只具有两种互料的对比应注意可比性;要正确选择分子卡方检验:是一种用途很广的假设检测方斥结果的离散型随机事件的规律性进行描述的一种概率较应遵循随机抽样,要做假设检验;和分
6、母的数值,要能说明事物的特点和性质;计算构法,适用于分类变量资料中推断两个或多个总体率之间有无差别,两个分类指标之间有无相关关系的二项分布的极限形式。当v=时,t分布即为u分布,趋成比也可以是划分为各组间的定量指标资料,同一事物各组成部分的构成比之和应为1或100%。 检验以及检验频数分布的拟合优度。 向正态分布。 样本例数:又称样本含量,样本大小,指样正态分布的特征:正态曲线在横轴上方均数处最高;以可信区间与参考值范围的区别: 参考值范围是指同质本中所包含的观察单位数。 均数为中心,左右对称;正态分布有两个参数,即均数意义、计算公式和用途均不同。总体内包括百分之几十个体值的估计范围。而可信区
7、间是四分位数间距:为上四分位数QU和标准差,越大,曲线沿与下四分位数QL之差。其间包括一组观察值的横轴越向右移动;越大,曲张越平阔;正态分布在1指在百分之几十的可信度估计的总体参数的所在范围。一半,可看成是中间50%观察值的极差。其数值越大,变处各有个拐点;正态曲线下的面积分布有一定的规律。 同样的百分之几十,参考值范围是样本范围,可信从意义异度越大,反之,变异度越小。常用于描述偏态频数分布t分布的特征:以0为中心,左右两侧对称的单峰型分区间是指可信度范围,二者有着本质的不同。来看,95参考值范围是指同质总体内包括95个体值的及分布的一端或两端无确切数值资料的离散程度。 布;t分布曲线的变化与
8、自由度的大小有关,自由度v越估计范围,而总体均数95可信区间是指按95可信度全距:亦称极差,为一组同质观察值中最大值与小,则t值越分散,曲线越低平;自由度v逐渐增大时,估计的总体均数的所在范围。从计算公式看,若指标最小值之差。它反映了个体差异的范围,描述定量资料的则t分布逐渐逼近正态分布。当v=时,t分布即为u分变异度大小。 服从正态分布,95参考值范围的公式是:1.96s。总布。t=(X-m)/s s=s/n XX频数表的用途和基本步骤:揭示资料的分布特征和分布类型;便于进一步计算指标和分析处理;标准正态分布与t分布有何异同? 体均数95可信区间的公式是:。前者用标准答:相同点:t分布和标准
9、正态分布都是以差,后者用标准误。前者用1.96,后者用为0.05,自由便于发现某些特大或特小可疑值。 基本步骤:求出极差;确定组段,一般设8150为中心的正态分布。标准正态分布是t分布的特例从用途上看,可信区间用来估计总。不同点:t分布为抽样分布,u分布为体均数,参考值范围用来判断观察对象的某项指标是否正个组段;确定组距;组距=R/组段数,但一般取一方由度是无限大时)理论分布;t分布比标准正态分布的峰值低,且尾部翘得便计算的数字;列出各个组段并确定每一组段频数。 常。 更高;t分布受自由度大小的影响,随着自由度的增大,统计工作的步骤:设计;搜集资料;来源:医简述检验假设与可信区间的联系与区别。
10、 逐渐趋近于标准正态分布;t分布有无数条曲线,而u分学领域的统计资料主要来自三个方面,统计报表,经常性 答:可信区间用于推断总体参数所在的范围,假工作记录,专题调查或专题实验;要求:统计学对原始资布只有唯一一条曲线。 设检验用于推断总体参数是否不同。前者估计总体参数的料的要求是完整、准确、及时;贮存:注意资料的时效性、直线回归方程的应用: 大小,后者推断总体参数有无质的不同。可信区间也定量描述两变量之间的依存关系;利用回归议磁盘备份等。整理资料:检查核对准确性和完整性,可回答假设检验的问题。但可信区间不能提供确切的P值利用回归议程进行统计控制。 设计分组,拟定整理表,归表。分析资料统计分析包程
11、进行预测;范围,只能给出在水准上有无统计意义。可信区间括统计描述和统计推断。 还可提示差别有无实际意义。 应用直线回归的注意事项: 计量资料:集中趋势作回归分析要有实际意义;直线回归分析的资中位数、众数和调和均数,是描述一组同质观察值的平均料,一般要求因变量Y是来自正态分布总体的随机变量,也可以是精确测量和严格水平或中心位置的指标)离散趋势:极差、四分自变量X可以是正态随机变量,进行回归分析时,应先绘制散点图,如提位数间距、方差、标准差和变异控制的值。示有直线趋势,可作线性回归分析,否则应考虑作数据转系数。 对离群值应检查核对,予以修计数资料:相对数回归直线不要外延。 比、动态数列) 特殊要求
12、,不受总体分布的限制;对数据的要求不严,假设检验中和P的区别何在? 对某些指标不便准确测定的资料也可应用;方法简便,区别:含义不同:标准差S表示观察值的变异程答:和P均为概率,其中是指拒绝了实际上成立的易于理解和掌握。缺点是如果对符合参数检验的资料用了度,描述个体变量值之间的变异度大小,S越大,变H0所犯错误的概率,是进行统计推断时预先设定的一个小量值越分散;反之变量值越集中,均数的代表性越非参数检验,因不能充分利用资料提供的信息,会使检验概率事件标准,P值是由实际样本获得的,在H0成立的强。标准误S估计均数的抽样误差的大小,是描述样本均效能低于非参数检验;若要使检验效能相同,往往需要更前提条
13、件下,出现等于及大于现有样x大的样本含量。 本获得的检验统计量的概率。在假设检验中通常是将P与数之间的变异度大小,标准误越大,样本均数与总体均数简要回答进行非参数统计检验的适用条件。 对比来得到结论,若P,则拒绝H0,接受H1,有间差异越大,抽样误差越大;反之,样本均数越接近总体答:资料不符合参数统计法的应用条件与n的关系不同: n增大时,正态分布、且方差相等)或总体分布类型未知;等级不拒绝H0,无统计学意义。尚不能认为不同或不等。 S趋于,标准误减少并趋于0。资料;分布呈明显偏态又无适当的变量转换方法使之假设检验中如何确定P值?简述P值的含义。 用途不同:标准差表示x的变异度大小、计算变异满
14、足参数统计条件;在资料满足参数检验的要求时,答:求出检验统计量后,可通过统计用表直接查出P系数、确定医学参考值范围、计算标准误等,标准误用于应首选参数法,以免降低检验效能。 值。P值是指从H0所规定的总体中做随机抽样,获得等估计总体均数可信区间和假设检验。联系:二者均为变异于及大于现有样本获得的检验统计量的度指标,样本均数的标准差即为标准误,标准差与标准误简述卡方检验的基本思想和用途是什么? 2答:基本思想:x值反映了实际频数与理论频数的吻概率。 成正比。 2合程度,若检验假设H0成立,实际频数与理论频数的差值什么是两类统计学错误?二者有何联系? s 标准差:(X-X) 标准误:2sX=s=会
15、小,则x值也会小;反之,若检验假设H0不成立,实答:由于样本的随机性,假设检验中作出的结论可能n-1n际频数与理论频数的差值会大,则x2值也会大。主要用来会犯两类不同类型的错误:I型错误和II型错误。I型错误简述直线相关与回归的区别与应用。 推断两个总体率间或者构成比见有无差别;多个总体率间是拒绝了实际上成立的H0,即“弃真”;II型错误是不拒答:区别:资料要求不同,相关要求两个变量是或构成比间有无差别;多个样本率比较的x2分割;两个分绝实际上不成立的H0,即“存伪”。理论上犯第一类错误双变量正态分布;回归要求应变量Y服从正态分布,而自类变量之间有无关联性以及频数分布拟合优度的x2检验。 的概
16、率为,假设检验时可根据研究者的要求来确定;犯变量X是能精确测量和严格控制的变量。统计意义不用途:推断两个总体率间或者构成比见有无差别;多第二类错误的概率为,它只有与特定的H1结合起来才同,相关反映两变量间的伴随关系这种关系是相互的,对个总体率间或构成比间有无差别;多个样本率比较的x2分有意义。值的大小很难确切地估计,但知道在样本含量等的;不一定有因果关系;回归则反映两变量间的依存关割;两个分类变量之间有无关联性以及频数分布拟合优度不变的前提下,越小,越大,反之,越大,越小。系,有自变量与应变量之分,一般将“因”或较易测定、的x2检验。 同时减少和的唯一方法是增加样本含量,因为增加了变异较小者定
17、为自变量。这种依存关系可能是因果关系或行X列表卡方检验的注意事项: 样本含量后,均数的抽样误差小,样本均数的代表性强,从属关系。分析目的不同,相关分析的目的是把两变2答:X检验要求理论频数不宜太小,否则将导致也就是样本均数较接近总体均数,因而可使犯第一类错误量间直线关系的密切程度及方向用一统计指标表示出来;偏性。一般认为行X列表资料中不宜有1/5以上的格子理和第二类错误的概率同时减少。称为检验效能或把回归分析的目的则是把自变量与应变量间的关系用函数论数小于5,或有一个格子理论数小于1。处理方法:最握度。 公式定量表达出来。 好的方法是增加样本例数,以增大理论频数;且精确概率当多元回归方程无法用
18、专业知识解释时,怎么联系:变量间关系的方向一致,对同一资料,其法;进行合理的合并;删除理论频数太小的行和列,后两办? r与b的正负号一致。假设检验等价,对同一样本,tr=tb,种方法将损失一定的信息并影响样本的随机性。 答:在多元回归分析时,特别是当回归结果难以用专由于tb计算较复杂,实际中常以r的假设检验代替对b的单向有序列行X列表的统计处理:当效应按强弱分2业知识解释时,提醒注意共线性诊断,找出存在共线性且检验。相关和回归可以相互解释,相关系数的平方r(又为若干个级别,试验结果整理为单向有序行列表,在比较不重要的那些自变量,剔除出方程,另行回归分析。常用称决定系数)是回归平方和与总的离均差
19、平方和之比,故回各处理组的效应有无差别时,宜用秩和检验或Ridit分析。 方差膨胀因子、容许值和特征根系统三个共线性诊断指标归平方和是引入相关变量后总平方和减少的部分。对当多个样本率比较的X2检验。结论为拒绝H0,只能来确定多元共线程度。 于II型回归,r与b值可相互换算,b=rl/l。 认为各总体率或总体构成比之间总的说来有差别,但不能yyxxT检验的应用条件:当样本例数n较小时,说明它们彼此间都有差别,或某两者间有差别。若要进一简述相关系数和回归系数的联系与区别。 要求样本来自正态分布总体,作两样本均数比较时还要求步解决此问题,可用卡方分割法。 答:区别:两种系数的意义不同:回归系数是表两
20、样本的总体方差相等。 明两个变量之间数量上的依存关系,回归系数越大回归直简述方差分析的基本思想、应用条件、应用范围U检验:样本含量n足够大,或n虽小但总体标线越陡峭,表示应变量随自变量变化越快;相关系数是表及工作步骤。 准差已知时的样本均数与总体均数的比较、成组设计两答:基本思想就是根据试验设计的类型,将全部测量明两个变量之间相关的方向和紧密程度的,相关系数越样本均数的比较。 大,两个变量的关联程度越大。r与b有区别,回归值总的离均差平方和及其自由度分解为两个或多个部分,正态性检验的意义:判断资料是否服从正态分布,或除随机误差作用外,每个部分的变异可由某个因素的作用系数b表示X每增一个单位,Y
21、平均改变b个单位;样本是否来自正态分布总体,需进行正态性检验加以解释,如组间变异SS组normality)。正态分布有两个特征:对称性关关系的密切程度与相关方向。计算公式不一样间可有处理因素的作用加以解释。通过比较不同变异来源和正态峰。 取值范围不一样:-的均方,借助F分布做出统计推断,从而推论各种研究因b=lxy/lxx,r=lxy/lxxlyy。正态性检验的方法:一类是对偏度和峰度来评定,常素对试验结果有无影响。 b+,-1r1。单位不同:b有单位,r没有单,效率较高;另一类是用一个应用条件:各样本是相互独立的随机样本,均服矩法位。联系:(1) r与b值可相互换算,b=rl/l;(2) r
22、从正态分布;相互比较的各样本的总体方差相等,即指标来综合评定,以W检验法效率较高。g1为偏度系数yyxx,g2为峰度系数具有方差齐性。 与b正负号一致;r与b的假设检验等价;回归。 应用范围:分析比较两个或多个样本均数;分析两个可解释相关。相关系数的平方r2(又称决定系数)是回归平或多个研究因素的交互作用;回归方程线性假设检验;多两样本方差的齐性检验:用F检验。 方和与总的离均差平方和之比,故回归平方和是引入相关元线性回归分析中偏回归系数的假设检验;两样本的方差判别分析:是根据一批已知类别的样品多指标观察数据,变量后总平方和减少的部分。 齐性检验等。 制定出一个分类标准,以指导对未知类别煌新个
23、体归类的二项分布的应用条件: 工作步骤:建立检验假设,确定检验水准。H0:多元统计分析方法。 答:各观察单位只能具有相对立的一种结果,属于两i组资料的总体均数相等,= H1: i组资料的总体12i协方差分析:是把直线回归分析与方差分析结合焉的一分类资料;已知发生某一结果的概率为,其相对结果的均不等或不全相等,各i不等或不全相等 =0.05 概率为,实际工作中要求是从大量观察中获得的计算统计量F值。F=MS组间/MS组内 确定P值,并做种统计分析方法,用来消除混杂因素对处理效应的影响,提高分析结果的真实性,属多元统计方法范畴。 比较稳定的数值;n个观察单位的观察结果互相独立。 出统计推断。以V1
24、和V2查F界值表,若FF0.01(v1,v2),思想:将因变量Y的残差分为两部分,即为修正均数间的举例说明泊松分布的特征及应用。 P0.05,按3)确定P值,做出推断结论。 检验水准,不拒绝H0,即根据本U=?2.58,P=40,T=5,2 (ad-bc)2nX=d-0 (a+b)(c+d)(a+c)(b+d)t=sd/nn=40,1T0.05,按n40或T3.84,P40时:2(b-c)2 n1+n2-2n1n2X=b+c确定P值,做出推断结论。 +2n1n2X23.84,P0.05,一般四格表资料的卡方检验: 按检验水准,不拒绝H0,可以(A-TRC)2nn认为?的差别无统计学意义。 X2= TRC=RC v=(行数-1)(列数-1)TRCn秩和检验: 注:n=40,T=5, (A-TRC)2 (1) 建立检验假设,确定检验水准。 X2= H0:?和?的?总体分布相同。 TRCH1:?和?的?总体分布不同。 n=40,1T5, (|A-TRC|-o.5)2 X2=(2) 计算统计量T值。 TRC1)编秩 将2组数据由小到大统一编秩,相同数据n40或T0.05,按=0.05检验水准,不拒绝H0,可以认为两者 的总体分布相同;若T值=界值或在界值范围外,P1.96,P0.05。按=0.05检验水准,拒绝H0,接受H1,可以认为两的分布位置不同。