统计学课件.ppt_三一办公31ppt.com

资源描述

《统计学课件.ppt》由会员分享，可在线阅读，更多相关《统计学课件.ppt（152页珍藏版）》请在三一办公上搜索。

1、Aspirin出品,此课件是我当年上完统计课以后考试前精心整理制作的。对课本上的内容进行了条理化和系统化，使之一目了然、层层展开，有利于同学们从整体上理解和把握统计学的方法和步骤。此课件的制作是一项费时费力的工作，尤其是其中大量公式的录入比较繁琐。但我乐在其中，因为收获远远大于付出。因此我将它和大家分享，如果它能对你的统计学成绩的提高有所帮助，我将感到莫大的欣慰，也算是我做为一名老山医人送给学弟学妹们的一份小礼物吧！另外，对于本课件的不足之处或者大家有更好的想法，欢迎大家对它进行进一步的修整，使之更加丰富和完善。,2008年11月22日,统计工作的基本步骤和方法,1.设计4.分析资料,医学

2、参考值的范围总体均数的估计总体率的估计总体平均数的估计,参数检验非参数检验（秩和检验）,统计描述统计推断,参数估计假设检验（原理注意事项）,点值估计区间估计,样本内部样本之间,直线相关直线回归,（区别与联系）,调查设计实验设计,复杂和特殊资料的分析方法,协方差分析多元线性回归分析Logistic回归分析生存分析,不考虑交互作用：完全随机设计、配对设计与配伍组设计、交叉设计、拉丁方设计考虑交互作用：析因实验设计、正交实验设计、均匀实验设计,（概述）,2.搜集资料,3.整理资料,第二章统计描述,数值变量资料集中趋势:均数,几何均数,中位数离散趋势:全距,四分位数间距,方差,标准差,变异系数(C

3、V)中位数计算:N为奇数时: X(N+1)/2N为偶数时(XN/2+XN/2+1)/2M=L+(N50%-fL)i/fM,双侧1s:68.27%1.96s:95%2.58s:99%单侧1.645s:95%2.326s:99%,计算相对数时的注意事项,分母不宜过小不能以构成比代替率观察单位数不等的几个率不能直接相加求其平均率比较相对数时应注意其可比性对样本率的比较应遵循随机抽样,并做假设检验,标准化法,目的:消除混杂因素的影响基本思想:将所比较的两组或多组资料的构成按统一的”标准”调整后,计算标化率,使其具有可比性,统计表,由标题,标目,线条,数字构成横标目位于表的左侧,通常为被研究的事物;纵标

4、目位于表的上端,为说明横标目的统计指标.线条:只保留顶线,底线,纵标目下线和合计上线,顶线与底线应略粗,表的左上角不宜用斜线.数字:用阿拉伯数字.同一指标的小数位数要一致并对齐;数字暂缺和无数字者分别以“”和“”表示，数字为“”者不应空项,统计图,制图的基本要求：标题列于图的下方除圆图外，图形长宽比例一般为：左右图例一般位于右上角，但不宜过多常用统计图条图：纵轴尺度必须从开始，一般要等距直条的宽度和间隔要一致一般按自然顺序排列，无自然顺序则按直条的高低顺序排列,圆图：由点开始，由大到小按顺时针方向排列，其它置最后线图：表示连续性资料在时间上的变化，或随另一现象而变动的情况直方图：表示连续性资料

5、的频数分布散点图,第三章抽样分布与参数估计,二项分布(p34),概率函数：均数和标准差：,图形特点：当.时，图形呈对称分布当.时，图形呈偏态分布；越远离0.5,其分布越偏，偏着n的增大，其分布逐渐趋于对称,Poisson分布,离散型分布研究单位时间、人群、空间内，某罕见事件发生次数的分布概率函数：应用条件：除时，图形近似正态分布；50时，图形为正态分布,第四章数值变量资料的假设检验,假设检验的原理,根据正态分布原理，当从正态分布总体中以固定随机抽样时，理论上，应该有的u 1.96;若进行一次抽样时， u 1.96的可能为5%。假设，在一次抽样研究中得出u 1.96,则p0.05,此为小概率事件

6、。依据“小概率事件在一次随机试验中认为不可能发生”的定理，可认为此样本不是来自该总体。,t检验,适用范围样本均数与总体均数的比较（未知且n50或n30）成组设计的两小样本均数的比较（n，n均小于30或50）配对设计的两样本均数的比较应用条件：当样本含量较小时，要求样本来自正态分布总体用于成组设计的两样本均数比较时，要求两样本来自总体方差相等的总体。,单样本t检验配对t检验两样本t检验,u检验,用于样本含量足够大(n50),或已知时,样本均数与总体均数的比较,成组设计的两样本均数的比较,单样本u检验两样本u检验,型错误和型错误,型错误拒绝了实际上成立的H0，概率为型错误不拒绝实际上不成立的H0，

7、概率为当样本含量不变时，越小，越大；反之，越大，越小。同时减少和的方法是增加样本含量1- 称为可信度1- 称为检验效能或把握度，其意义为：若H1成立，用此方法能发现差异的可能性。,0,1,判断正确,型错误,判断正确,型错误,假设检验结论的格式,例1：t=0.58,v=12-1=11,查表，得单侧t0.05,11=0.697,t0.05, 按=0.05的检验水准不拒绝H0,根据本资料尚不能认为该减肥药有效。例2：u=6.132.33,p0.01,按=0.05的检验水准拒绝H0,接受H1，该地健康男性与一般男性血色素含量的差别有统计学意义，可认为该高原地区健康男性血色素含量高于一般男性。,

8、第五章方差分析（F检验）,基本思想,将总变异分成组内变异和组间变异。其中组内变异又称为误差反映个体差异或抽样误差；组间变异可是是来自于抽样误差，也可能是因为处理因素不同造成的。若两组或多组资料是来自同一总体，则组间变异是由于抽样误差造成的，这时组间变异与组内变异的比值即统计量应接近，否则应该明显大于。,应用范围,两个或多个样本均数间的比较分析两个或多个因素间的相互作用回归方程的线性假设检验多元线性回归分析中偏回归系数的假设检验,多个样本均数比较的方差分析的应用条件,各样本是相互独立的随机样本。各样本来自正态分布总体。各总体方差相等，即方差齐。,完全随机设计资料的方差分析单因素方差分析总变异组

9、间变异组内变异（误差）配伍组设计资料的方差分析两因素方差分析总变异处理间变异配伍间变异误差,步骤,建立检验假设，确定检验水准0：组大白鼠的血清谷丙转氨酶浓度含量相等，即：：组大白鼠的血清谷丙转氨酶浓度含量不等或不全相等，即各i不等或不全等。0：各配伍组的血清谷丙转氨酶浓度相等：各配伍组的血清谷丙转氨酶浓度不等或不全相等。均等于0.05,2计算统计量值C=SS总=SS处理SS配伍SS误差SS总-SS处理-SS配伍v总= v处理= v配伍= v误差=MS处理=MS配伍=MS误差=处理误差配伍误差,确定值，做出统计推断以v1=3,v2=21,查界值表，得F0.01(3,21)=4.87,本例102

10、.98,0.01,按0.05的检验水准拒绝，接受，可认为各处理组的大白鼠血清谷丙转氨酶浓度不等或不全相等。以v1=,v2=21,查界值表，F0.01(7,21)=3.65,本例14.026,0.01,按0.05的检验水准拒绝，接受，可认为各配伍组的大白鼠血清谷丙转氨酶浓度不等或不全相等。,多个样本均数间的两两比较,Newman-Keuls检验（q检验）,步骤,建立检验假设，确定检验水准。：任两对比组总体均数相等，即A=B H1:任两对比组总体均数不等，即A=B0.052计算统计量q值将各组按样本均数从大到小的顺序排序并注明原组别计算各对比组均数的差值计算各对比组均数差值的标准误计算统计量q确定

11、组数a以组数和自由度查q界值表确定值，做出统计推断,第六章分类资料的假设检验,服从二项分布资料的假设检验,样本率与总体率的比较直接概率法用于0偏离0.5较远,且阳性数较小并作单侧检验时。根据概率函数直接计算概率，与检验水准比较。正态近似法用于0不太靠近0或1，且样本含量足够大；或n0和n（1-0）均大于5时。,两样本率的比较,服从Poisson分布资料的假设检验,样本阳性数与总体平均数的比较直接计算概率法用于0小于20，且样本阳性数较小并作单侧检验时！正态近似法用于0大于20时,两样本阳性数的比较当两样本阳性数均大于20时，可用u检验。两样本观察单位相同时两样本观察单位不同时,检验,应

12、用范围：推断两个或者多个总体率间或构成比间有无差别，多个样本率比较的分割，两个变量间有无关联性，频数分布拟合优度的检验。基本公式：,四格表资料的检验（用于两样本率的比较）四格表资料检验的专用公式四格表资料检验的校正公式,注意事项当n 40且所有的T5时，用基本公式或四格表专用公式。当n 40，但有1T5时，用校正公式。当n40或T1时，用四格表资料的Fisher确切概率法。H0：1= 2,配对四格表资料的检验（用于两种处理的比较）其特点是对样本中各观察单位分别用2种方法处理，然后观察 2种处理方法的计数结果。基本公式：（b+c）40时（b+c）40,+,-,+ a

13、 b,- c d,行列表资料的检验专用公式: 多个样本率的比较 H0:1=2=3样本构成比的比较 H0:两组XXX的总体构成比相同双向无序分类资料的关联性检验 H0:两种XXX间无关联 Pearson列联系数,注意事项一般认为,行列表中各格的理论频数不应小于1,并且1T5的格子数不应超过格子总数的五分之一若出现上述情况,可通过以下方法解决:增加样本含量根据专业知识,将理论频数太小的行或列删除或合并改用Fisher确切概率法有序的行列表资料不宜用检验。,多个样本率比较的分割法多个实验组间的两两比较实验组与同一对照组的比较,RC表的分类及其检验方法的选择双向无序行列表资料的检验单向有序分

14、组变量有序，指标变量无序行列表资料的检验分组变量无序，指标变量有序秩和检验或Ridit分析双向有序属性相同一致性检验（Kappa检验）双向有序属性不同若研究目的为分析不同年龄组患者疗效间有无差别时，可把它视为单向有序资料，选用秩和检验。若研究目的为分析两个有序分类变量间是否存在相关关系，宜用等级相关分析或Pearson积矩相关分析。若研究目的是分析研究两个有序分类变量间是否存在线性变化趋势，宜用有序分组资料的线性趋势检验。,第七章非参数检验,优点适用范围广，不受总体分布类型的限制对数据的要求不严方法简便，易于理解和掌握缺点若对符合参数检验的资料用了非参数检验，因不能充分利用资料提供的信息，

15、会使检验效能低于参数检验，若要使检验效能相等，往往需要更大的样本含量。,配对设计的符号秩和检验(wilcoxon)配对设计的两样本的比较单一样本与总体中位数比较成组设计两样本比较的秩和检验(wilcoxon)原始数据的两样本比较频数表资料（或等级资料）的两样本比较成组设计多样本比较的秩和检验(H检验/K-W检验)原始数据的比较频数表资料的比较多个样本间两两比较的秩和检验(t检验)随机区组设计资料的秩和检验(M检验)原始数据的比较多个样本间两两比较的秩和检验,配对设计的符号秩和检验（P92）,配对设计的两样本的比较建立检验假设，确定检验水准H0：XXX差值的总体中位数为零，即Md=0计算统计量T

16、值求各对的差值编秩按差值的绝对值由小到大编秩，并依差值的正负给秩次冠以正负号。编秩时，若差值为0，舍去不计；若差值的绝对值相等，则取其平均秩次。求秩和并确定统计量T分别求出正、负秩次之和，可任取正秩和或负秩和为统计量T。,确定P值，做出统计推断以T值查“T界值表”，若检验统计量T值在T界值范围内，则P值大于相应的概率水平；若T值在T界值范围外或等于界值，则P值小于或等于相应的概率水平。*n25时，可用正态近似法作u检验若相同秩次较多时（不包括差值为0者），应计算校正的u,单一样本与总体中位数的比较H0:XXX的总体中位数等于XX,M=XX;H1:MXX统计量的计算同上,成组设计两样本比较的秩和

17、检验,原始数据的两样本比较H0:XXX与XXX的总体分布相同计算统计量编秩:将两组数据由小到大统一编秩求秩和并确定统计量T:两组秩次分别相加。若两组例数相等,则取任一组的秩和为统计量;若两组例数不等，则取例数较小者为n1，其对应的秩和为统计量T。确定P值，做出推断以n1,（n2-n1）和检验统计量T值查“T界值表”确定P值。若n1或n2-n1超过10，可用正态近似检验。若相同秩次较多时（比如超过25%），应进行校正。,H0：两种XXX的总体分布相同。计算统计量编秩：各等级的合计人数各等级的秩次范围各等级的平均秩次求秩和并确定统计量：以各等级的平均秩次分别乘以两组相应相应等级的例数，再分别求秩和

18、得到T1、T2。取例数较小者作n1，其秩和作为统计量T。,频数表资料（或等级资料）的两样本比较,成组设计多样本比较的秩和检验（K-W检验或H检验）,原始数据的比较H0：X个总体的分布位置相同计算统计量H值编秩：将各组数据统一由小到大编秩。求秩和并计算统计量H确定P值，做出推断结论以N和n1,n2,n3 n i查H界值表。相同秩次较多时（比如超过25%）,计算校正值。,频数表资料的比较H0:X个XXX的总体分布相同。计算统计量H：同“频数表资料的两样本比较”。,多个样本间两两比较的秩和检验,随机区组设计资料的秩和检验（M检验）,原始数据的比较H0：XXX的总体分布相同。H1： XXX的总体分布不

19、同或不全相同。计算统计量M值编秩：将各配伍组内数据由小到大编秩，相同者取平均。求秩和并计算统计量：求各处理组的秩和Ti;然后计算M值：确定P值，做出推断结论：以处理组数k和配伍组数b查M界值表，得出P值。当处理组数k或配伍组数b超出M界值表的范围时,可采用近似卡方分布法。,多个样本间两两比较的秩和检验(q检验)将各处理组的秩和由小到大排序,并列出各对比组及其包括的组数.计算统计量q 式中,k 为处理组数,b 为配伍组数。以=和组数a查q界值表，得P值。*多个样本间两两比较的总结,医学参考值的范围,正态分布法对数正态分布法百分位数法,总体均数的估计,未知且n小：按t分布的原理未知,但n足够大（）

20、，按正态分布原理已知：按正态分布原理,查表法当样本含量较小，如n，特别是p很接近于或时，按二项分布的原理用n和p查“百分率的可信区间表”。正态近似法当样本含量足够大，且样本率p或者1-p均不太小，如np与n(1-p)均大于时，样本率p的抽样分布近似正态分布。,总体率的估计,总体平均数的估计查表法50时，,参数检验,数值变量资料的假设检验样本与总体或两样本比较t检验u检验多样本比较方差分析（检验）分类变量资料的假设检验样本与总体或两样本比较符合二项分布的资料符合Poisson分布的资料多样本率、构成比、关联性的比较卡方检验,第八章直线回归与直线相关,直线相关,直线相关的概念,如果两个随机变量中，

21、当其中一个变量由小到大变化时，另一个变量相应的由小到大（或由大到小）变化，并且其相应变化的散点图在直角坐标系中呈现直线趋势，则称这两个随机变量存在直线相关。推断两个变量是否存在相关关系以及这种相关关系大小的分析方法就是直线相关分析，也称为简单相关分析。正相关、负相关、零相关、完全相关。,相关系数的意义及计算,直线相关系数（简相关系数）取值范围是在-1,1区间上。总体用表示，样本用r表示。,相关系数的假设检验,0：，即认为两变量间不存在直线相关。1：，即认为两变量间存在直线相关。计算统计量,总体相关系数的区间估计,对相关系数r作z变换估计z的可信区间对z的可信区间进行逆变换,直线相关分析时的注意

22、事项,在计算相关系数之前应首先利用散点图判断两变量间是否具有线性联系。当一个变量的数值人为选定时不宜作相关分析。作相关分析时，必须剔除异常点。相关分析要有实际意义，两变量相关并不代表两变量间一定存在内在联系。分层资料不宜盲目合并进行相关分析。不要把假设检验中显著性大小理解为相关程度的大小。,直线回归,直线回归的概念,根据一组实际观察值求解直线回归方程并应用直线回归方程来进行解释或预测的分析过程。,直线回归的分析步骤,绘制散点图求回归方程假设检验绘出回归直线求的可信区间统计预测、统计控制,线性回归模型的应用条件,线性应变量Y的总体均数与自变量X呈线性关系。独立任意两个观察单位之间相互独立。正态（

23、）对任意给定的X值，Y均服从正态分布。等方差（）在自变量X的取值范围内，不论X取什么值，Y都具有相同的方差。,回归参数的估计,“最小二乘法”残差平方和最小,回归方程的假设检验,方差分析基本思想：将应变量的总变异SS总分解成SS回归和SS剩余两部分，然后利用检验来判断回归方程是否成立。其中， SS回归是总平方和中可以用解释的部分。 SS回归越大，说明回归效果越好。0：，即认为与不存在直线关系。,计算公式：,回归系数的t检验,总体回归系数的区间估计,b服从均数为的正态分布的可信区间:,直线回归方程的应用,定量描述两变量之间的依存关系利用回归方程进行预报Y的点估计Y的置信区间个体Y值的容许区间利用回

24、归方程进行统计控制,直线回归分析的注意事项,做回归分析要有实际意义，不能把毫无关联的两种现象随意进行回归分析。另外，即使两个变量间存在线性关系，也不一定是因果关系。直线回归分析的资料，一般要求应变量Y是来自正态总体的随机变量，自变量X可以是正态随机变量，也可以是精确测量和严密控制的值。进行直线回归分析时，应先绘制散点图，散点图提示有直线趋势存在时，才可以作直线回归分析。剔除异常值。应注意回归方程的适用范围，回归直线不宜外延。,直线相关与回归的区别与联系,区别资料要求不同相关要求两个变量呈双变量正态分布；回归要求应变量服从正态分布，而自变量是能精确测量和严格控制的变量。统计意义不同相关反映两变量

25、间的伴随关系，不一定有因果关系；回归反映两变量间的依存关系，可能是因果关系或从属关系。分析目的不同相关分析的目的是描述两变量间的相互关系，并用一个定量的指标反映这种关系的方向和密切程度；回归分析的目的则是描述应变量与自变量的数量依存关系，从而可以进行统计预测和统计控制。,联系对同一资料，r与b的符号一致，都能说明两变量间关系的方向。相关系数与回归系数的假设检验是等价的。相关与回归可以相互解释。r2又称决定系数，可以用来衡量回归效果的优劣。,第九章协方差分析,协方差分析的基本思想,协方差分析是把线性回归分析与方差分析结合起来的一种统计分析方法。其基本思想是把那些影响研究变量Y的变量X看作协变量

26、,在作两组或多组均数Y1、Y2、Y3的假设检验前,先利用直线回归分析找出各组Y与协变量X的数量关系,求得在假定X相等时各组Y的修正均数,再用方差分析的方法来比较各组修正均数间的差别。,协方差分析的应用条件,Y的各样本来自方差相等的正态分布总体各样本回归系数b本身有统计学意义，且各样本回归系数相等。协变量是数值变量，且本身不受处理因素的影响。*协方差分析适用于协变量均数间差别不太大的资料，因此，协方差分析时最好先对协变量X均数间的差别作假设检验。,实验设计,第十章实验设计概述,实验设计的分类,动物实验设计临床试验设计社区干预试验设计,实验设计的基本要素,处理因素受试对象实验效应,实验设计的基本

27、原则,对照空白对照实验对照标准对照自身对照相互对照历史对照,（对照、随机、重复、均衡）,随机随机的内容：抽样和分组随机化分组的实施：随机数字表随机排列表计算机,重复有足够的样本含量影响样本含量大小的因素：假设检验中的类错误越小，n越大假设检验中的类错误越小，n越大处理组间差别越小， n越大总体标准差越大，n越大,均衡所谓均衡，就是各组的受试对象除接受的处理因素不同外，其它影响实验效应的非处理因素要基本相同。随机分组是保证各组均衡的重要手段。,第十二章常用实验设计方法,完全随机设计,特点,亦称单因素实验设计。该设计不考虑个体差异的影响，仅涉及1个处理因素，但可以有2个或多个水平。优点：设计和统

28、计分析方法简单易行。缺点：未考虑个体差异，效率低。,分析方法,数值变量资料两样本比较小样本时大样本时(两样本量均大于50) 用成组设计的两样本均数比较的u检验。多样本比较,两样本来自正态分布总体且总体方差相等,两样本来自非正态分布总体或总体方差不等,成组设计的两样本均数比较的t检验,变量变换,达到t检验的应用条件,达不到t检验的应用条件,成组设计两样本比较的秩和检验,各样本来自正态分布总体且各总体方差相等,各样本来自非正态分布总体或各总体方差不等或不全相等,完全随机设计的方差分析,变量变换,达到方差分析的应用条件,达不到方差分析的应用条件,成组设计多样本比较的秩和检验,分类变量资料两样本率的

29、比较根据条件，合理选用二项分布或Poisson分布资料的u检验、四格表资料的卡方检验、Fisher精确概率法。多个样本率（或构成比）的比较行列表资料的卡方检验或Fisher精确概率法。单向有序资料的比较若比较各样本的不同等级的疗效情况，可用秩和检验、Ridit分析、CPD分析、有序变量的logistic回归模型和有序变量的对数线型模型等。若比较各样本不同等级的构成情况，可用卡方检验。双向有序且属性不同资料的比较若分析不同年龄组患者疗效间有无差别时，可把它视为单向有序资料，选用秩和检验。若分析两变量是否存在相关关系时，可用等级相关分析或Pearson列联系数。若分析两变量是否存在线性变化趋势时，

30、可用线性趋势检验。双向有序且属性相同资料的一致性检验Kappa检验,配对设计与配伍组设计,优缺点,优点：考虑了个体差异对实验效应的影响，提高了统计效率。缺点：由于受配比条件的限制，有时难以将受试对象配成对子或配伍组。区组内即使有个受试对象发生意外，也会给统计分析带来困难。自身配对时，种处理因素施加于受试对象的顺序效应会混杂在实验效应中。,分析方法,配对设计若各对的观察值的差值服从均数为的正态分布，用配对设计的t检验；否则，用配对设计的符号秩和检验。配伍组设计满足方差分析的应用条件（来自正态分布，方差齐）随机区组设计的方差分析。不满足方差分析的应用条件变量变换,符合方差分析的条件,不符合方差分析

31、的条件,配伍组设计的秩和检验,交叉设计,目的,在自身配对设计基础上发展起来的。该设计考虑了一个处理因素（A、B两水平），2个与处理因素无交互作用的非处理因素（实验阶段和受试对象）对实验效应的影响。,适用条件及应注意的问题,处理因素只有2个水平，且2个非处理因素与处理因素间无交互作用。实验要求2个阶段之间必须安排一定的间隔时间，以便消除前一阶段的治疗措施的残留效应。两次观察的时间不能过长，处理效应不能持续过久。适用于病情较稳定、病程可以分阶段、短期治疗可见疗效的疾病。为消除患者的心理作用或防止研究者的暗示，一般多采用盲法。,优点,具备自身配对设计的全部优点，如减少个体差异的影响，节省样本含量等。

32、能控制顺序因素（实验阶段）对处理因素的影响。各受试对象均接受了实验因素和对照，符合医德要求。,统计分析,方差分析总变异=个体间+处理间+阶段间+误差秩和检验,拉丁方设计,设计的基本要求,必须是3个因素的实验，且3个因素的水平数相等。3个因素间是相互独立的，且无交互作用。各行、列、字母所得实验数据的方差齐。,设计步骤,根据主要处理因素的水平数，确定基本型拉丁方。将基本型型拉丁方随机化。规定行、列、字母所代表的因素与水平，通常用字母表示主要处理因素。,优缺点,优点行与列均为配伍组，因而可以用较少的重复次数获得较多的信息。双向误差控制，使观察单位更加区组化和均衡化，进一步减少了实验误差。缺点设计的要

33、求不易达到。当因素的水平数较少时，易受偶然因素的影响。为了提高精确度，可应用m个拉丁方设计。,分析方法,方差分析总变异=列间+行间+字母间+误差,析因实验设计,简介,析因实验设计是一种将2个或多个因素的各水平交叉分组安排实验的设计。它不仅可以检验各因素内部不同水平间有无差异，还可检验2个或多个因素间是否存在交互作用。总的实验组数等于各因素水平数的乘积。,优缺点,优点：高效率，可以分析各种组合的交互作用。缺点：分析的太全面，因而要求研究的因素数和水平数不宜过多。一般因素数不超过4个，水平数不超过3个。,分析方法,22析因实验设计222析因实验设计,总变异 v=n-1,总处理间 v=3误差 n-

34、4,A间B间AB间,111,v,总变异 v=n-1,总处理间 v=8-1误差,A间B间C间ABACBCABC,1111111n-8,v,（方差分析）,正交实验设计,简介,正交实验设计是利用一套规格化的正交表，使每次实验的各因素及其水平得到合理安排的高效多因素实验的实验设计方法。该设计常用于分析多个因素不同水平及个别因素间交互作用对某观察指标的影响。属于部分实验，只能分析各因素的主效应和个别的一级交互作用。,实验设计,正交表的符号Ln(Km)L表示正交表;n表示有n行,须安排n次实验;m表示有m列,最多容许安排因素和交互作用的个数;K表示每列中只有1、2、K个数字，即各因素的水平数。正交表的性质

35、每列中不同数字出现的次数相等。任两列同一横行的2个有序数对出现的次数相等。*以上两性质保证了正交设计的均衡性。正交表的分类相同水平的正交表、混杂水平的正交表正交表的选用根据研究目的和专业知识，确定实验的因素个数，并明确主要因素。根据各因素的水平数，确定选用哪类的正交表。根据因素个数、可能存在的交互作用、是否用方差分析处理数据等，确定选用多少列的正交表。正交表的表头设计把各个因素安排在所选正交表各列的过程。,分析方法,无重复测量数据的两水平正交实验设计方差分析H0：A1=A2;B1=B2;C1=C2;D1=D2;A,B因素间无交互作用总变异=A变异+B变异+C变异+D变异+AB交互作用的变异+误

36、差重复测量数据的两水平正交实验设计方差分析,第十四章多元线性回归分析,多元线性回归,了解几个自变量与因变量间的数量关系,模型与条件,Y与X1、X2、X3之间有线性关系。各观测值Y之间相互独立。对于任意一组自变量X1、X2、X3，应变量Y服从正态分布且方差齐。,参数估计,“最小二乘法”求出能使估计值Y和实际观察值Y的误差平方和为最小值的一组回归系数。,多元线性回归方程的假设检验,方程的假设检验（方差分析）H0：1=2=m=0H1：各总体偏回归系数不全等于0总变异=回归平方和+剩余平方和各偏回归系数的假设检验H0： i=0方差分析法计算Xi的偏回归平方和Ui，它表示模型中含有其它m-1个自变量的

37、条件下该自变量对Y的回归贡献。F=SSi/SS剩余T检验法*在多元线性回归方程中，各自变量的单位不同，其偏回归系数之间是无法直接比较的。因此需要对偏回归系数标准化，计算标准偏回归系数。,回归效果的评价,决定系数R2回归平方和占总平方和的比例，反映各自变量对因变量回归贡献的大小。复相关系数R决定系数的算术平方根。用于衡量因变量Y与各个自变量线性组合相关关系的密切程度。剩余标准差校正决定系数（考虑了自变量个数）,逐步回归分析,目的,从众多变量中，挑选出对因变量有显著作用的自变量，建立“最优回归方程”。,基本思想,在供选择的m个自变量中，依各自变量对因变量Y作用的大小，即偏回归平方和的大小，由大到小

38、把自变量依次逐个引入。每引入一个自变量，就对它进行假设检验。当P=时，将该自变量引入回归方程。新变量引入方程后，对方程中原有的自变量也要进行假设检验，并把贡献最小且退化为不显著的自变量逐个剔出方程。因此逐步回归的每一步前后都要进行假设检验，直至没有自变量能够进入方程，也没有自变量从方程中剔除为止。,多元线性回归的应用,影响因素分析估计与预测统计控制,第十五章 logistic回归分析,简介与模型,研究因变量为二分类或多分类观察结果与影响因素（自变量）之间关系的一种多变量分析方法，属概率型非线性回归。,偏回归系数的流行病学含义,ORj=expj OR为比数比。j时，j=0,表示因素j对疾病的发生

39、不起作用； j时，j0,表示因素j是一个危险因素； j时，j0,表示因素j是一个保护因素。,Logistic回归的分类,二分类资料多分类资料多项分类logistic回归模型或有序分类logistic回归模型。,非配比病例对照研究或队列研究,配对或配比资料,非条件logistic分析,条件logistic分析,Logistic回归模型的参数估计,参数估计最大似然估计优势比估计,Logistic回归的应用,流行病学危险因素分析临床试验数据分析分析药物或毒物的剂量反应,第十六章生存分析,概述,用途,随访资料是指对一批研究对象进行追踪观察所获得的有关其结局以及出现这种结局所经历的时间等方面的资料。随访

40、资料常因失访等原因造成某些数据不完全，需要用专门的方法进行统计处理，即生存分析的方法。,研究内容,对生存状况进行统计描述寻找影响生存时间的“危险因素”和“保护因素”估计生存率和生存时间长短，进行预后评价。,基本概念,生存时间定义：从某个起始事件开始到某个终点事件的发生所经历的时间，也称失效时间。特点：分布不易确定，一般不服从正态分布；生存时间的影响因素多而复杂且不易控制。数据类型完全数据截尾数据：尚未观察到研究对象出现反应时，即由于某种原因停止了随访，这种不完整的生存时间数据称为截尾值。截尾值出现的原因：失访失去联系退出意外死亡或改变治疗方案终止观察期结束时仍未出现结局,死亡概率、死亡率死亡概

41、率：指某单位时段期初的观察对象在该单位时段内死亡的可能性大小。q=某单位时段内死亡数该时段期初观察人数若该时段内有删失，则分母用校正人口数校正人口数期初观察人数删失数死亡率：指单位时间内研究对象的死亡频率或强度。m=（某单位时段内死亡数该时段平均人口数）,生存概率、生存率、生存函数、生存率曲线生存概率：某单位时段开始时存活的个体到该时段结束时仍然存活的可能性大小。P=1-q生存率：指研究对象经历t个时段后仍然存活的概率，即生存时间大于等于t的概率。生存函数：生存率相对于时间t的函数。又称累积生存概率。,中位生存期表示生存率等于50%的时间。,危险率函数指t时刻尚存活的研究对象死于t时刻之后一瞬

42、间的概率。危险率函数是生存分析的基本函数，它反映研究对象在某时点的死亡风险大小。,生存分析对资料的基本要求,样本由随机抽样方法获得，要有一定的数量。完全数据所占的比例不能过少，即截尾值不宜太多。截尾值出现的原因无偏性。生存时间尽可能精确。缺项要尽量补齐。,生存分析的方法,非参数法用于描述性或单因素分析乘积极限法，寿命表法参数法假定生存时间服从特定的参数分布半参数法主要用于分析影响生存时间和生存率的因素，属多因素分析方法，其典型方法为Cox模型分析法。,生存率估计的非参数法,乘积极限法主要适用于样本含量较小的未分组的原始资料。寿命表法适用于样本含量较大的频数表资料。,生存率比较的非参数法,时序检验法（对数秩检验）,Cox比例风险回归模型的提出,通常将危险率函数表达为基准危险率函数与相应协变量函数的乘积。当基准危险率函数已知时，此乘积模型为参数模型。在基准危险率函数未知的情况下估计模型参数的半参数方法为cox比例风险回归模型。,多个样本间两两比较的总结,方差分析中多个样本均数间的两两比较q检验卡方检验中多个样本率间的两两比较卡方分割法成组设计多样本比较的秩和检验中的两两比较t检验随机区组设计资料的秩和检验中的两两比较q检验,THE END,

展开阅读全文