统计学知识点(完整)复习资料重点.docx

资源描述

《统计学知识点(完整)复习资料重点.docx》由会员分享，可在线阅读，更多相关《统计学知识点(完整)复习资料重点.docx（10页珍藏版）》请在三一办公上搜索。

1、基本统计方法第一章概论1 .总体（Population）：根据研究目的确定的同质对象的全体（集合）；样本（Sample）：从总体中随机抽取的部分具有代表性的研究对象。2 .参数（Parameter）：反映总体特征的统计指标，如总体均数、标准差等，用希腊字母表示，是固定的常数；统计量（Statistic）：反映样本特征的统计指标，如样本均数、标准差等，采用拉戊字字母表示，是在参数附近波动的随机变量。3 .统计资料分类：定量（计量）资料、定性（计数）资料、等级资料。第二章计量资料统计描述1 .集中趋势：均数（算术、几何）、中位数、众数2 .离散趋势：极差、四分位间距（0R=P75-尸25）、标准差

2、（或方差）、变异系数（CP）3 .正态分布特征：X轴上方关于X=对称的钟形曲线；X=时，附取得最大值；有两个参数，位置参数和形态参数;曲线下面积为1,区间土附面积为68.27%,区间土L96M勺面积为95.00%,区间2.58ft面积为99.00%.4 .医学参考值范围的制定方法：正态近似法：Xual2SX百分位数法：P*-P97s.第三章总体均数估计和假设检验1 .抽样误差（SamplingEiTor）:由个体变异产生、随机抽样造成的样本统计量与总体参数的差异。抽样误差不可避免，产生的根本原因是生物个体的变异性。2 .均数的标准误（StaIldarderrorofMean,SEMy）.样本均

3、数的标准差，计算公式：又=品。反映样本均数间的离散程度，说明抽样误差的大小。3 .降低抽样误差的途径有：通过增加样本含量n；通过设计减少S。4 .f分布特征：单峰分布，以。为中心，左右对称；形态取决于自由度磁小，/值越分散，f分布的峰部越矮而尾部翘得越高；当遮近8,S灭逼近o,，分布逼近w分布，故标准正态分布是t分布的特例。5 .置信区间（COIIfideiIeClllterVaLC/）：按预先给定的概率（l-a）确定的包含总体参数的一个范围，计算公式：又%2,S又或又%/2,ySk95%。含义：从固定样本含量的已知总体中进行重复抽样试验，根据每个样本可得到一个置信区间，则平均有95%的置信区

4、间包含了总体参数。6 .假设检验的基本原理：小概率反证法的思想反证法：从问题的对立面（Ho）出发间接判断要解决的问题（H。是否成立。小概率事件：在Ho成立的条件下计算检验统计量，根据概率分布确定检验水准。下尸值大小，判断是否为小概率事件（通常P视为小概率事件，通常取0.05）,是则拒绝Ho,接受Hi；否则尚不能拒绝Ho。7 .假设检验一般步骤：建立假设（反证法，HO和H1）,确定检验水准（1）;计算统计量：尸；确定概率值尸，做出推断结论。8 .f检验需满足的条件：比较的两个样本相互独立、均服从正态分布。9 .尸的含义：是指从Ho规定的总体随机抽样，抽得等于及大于（或/和等于及小于）现有样本获得

5、的检验统计量（如八U等）值的概率。10 .I型错误（TyPeIerror）：拒绝了实际上成立的Ho,这类“弃真”的错误称为I型错误，I型错误的大小为检验水准Q。型错误（TyPeerror）：接受了实际上不成立的Ho,这类“存伪”的错误称为型错误，II型错误的大小用储示，1例示检验效能。a越小，然大，增大样本量可以同时降低41磔。11 .置信区间和假设检验的区别和联系：可以通过判断置信区间是否包含零假设，判断单样本均数是否来自己知的总体；置信区间不但能回答差别有无统计学意义，还可提示差别有无实际意义。假设检验可提供置信区间不能提供的信息，如P值和检验效能等。第四章方差分析1 .方差分析的基本思想

6、：根据研究目的和设计类型，把所有测量值的总变异按照处理因素和水平等分解成两部分（组内变异和组间变异）或更多部分，同时把对自由度相应进行分解，再进行比较，评价由处理因素引起的变异是否具有统计学意义。2 .方差分析的应用条件：各样本是相互独立的随机样本，均来口正态分布的总体，各样本的总体方差相等（具有方差齐性）。3.方差分析表:变异来源SSVMSFP组间变异ag-1a(g-l)MS沮间/MS组内组内变异bN-gb(N-g)总变异a+bN-I4.g=2时，随机区组设计的方差分析与配对设计资料t检验等价，=Fo5 .多个样本均数间的多重比较：LSD“检验，即最小显著差异Z检验，适用于一对或几对在专业上

7、有特殊意义的样本均数间的比较；Dililnett-t检验：适用于g-1个实验组与一个对照组均数差别的多重比较：SNKq检验：适用于多个样本均数两两之间的全面比较。第五章计数资料的统计描述1 .相对数的类型：强度相对数（率，如死亡率、发病率等）；结构相对数（构成比）：相对比（如性别比等）2 .应用相对数的注意事项：结构相对数不能代替强度相对数：计算相对数应有足够的数量；正确计算合计率；注意资料的可比性；对比不同时期资料应注意客观条件是否相同；样本率（或构成比）的抽样误差。3 .标准化率（StandardiZatiolIrate）：采用标准化法进行计算，消除数据内部构成的差异，使标化后的合计率具有

8、可比性，这种经过标化后的合计率称为标准化率。4 .标准化率的注意事项：只适用于内部构成不同，影响总率的可比性的问题；选择的标准不同，计算得到的标准化率也不同，多个标准化率比较时，应选同一标准；标准化率已经不再反映当地的实际水平；样本标准化率是样本值，存在抽样误差。比较两样本标准化率，当样本量较小时，需做假设检验。第六章几种离散型变量的分布及应用1 .二项分布X8（,力的适用条件：每次试验只发生两种对立的可能结果之一；每次试验产生某结果的概率涸定不变；重复试验是相互独立的。2 .二项分布的性质：阳性次数X的总体均数（=乃）、标准差（Cr=J乃（1一乃）；样本率p的均数/=兀）、标准差（Sp=PO

9、P,，即率的标准误）。二项分布的正态近似条件：np和均大于5。3 .泊松分布XPa）的性质：总体均数/1和总体方差2相等；当很大，乃很小，且卬=尤为常数时，二项分布近似泊松分布；1220时，泊松分布近似正态分布；泊松分布具备可加性。第七章公检验L/检验的基本思想：根据/分布特征，通过比较实际频数与理论频数的差异，确定在Ho成立的条件下该差异由抽样误差造成是否为小概率事件，进而判断差异是否具有统计学意义。/值反映了实际频数与理论频数的吻合程度。2 .RxC列联表中的各格子Tl,并且1lc:yAnalysisofViIriiInCUSuinofN4canSourceModelDF1Squares0

10、.74542SquareFViilguPrAF0.74542GQlO.O3O3Iirror80.863190.10790ICorrectcci91.60861RootIVfSE0.32848R-Sqtixire0.4634/DepcndentMeaLn4.57300AdjR-Sq0.3963/C,oefFVar7.l3O4/ParameterHstimates/ParameterStandard-IIntercepta12.994220.609584.910.0012b】0.997330.379452.630.0303PearsonCorrelationCoefficients,M-IOPro

11、brunderHO：Rho-OXy1.000000.680730.0303y0.680731.000000.0303八二L”(1)线性回归方程：y=2.99422+O.99733X;(2)该线性回归模型的统计学检验结果：模型的方差分析统计量尸=6.91,P=0.03031,说明凡是一个危险因素；ORjO,说明凡是一个保护因素，OK/的l-可信区间为：exp（ZxuaflSh）3 .1OgiStiC回归模型假设检验的方法：似然比法（G=2（lnL1-ln4）,适合单个和多个自变量的假设检验）、WaId检验（=幺或/2=一纥，适合单个自变量的假设检验）和计分检验（适合样本量较小的情况）。变量筛选的

12、方法：前进法、后退法、逐步法。4 .条件logistic回归：适用于1:M配对设计资料，条件似然函数估计的是在M+1个观察对象中恰好第一个观察对象属于病例组的条件概率，它只估计了表示危险因素作用的Sj,表示匹配组效应的常数项自被消去。5 .有序logistic回归基于累积概率构建回归模型，g个类别的因变量Y的有序logistic同归包括g-1个方程，这些方程的回归系数均相同，差别主要体现在各方程的常数项凡不同。在对因变量Y赋值时，应将专业上最不利的等级赋最小值，最有利的等级赋最大值。6 .多分类logistic回归是二分类logistic同归的扩展，即选择一个参照类别，拟合剩余各类别相对于参照

13、类别的logistic同归模型。第十七章生存分析1 .生存分析的数据特点：（1）同时考虑生存时间和生存结局；（2）通常含有删失数据（censoring,可能的原因：研究截止但终点事件仍未出现；失去联系或其他原因导致失访；死于其他“事件”）；（3）生存时间的分布通常不服从正态分布。2 .统计学分析方法：由于生存时间一般不呈正态分布，且需考虑是否为删失值，所以生存分析有其独特的统计方法。（1）非参数法：生存率的估计采用K叩Ian-Meier法、寿命表法（频数表资料）；两组或多组生存率的比较，常用logrank检验（时序法，权重=1,对观察后期差别敏感）和BreSknV检验（权重以.=，为期初人数，

14、随生存时间增大而逐渐减小，BreSk）W检验给观察早期差别更大权重，故对观察早期差别敏感）。（2）半参数法:多因素生存分析常采用Cox比例风险模型（前提条件:假定风险比值h（t）h0（t）为固定值，即协变量对生存率的影响不随时间的改变而改变。检验此前提的方法：分类协变量每组的K-M生存曲线无交叉；协变量与生存时间的交互项无统计学意义等。其参数估计方法为最大似然法）。（3）参数法：指数分布法、WeibUlI分布法等回归模型。3 .多元线性回归、IogiStiC回归和Cox回归的相同点和不同点（1）相同点：自变量可为连续变量和多分类变量，多分类变量需哑变量化，哑变量在模型中是一个整体，必须同时“进

15、”同时“出”；自变量间存在较强相关关系时可能导致多重共线性问题；自变量间可能存在交互作用，模型中通常采用自变量的乘积作为交互项；均可采用逐步回归筛选变量；均可进行影响因素分析、混杂因素校正、预测分析等。（2）不同点：.少/备元线性回归JOgEtiC回归和Cox回归的求J塞元线性回归logistic回归Cox回归应变量及分布连续变量分类变it两分类变量和生存时间正态分布二项无特定要求剧失不允许不允许允许模型结构Y=国+Z禺Xjlogit(p)=禺+Xj(r)=fl(t)cxp(ftXj)参数估计最小二乘法或大似然法最大似然法参数检验F检验;，检验似然比检验；计分检验，似然比检验，计分检验IWaI

16、dWaId检验检验参数解释其他变址不变条件下,变其他变量不变条件下，变量其他变量不变条件下，变量量X,每增加一个单位所Xj每增加一个单位所引起Xj每增加一个单位所弓I起引起的y的平均改变量的优势比Q%邈盗邺改的相对危险度所的自然对变数改变量预测指标y(-y)p(0l)s(os(on样本含量至少、的自变量个数至少、IS20倍的自变量至少1520倍的自变量个数个数一第十八、十九章判别分析和聚类分析1 .判别分析(discriminantanalysis)：根据一批分类明确的样本在若干指标上的观察值，建立一个关于指标的判别函数和判别准则，然后根据这个判别函数和判别准则对新的样本进行分类，并且根据何代

17、判别的准确率评估它的实用性。2 .Fisher判别准则：它使得类间点的距离最大，而类内点的距离最小，适合于两类的判别分析；BayeS判别准则：它使得每一类中的每个样本都以最大的概率进入该类，适合于多类的判别分析。3 .评估判别函数的判别效能：原始数据的分类要可靠准确；指标变量对判别函数的作用要显著；判别函数的同代错判率和事后概率错误率要小。4 .聚类分析(ChlSterAnaIysis)：对于总体分类未知的一群事物依照“物以类聚”思想，把性质相近的事物归入同一类，而把性质相差较大的事物归入不同类的一种统计分析方法。5 .聚类分析和判别分析的区别和联系(1)区别：聚类分析可以对样本进行分类，也可

18、以对指标进行分类；而判别分析只能对样本进行分类；聚类分析事先不知道事物的类别，也不知道应分几类；而判别分析必须事先知道事物的类别，也知道应分几类；聚类分析不需要分类的历史资料，能直接对样本进行分类；而判别分析需要分类历史资料去建立判别函数，然后才能对样本进行分类。(2)联系：先采用聚类分析获得各个个体的类别(CIaSSifkation)；然后采用判别分析建立判别函数，对新个体进行类型识别(identification)第二十章主成分分析和因子分析1 .主成分的性质(1)主成分互不相关；(2)主成分的贡献率和累积贡献率：贡献率越大，表明主成分综合原始指标信息的能力越强；累积贡献率越高，说明前个主

19、成分综合原始资料信息的比例越高；(3)主成分个数的选取：以累计贡献率确定：累积贡献率270%为宜；以特征根值大小确定：特征根值21。(4)因子荷载：因子荷载反映主成分与原始指标间密切程度与作用方向；(5)样品的主成分得分:根据主成分表达式计算样品的主成分值，推断和评价样品的特性。2 .因子模型的性质：(1)公共度：共性方差层反映全体原始指标X对所有公因子的依赖程度：(2)因子贡献及因子贡献率：力的值越大，则写对原始指标的影响越大；(3)因子荷载及因子荷载矩阵：因子荷载反映公因子与原始指标间密切程度与作用方向；3 .主成分分析和因子分析的区别和联系(1)联系：都是根据变量之间内部相关性来提取主要

20、信息，获得新的变量(公因子变量和主成分变量)，达到减少变量个数(降维)的目的；主成分分析模型两端同时乘以A,则有X=AF,即为无特殊因子的公因子模型；因子分析的结果(主成分解)即为主成分分析的结果，因子分析的主因子解也常常由主成分分析的结果作为*的初始值计算。(2)区别：主成分分析是将m个原变量提取/(个互不相关的主成分，准确计算各主成分的得分,其分析重点在于通过主成分综合原始变量的信息；因子分析是提取I（/WM个支配原变量的共性因子和1个特殊因子，各因子之间可以互不相关或相关，根据共性因子得分系数估计因子得分，其分析重点是通过寻找共性因子解释原始变量之间的关系。第二十一章典型相关分析1 .典

21、型相关（CanonicalCorrelationAnalysis）：是研究两组变量之间相关性的一种统计分析方法。是一种降维技术。2 .典型相关分析基本思想：借助主成分分析的思想，分别计算得到两组变量的主成分，根据主成分综合原始变量信息的能力配对得到第i对典型相关变量（G，匕）。两个第一主成分间的相关程度最大，即构成了第一对典型相关变量（U/,匕）。根据典型相关变量计算典型相关系数，更加全面得反映原来两组变量之间的整体相关性。3 .典型相关系数（canonicalcorrelationcoefficient）：第i对典型相关变量间（U“匕）的相关系数称为第，典型相关系数，反映了两组变量中存在的多

22、种相关信息中第，大的一种。医学研究的统计学设计1 .统计学设计内容：研究对象（分组、设置对照、样本含量）、处理因素、观察指标、数据的质量控制与管理.、统计分析方法。2 .研究设计的三要素：受试对象、处理因素、实验效应。3 .实验设计的基本原则：重复、对照、随机化4 .随机的三个含义：分组随机一均衡性：每个研究对象有同等机会被分配到各处理组抽样随机一代表性：总体中每个观察个体有同等机会被抽取实验顺序随机：每个研究对象先后接受处理的机会相同5 .影响样本含量大小的因素：样本含量的估计时，通常是由犯1类错误的概率检验效能1一尸、个体值间的离散程度S、以及容许误差d来确定样本含量。6 .常用的随机抽样

23、方法：单纯随机抽样、系统抽样、分层抽样、整群抽样、多阶段抽样等。7 .对照类型：、空白对照、实验对照、标准对照、相互对照、自身对照诊断试验评价与ROC分析1.常用指标：正确百分率、灵敏度、特异度、YoUden指数、阳性似然比、阴性似然比、阳性预测值、阴性预测值。诊断结果（T）金标准（D）合计病例（D，）对照（Q）阳性（L）TP（真阳性）FP（假阳性）TP+FP阴性（T-）FN（假阴性）TN（真阴性）FN+TN合计TP+FNFP+TNN2.灵敏度与特异度取值范围均在O1之间，其值不受患病率的影响：Youden指数的取值范围在01之间，其值越接近于1,诊断准确性越好；阳性似然比的取值范围为（0,8）,其值越大，检测方法证实疾病的能力越强；阴性似然比的取值范围为（0,8）,其值越小，检测方法排除疾病的能力越好；当灵敏度与特异度为常数时，增加患病率将增加阳性预测值，而降低阴性预测值。

展开阅读全文