医学统计学必过重点.docx_三一办公31ppt.com

资源描述

《医学统计学必过重点.docx》由会员分享，可在线阅读，更多相关《医学统计学必过重点.docx（15页珍藏版）》请在三一办公上搜索。

1、医学统计学必过重点1.总体：是根据研究目的确定的同质的观察单位的全体，更确切的说，是同质的所有观察单位某种观察值的集合。总体可分为有限总体和无限总体。总体中的所有单位都能够标识者为有限总体，反之为无限总体。样本：从总体中随机抽取部分观察单位，其测量结果的集合称为样本。样本应具有代表性。所谓有代表性的样本，是指用随机抽样方法获得的样本。 2.随机抽样：随机抽样是指按照随机化的原则，从总体中抽取部分观察单位的过程。随机抽样是样本具有代表性的保证。 3.变异：在自然状态下，个体间测量结果的差异称为变异。变异是生物医学研究领域普遍存在的现象。严格的说，在自然状态下，任何两个患者或研究群体间都存在差

2、异，其表现为各种生理测量值的参差不齐。 4.计量资料：对每个观察单位用定量的方法测定某项指标量的大小，所得的资料称为计量资料。计量资料亦称定量资料、测量资料。.其变量值是定量的，表现为数值大小，一般有度量衡单位。如某一患者的身高、体重(kg)、红细胞计数(1012/L)、脉搏、血压等计数资料：将观察单位按某种属性或类别分组，所得的观察单位数称为计数资料。等级资料又称有序变量。如患者的治疗结果可分为治愈、好转、有效、无效或死亡，各种结果既是分类结果，又有顺序和等级差别，但这种差别却不能准确测量；一批肾病患者尿蛋白含量的测定结果分为 +、+、+等。等级资料与计数资料不同：属性分组有程度差别，各

3、组按大小顺序排列。等级资料与计量资料不同：每个观察单位未确切定量，故亦称为半计量资料。 5概率：概率(probability)又称几率，是度量某一随机事件A发生可能性大小的一个数值，记为P，P越大，说明A事件发生的可能性越大。0P1。频率：在相同的条件下，独立重复做n 次试验，事件A 出现了m 次，则比值m/n 称为随机事件A 在n 次试验中出现的频率(freqency)。当试验重复很多次时P= m/n。 6.随机误差又称偶然误差，是指排除了系统误差后尚存的差。它受多种因素的影响，使观察值不按方向性和系统性而随机的变化。误差变量一般服从正态分布。随机误差可以通过统计处理来估计。抽样误差是指

4、样本统计量与总体参数的差别。在总体确定的情况下，总体参数是固定的常数，统计量是在总体参数附近波动的随机变量。 7系统误差是指由于仪器未校正、测量者感官的某种偏差、医生掌握疗效标准偏高或偏低等原因，使观察值不是分散在真值的两侧，而是有方向性、系统性或周期性地偏离真值。系统误差可以通过实验设计和完善技术措施来消除或使之减少。 8随机变量是指取指不能事先确定的观察结果。随机量的具体内容虽然是各式各样的，但共同的特点是不能用一个常数来表示，而且，理论上讲，每个变量的取值服从特定的概率分布。 9参数是指总体的统计指标，如总体均数、总体率等。总体参数是固定的常数。多数情况下，总体参数是不易知道的，但可通过

5、随机抽样抽取有代表性的样本，用算得的样本统计量估计未知的总体参数。 10统计量是指样本的统计指标，如样本均数、样本率等。样本统计量可用来估计总体参数。总体参数是固定的常数，统计量是在总体参数附近波动的随机变量。 11.频数表用来表示一批数据各观察值或在不同取值区间的出现的频繁程度。对于离散数据，每一个观察值即对应一个频数，如某医院某年度一日内死亡0，1，2个病人的天数。对于散布区间很大的离散数据和连续型数据，数据散布区间由若干组段组成，每个组段对应一个频数。 12.算术均数描述一组数据在数量上的平均水平。总体均数用表示，样本均数用X 表示。 13.几何均数用以描述对数正态分布或数据呈倍数变化资

6、料的水平。记为G。 14.中位数Md将一组观察值由小到大排列，n 为奇数时取位次居中的变量值；为偶数时，取位次居中的两个变量的平均值。反映一批观察值在位次上的平均水平。 15.极差亦称全距，即最大值与最小值之差，用于资料的粗略分析，其计算简便但稳定性较差。 16.百分位数是将n 个观察值从小到大依次排列，再把它们的位次依次转化为百分位。百分位数的另一个重要用途是确定医学参考值范围。 17.四分位数间距是由第3 四分位数和第1 四分位数相减计算而得，常与中位数一起使用，描述偏态分布资料的分布特征，较极差稳定。 18.方差：方差表示一组数据的平均离散情况，由离均差的平方和除以样本个数得到。 19.

7、标准差是方差的正平方根，使用的量纲与原量纲相同，适用于近似正态分布的资料，大样本、小样本均可，最为常用。 20.变异系数用于观察指标单位不同或均数相差较大时两组资料变异程度的比较。用CV 表示。计算：标准差/均数*100% 21.统计推断：通过样本指标来说明总体特征，这种从样本获取有关总体信息的过程称为统计推断。 22.抽样误差：由个体变异产生的，抽样造成的样本统计量与总体参数的差异，称为抽样误差。 23.标准误及X s ：通常将样本统计量的标准差称为标准误。许多样本均数的标准差X s称为均数的标准误，它反映了样本均数间的离散程度，也反映了样本均数与总体均数的差异，说明均数抽样误差的大小。 2

8、4.可信区间：按预先给定的概率确定的包含未知总体参数的可能范围。该范围称为总体参数的可信区间。它的确切含义是：可信区间包含总体参数的可能性是1- ，而不是总体参数落在该范围的可能性为1- 。 25.参数估计：指用样本指标值估计总体指标值。参数估计有两种方法：点估计和区间估计。 26.假设检验中P 的含义：指从H0 规定的总体随机抽得等于及大于现有样本获得的检验统计量值的概率。 27.I 型和II 型错误：I 型错误，指拒绝了实际上成立的H0，这类“弃真”的错误称为I 型错误，其概率大小用表示；II 型错误，指接受了实际上不成立的H0，这类“存伪”的误称为II 型错误，其概率大小用表示。 28.

9、检验效能：1- 称为检验效能，它是指当两总体确有差别，按规定的检验水准a 所能发现该差异的能力。 29.检验水准：是预先规定的，当假设检验结果拒绝H0，接受H1，下“有差别”的结论时犯错误的概率称为检验水准，记为。 30.率又称频率指标，说明一定时期内某现象发生的频率或强度。计算公式为：发生某现象的观察单位数/可能发生某现象的观察单位总数*100%，表示方式有：百分率、千分率等。 31.构成比又称构成指标，说明某一事物内部各组成部分所占的比重或分布。计算公式为：某一组成部分的观察单位数/同一事物各组成部分的观察单位总数*100%，表示方式有：百分数等。 32.比又称相对比，是A、B 两个有关

10、指标之比，说明A 是B 的若干倍或百分之几。计算公式为：A/B ，表示方式有：倍数或分数等。 33.非参数统计：针对某些资料的总体分布难以用某种函数式来表达，或者资料的总体分布的函数式是未知的，只知道总体分布是连续型的或离散型的，用于解决这类问题的一种不依赖总体分布的具体形式的统计分析方法。由于这类方法不受总体参数的限制，故称非参数统计法，或称为不拘分布的统计分析方法，又称为无分布型式假定的统计分析方法。 34.参数统计：通常要求样本来自总体分布型是已知的，在这种假设的基础上，对总体参数进行估计和检验，称为参数统计 35.秩次：变量值按照从小到大顺序所编的秩序号称为秩次。 36.秩和：各组秩次

11、的合计称为秩和，是非参数检验的基本统计量。 37.直线回归建立一个描述应变量依自变量变化而变化的直线方程，并要求各点与该直线纵向距离的平方和为最小。直线回归是回归分析中最基本、最简单的一种，故又称简单回归。 38.回归系数即直线的斜率(slope)，在直线回归方程中用b 表示，b 的统计意义为X每增一个单位时，Y平均改变b 个单位。 39.相关系数r：用以描述两个随机变量之间线性相关关系的密切程度与相关方向的统计指标。医学统计学：用概率论和数理统计方法研究医学事件的群体特征的一门方法。随机：总体中每个个体有同等的机会进入样本。准确度或真实性：观察值与真值的接近程度，受系统误差的影响( 可

12、靠度也称精密度或重复性：重复观察时观察值与其均值的接近程度，受随机误差的影响小概率事件：一般常将p 0.05或p 0.01称为小概率事件，表示某事件发生的可能性很小。通俗讲一次抽样是不可能发生的事件正态分布定：又称高斯分布，是一条中间高，两头低，左右完全对称地下降，但永远不与横轴相交的钟形曲线。医学参考值范围：指绝大多数正常人的解剖、生理、生化、免疫及组织代谢产物的含量等各种数据的波动范围。最常用的是95%参考值范围。 95%的可信区间：如果从同一总体中重复抽取100个独立样本，将可能有95个可信区间包括总体均数，有5个可信区间未包括总体均数。置信区间：在统计学中，一个概率样本的置

13、信区间是对这个样本的某个总体参数的区间估计。置信区间展现的是这个参数的真实值有一定概率落在测量结果的周围的程度。完全随机设：完全随机设计仅涉及一个处理因素，故又称单因素设计。它是将受试对象按随机化的方法分配到各个处理组中，观察实验效应，临床试验中的随机对照试验也属于此类设计。配对设计：是将受试对象按一定条件匹配成对，再随机分配每对中的两个受试对象到不同处理组。配对的因素是影响实验效应的主要非处理凶素。直线相关与直线回归的联系和区别？区别资料：相关分析要求X、Y服从双变量正态分布；回归分析要求Y为正态随机变量，X为选定变量应用：研究事物或现象间的线性关系用相关分析；研究事物或现象间

14、的线性数量依存关系用回归分析。意义：r是反映两变量线关系间相关的密切程度与相关方向的指标；b 意义是：X 每增加(减)一个单位，Y 平均改变b个单位计算： b=Lxy/Lxx，取值范围：-ba 则没有理由拒绝 H0 方差分析的基本思想是什么？方差分析的基本思想就是把全部数据的总变异分解成两个或多个组成部分，注意不同设计类型的总变异分解有所不同，但其中都包括随机误差部分，分别将各部分的变异与随机误差进行比较，通过 F 值及相应的 P 值来判断均数间的差别是否具有统计学意义。中主要反映在样本量大小上。方差分析的应用条件各样本是相互独立的随机样本，且来自正态分布总体。各样本的

15、总体方差相等，即方差齐性为什么不宜用 t 检验对多组均数进行比较？如果用 t 检验进行多个样本均数的两两比较，则会增加犯 I 类错误的概率。经检验得到拒绝 H0 ，认为两组之间有差别的结论可能犯 I 类错误的概率为，不犯 I 类错误的概率为 1- . 每次判断均不犯 I 类错误的概率为(1- )k, k 为比较的次数，上例=0.05, k=3，则均不犯错误的概率为( 1- 0.05)3 =0.86. 至少有一次判断犯 I 类错误的概率为 1-(1- )k 简述实验设计的基本要素1.处理因素(study factor,treatment) 研究者根据研究目的欲施加或欲观察的能作用于受试对象

16、并引起直接或间接效应的因素。处理因素可以是主动施加的某种外部干预或措施，也可以是客观存在的因素。非处理因素与处理因素同时出现、也能使受试对象产生效应的因素。当非处理因素夸大或缩小了处理因素与实验效应间的真实联系时，称为混杂因素 2.受试对象/试验单位(object/experimentunit) 处理因素作用的客体，是根据研究目的而确定的观察目标总体。可以是人、动物，也可以是生物材料，试验单位的基本条件 3.处理/试验效应(experimental effect) 处理因素作用于试验单位的反应和结果，通过观察指标来表达。选择指标的依据：客观性、特异性和敏感性。统计表有哪些要

17、素构成的？制表的注意事项有哪些？一般来说，统计表由标题、标目、线条和数字、备注五部分组成。但备注并不是必需的内容，可以根据需要出现。 1 简明扼要，重点突出：最好一张表突出一个中心，不易太多中心，如果需要说明多个中心，可分成多张统计表。 2 合理安排主语和谓语的位置：对于表中任意一行，从左至右，通过简短的连接词，可连成成一句通顺的句子。 3 表中数据要认真核对，保证准确可靠正态分布的应用某些医学现象，如同质群体的身高、红细胞数、血红蛋白量，以及实验中的随机误差，呈现为正态或近似正态分布；有些指标虽服从偏态分布，但经数据转换后的新变量可服从正态或近似正态分布，可按正态分布规律处理。其中

18、经对数转换后服从正态分布的指标，被称为服从对数正态分布。 t 分布与正态分布比较的区别t 分布与标准正态分布相比有以下特点：都是单峰、对称分布；t 分布峰值较低，而尾部较高；随自由度增大，t 分布趋近与标准正态分布；当趋向，t 分布的极限分布是标准正态分布非参数统计的特点和适用范围 1特点样本所来自的总体的分布形式为任何形式，甚至是未知的，都能适用。收集资料方便，可用“等级”或“符号”来评定观察结果。多数非参数方法比较简便，易于理解和掌握。缺点是损失信息量，适用于参数统计法的资料用非参数统计方法进行检验将降低检验效能。 2适用范围等级资料。偏态分布资料。当观察资料呈偏态或极度偏态

19、分布而又未作变量变换，或虽经变量变换仍未达到正态或近似正态分布时，宜用非参数检验。各组离散程度相差悬殊，即方差明显不齐，且不能变换达到齐性。个别数据偏离过大，或资料为单侧或双侧没有上限或下限值。分布类型不明。初步分析。有些医学资料由于统计工作量大，可采用非参数统计方法进行初步分析，挑选其中有意义者再进一步分析(包括参数统计内容)。对于一些特殊情况，如从几个总体所获得的数据，往往难以对其原有总体分布作出估计，在这种情况下可用非参数统计方法。非参数检验的优缺点：非参数统计与传统的参数统计相比，有以下优点： 1、非参数统计方法要求的假定条件比较少，因而它的适用范围比较广泛。 2、多数非参

20、数统计方法要求的运算比较简单，可以迅速完成计算取得结果，因而比较节约时间。 3、大多数非参数统计方法在直观上比较容易理解，不需要太多的数学基础知识和统计学知识。 4、大多数非参数统计方法可用来分析如象由等级构成的数据资料，而对计量水准较低的数据资料，参数统计方法却不适用。 5、当推论多达3个以上时，非参数统计方法尤具优越性。但非参数统计方法也有以下缺点： 1、由于方法简单，用的计量水准较低，因此，如果能与参数统计方法同时使用时，就不如参数统计方法敏感。若为追求简单而使用非参数统计方法，其检验功效就要差些。这就是说，在给定的显著性水平下进行检验时，非参数统计方法与参数统计方法相比，第类错误的概

21、率要大些。 2、对于大样本，如不采用适当的近似，计算可能变得十分复杂。配对设计的符号秩和检验方法 (1)假设：H0：差值总体中位数Md=0 H1：Md0 =0.05 (2)求差值 (3)编秩次：依差值的绝对值从小到大编秩次。编秩次时遇差数等于 0，舍去不计，同时样本例数减1；遇绝对值相等差数，符号相同顺次编秩次，符号相反取平均秩次，且符号相反。 (4)求秩和并确定检验统计量：分别求出正负秩次之和，正秩和以 T+表示，负秩和的绝对值以T-表示。T+及T-之和应等于 n(n+1)/2，任取T+(或 T-)作检验统计量T 。 (5)确定 P 值和作出推断结论：当 n50 时，查 T 界值表，得出

22、P值。若检验统计量T值在上、下界值范围内，其 P值大于表上方相应概率水平；若 T值在上、下界值上若范围外，其 P值小于表上方相应概率水平。线性相关或回归应用应注意的问题作回归分析和相关分析时要有实际意义，不能把毫无关联的两种现象作回归、相关分析，必须对两种现象间的内在联系有所认识。在进行回归分析和相关分析之前，应绘制散点图。但观察点的分布有直线趋势时，才适宜作回归、相关分析。如果散点图呈明显曲线趋势，应使之直线化再行分析。散点图还能提示资料有无可疑异常点。直线回归方程的应用范围一般以自变量的取值范围为限。若无充分理由证明超过自变量取值范围外还是直线，应避免外延。双变量的小样本经 t 检

23、验只能推断两变量间有无直线关系，而不能推断相关的紧密程度，要推断相关的紧密程度，样本含量必须很大。相关或回归关系不一定是因果关系，也可能是伴随关系，有相关或回归关系不能证明事物间确有内在联系。秩相关的应用适用范围不服从双变量正态分布而不宜作积差相关分析；总体分布型未知；用等级表示的原始数据。相关与回归的区别与联系区别：1.意义：相关反映两变量的相互关系，即在两个变量中，任何一个的变化都会引起另一个的变化，是一种双向变化的关系。回归是反映两个变量的依存关系，一个变量的改变会引起另一个变量的变化，是一种单向的关系。 2.应用：研究两个变量的相互关系用相关分析。研究两个变量的依存关系

24、用回归分析。 3.研究性质：相关是对两个变量之间的关系进行描述，看两个变量是否有关，关系是否密切，关系的性质是什么，是正相关还是负相关。回归是对两个变量做定量描述，研究两个变量的数量关系，已知一个变量值可以预测出另一个变量值，可以得到定量结果。 4.相关系数r与回归系数b ：r与b的绝对值反映的意义不同。r的绝对值越大，散点图中的点越趋向于一条直线，表明两变量的关系越密切，相关程度越高。b的绝对值越大，回归直线越陡，说明当X变化一个单位时，Y的平均变化就越大。反之也是一样。联系：1. r与b值可相互换算；2. r与b正负号一致；3. r与b的假设检验等价；4. 回归可解释相关。相关系数的平方r

25、2(又称决定系数)是回归平方和与总的离均差平方和之比，故回归平方和是引入相关变量后总平方和减少的部分。回归系数的估计原则：最小二乘(least squares)原则医学统计学工作基本步骤：统计设计；收集资料.；整理资料；分析资料统计分析包括：统计描述、统计推断频数分布的两个重要特征：集中趋势和离散趋势正态分布的两个参数：均数；标准差。频数表的用途：揭示计量资料的分布类型；揭示计量资料的分布特征；便于发现特大值和特小值；便于进一步进行统计分析常见的统计资料的类型有：计量资料；计数资料；等级资料 t检验的应用条件是：正态分布：当样本含量较小时，要求样本来自正态总体。方差齐性：两样本均数比较时，

26、要求两总体方差相等。 U检验的应用条件是：大样本；小样本，已知且样本来自正态总体。.描述分类变量常用的指标有率、构成比、相对数。四格表卡方专用公式应用条件n40，且Tmin5研究事物或现象间的线性关系用相关分析，研究事物或现象间的线性数量依存关系用回归分析。线性相关系数是反映两变量线关系间相关的密切程度与相关方向的指标。取值范围为-1r1 回归系数b 意义是：X 每增加(减)一个单位，Y 平均改变b个单位从总体中抽取样本，一定要遵循科学原则：代表性；随机性；可靠性编制频数表的步骤: 确定全距；确定组距；确定组段；正字化记：样本相关系数 r的假设检验r 界值表法； t检验法。实验设计的基本原则随机化原则、对照的原则、重复的原则。标准正态分布是一种特殊的正态分布，标准正态分布的 = 0，2 = 1 ，通常用u表示服从标准正态分布的变量，记为N。 t检验的类型：单样本t检验，独立t检验，配对t检验 Piosson分布在什么条件下接近正态分布不接近0也不接近1;当U相当大时(20) 编制参考值范围的方法:正态分布法,百分位数法. 常用统计图:条图,线图,半对数线图,直方图,圆图,百分条图,散点图. 设计类型:完全随即,配对,交叉,随机区组,析因

展开阅读全文

医学统计学 必过重点.docx

医学统计学必过重点.docx