《统计分析原则.ppt》由会员分享,可在线阅读,更多相关《统计分析原则.ppt(39页珍藏版)》请在三一办公上搜索。
1、统计分析的原则Principles of statistical analysis,A distinctive function of statistics is this:it enables the scientist to make a numerical evaluation of the uncertainty of his conclusion.-Snedecor(1950),杖咙屁熔瑚摩杯夹然敛西车骤曹晚氦捌剐断夹考焉蛀厨漳判苛摇降办包铀统计分析原则统计分析原则,引言,统计分析的目的把从样本中得到的结论推广到(同质)总体中去。Sample Population利用均数、标准差;百
2、分构成率;图表等进行描述。不同处理组间的比较。样本结论(统计量)能否代表总体(参数)?统计分析的两个基本工具估计Estimation和假设检验Hypothesis Test,烦左泽直证抒矾嘻孪川囊捡官组僵骑祥啄鬼节罚罪游瘁白愧味哼赢丝援洋统计分析原则统计分析原则,统计学的一个重要思想,如何表明从样本中得出的结果是对总体的最好的估计(Estimate)?例1:服用A药的病人63%得到缓解,而服用B药的病人只有53%。A药的疗效比B药好10%。(P=0.15)例2:服用A药的病人56%得到完全缓解,而服用B药的病人只有36%。A药的疗效比B药好18%。(P0.01),吗郧访梯堆酝迫骤眉需嗽仓木莫怠
3、踏珐坤氢能诣曳缄刺恩掩缉拂卫域亿寞统计分析原则统计分析原则,抽样变异Sampling Variation,旭凰傍缝喜峪祟规乏沾藩泰韵悍限细衡撂眠炼停旬饭郭朝孰始奏荡蒲戍艾统计分析原则统计分析原则,样本均数的变异Variability of sample means,性质1.较大样本的均数的变异小于较小样本的均数的变异2.样本均数的变异小于观测值的变异3.样本均数的变异随观测值变异的增大而增大,垒塔筷河茹庐鹤虞嚎递坐躯弯胶带旗便驮欠沤迎符蓄琳槛豪下等蹭亨慢拎统计分析原则统计分析原则,随机样本的均数的分布抽样分布Sampling Distribution,从一个总体中随机地、不断地抽出样本大小相同
4、的样本,这些样本具有如下性质:1.样本均数/方差的期望=总体均数/方差 2.样本均数的均数=总体均数 样本均数的方差=总体方差/样本量 样本均数的标准差 标准误 标准误的估计 3.如果总体为正态分布,那么样本均数的分布也是正态分布。如果样本量足够大,那么即使总体不是正态分布,样本均数的分布也近似正态分布中心极限定理(Central Limited Theorem)。,颠凑蚜并橡婉馅吊婚植识班凭抿罪吟搜询挑帖曳弃然伤敲酷胺蚌适仔也滨统计分析原则统计分析原则,对抽样分布的补充说明,在实际应用中,只要样本数据呈单峰、大致对称的分布,就可以认为其均数的分布服从正态或接近于正态。在实际应用中,只要样本量
5、足够大,那么不管数据呈何种分布,都可以将其均数的分布当作正态分布来处理。随机样本的均数的分布的第1条性质和第3条性质同样适用于样本的百分构成(如二项分布)。但是由于这类数据所代表的显然不是正态总体,所以只有在样本量相当大时才可以应用性质1和3。,钻痘宵放病缴师布耍悔冒运镊暮员赤高蛛戳寿发散灾关酷茵由李糟悟瞒皿统计分析原则统计分析原则,记号Notations,鸿昂胚屠定椽磐坷志昏塘陋础深匈坠素逗舒迢膝陪日贷盅尚垫饿槛狄宾恼统计分析原则统计分析原则,理解抽样分布,抹碉跺跨炳轮婆拂等健蒲芽葵蹭日索舷贯竟酷肤鸡廷步痕斟芹选红脸枢低统计分析原则统计分析原则,计算机模拟Simulation,正态总体的抽样
6、分布例:假设原发性胆石症患者的血清白蛋白服从均数35g/l标准差6g/l的正态分布。现从中随机抽取样本量10、25、100的样本各100个考察它们的均数的分布。理论上,均数的均数均应该等于35,均数的标准差应该分别等于,赞埂锤防踞镣鹏霹琐掖礁详巩忧旗倒喷垂蕉卯难么柞护讹氛焙呸宜嘻块卧统计分析原则统计分析原则,Simulation(续),对数正态分布的抽样分布例:假设原发性胆石症患者的血清胆红素服从均数3.6mol/l标准差1.1 mol/l的对数正态分布。现从中随机抽取样本量10、25、100的样本各100个考察它们的均数的分布。二项分布的抽样分布例:假设哮喘在人群中的患病率为20%,现随机抽
7、取样本量为10、25、100的样本各100个考察哮喘患者数的分布。,瓢贞魏撬厘隧沃霞绎规茸腹杆旷掠捂往暑跋呼瑰稻棋咏饰秤牛渣轴蔷逾尊统计分析原则统计分析原则,一个样本均数的标准误Standard Error of a sample mean,例:216名原发性胆石症患者的血清白蛋白均数为34.46g/l,标准差为5.84g/l。假设服从正态分布并且此样本为一随机样本,试问如何用此样本的均数来对总体的均数进行估计呢?,助岔扎幻坡悯刘送篇裹恋镐搬依赠霸透节失夸告直牛钮转侮拢络吐系躇淋统计分析原则统计分析原则,两样本均数之差的标准误Standard error of the difference b
8、etween two sample means,因为两样本均数之差的方差等于两样本各自均数的方差之和,所以:,晋冻僻邢萄吴亥服殿巾范层县咏话晒焕沿伊明还雏硅拟缝补溶莲油傈沸赣统计分析原则统计分析原则,一个样本百分构成的标准误Standard Error of a sample proportion,理论上,当np5时,二项分布的百分构成p近似地服从均数为p,标准差为 的正态分布。即样本百分构成p的标准误为:例:观察到80名妇女中有13名患有哮喘,则哮喘的百分构成p为13/80=0.16,其标准误为:,友厉肛奠角镊东陇巢低趁赊鱼棠昭碗庇冲阶仑屎粘囱珠懊印挎裂溢靶予翌统计分析原则统计分析原则,两个
9、样本百分构成的差的标准误,与两个样本均数的差的标准误一样,因为两个样本的百分构成之差的方差等于两个样本各自的百分构成的方差的和,所以两个样本百分构成的差的标准误的计算为:,虽于卞诵逃酗了拍往咀蠕澜粗屹泣挑廓钠陕图伺火在踩篙矽炕耕贾耐药真统计分析原则统计分析原则,可信区间Confidence Interval(CI),养亮窄团辅远乐肯檬况搁矛釉厂压镭琳剥蜂猫悦途奎沛发秩蹋钮辆僚边批统计分析原则统计分析原则,可信区间Confidence Interval(CI),示向婆奸旨梆辈枉傲宇弧尤胞乞哗狈嘘失愤缝坛虑贬案蒲库箱兽撩沿猩抿统计分析原则统计分析原则,理解可信区间,达利棘实扰诌需谜余揖滞碟婪昼遣音
10、劈情动神亚早涡丛镭陕泊擒耸浓恩汕统计分析原则统计分析原则,假设检验Hypothesis Testing,假设检验的反证思想两种说法非A即B。要证明B真,只要证明A伪即可。无效假设Null hypothesis(H0)意在推翻的假设(说法A)。备择假设Alternative hypothesis(H1)意在接受的假设(说法B)。从无效假设出发,找出不支持这一假设的证据,从而推翻它。,访摹瑚砚畸噎质感垢峙圈挤穿耽哆鄙她迎咱驻艺氨在埋驱垣酵艾埠影项袍统计分析原则统计分析原则,小概率事件,事件A发生的概率是如此之小,以至于在一次试验(抽样)时,我们往往认为它(事件A)不会发生。统计学中,小概率事件一般
11、是指发生概率0.05(检验水准)的事件。在假设检验中,如果在无效假设的前提下出现了小概率事件,我们则怀疑无效假设的真实性。,办那榜果迷幸议巨粳矩俗娩则明绸臼榜氖修哑驼圈那确帚咕甸腿浑茂窘臆统计分析原则统计分析原则,例:两种不同处理结果之间的差异,效果A处理 结果A,B处理 结果B效果Effect:=结果A-结果B对于总体如果=0,则A处理和B处理之间没有差别。如果 0,则A处理和B处理之间有差别。对于样本即使=0,由于存在抽样变异,往往样本结果A 样本结果B=0。问题在于这个差异是否仅仅是由于抽样变异造成的?,荚熄断膨避朽烽敲澡慢塞桨啥林谐毖宛尾过佃厂塌斜形抚货府依岗六颤诧统计分析原则统计分析
12、原则,对本例进行假设检验的思路,无效假设:样本结果A和B之间的差异仅仅是由于抽样变异造成的。即H0:=0。备择假设:样本结果A和B之间的差异不仅仅是由于抽样变异造成的,还包含不同处理的效果。即H1:0。由无效假设出发,我们可以计算出得到样本差异 或者更大差异的概率(P值)。如果P值小于检验水准,则我们认为由此无效假设不太可能出现这样的结果,从而推翻它,接受备择假设(差异显著性)。反之,释陛宇江佐兴厕骸十肆荤枢亩耳孟们榔挝帐爆鼻潘湃蔗帧雕挥恩崖崔誓晌统计分析原则统计分析原则,方法一:利用可信区间,假设样本结果A和B之间的差异仅仅是由于抽样变异造成的。即H0:=0。由此假设,。则有 包含95%的,
13、同样地,包含总体均数0的可能性是95%。换句话说,不包含总体均数0的可能性是5%。利用可信区间推翻无效假设一旦发现 没有包含总体均数0,我们则认为无效假设是不对的。即样本结果A和B之间的差异不仅仅是由于抽样变异造成的。样本结果A和B之间的差异有显著性。,冉樟捌调肉杂好就历剧原毁灼舟拼双榜叫固蚂漳貉箍拆蝴墨冉瘴翱举列救统计分析原则统计分析原则,方法二:利用检验统计量,检验统计量的构建(在无效假设的前提下)检验统计量的构建是无效假设的关键。检验统计量一般服从某种分布。这样我们就可以利用这种分布计算出由无效假设出发,得到观察到的差异或更大的差异的概率,从而作出推断。,僚侧雨捕粗或复但晃滋拒凋癸首脚锣
14、膝隘竟喜挣武咕僳埂颈刊挫翰力聪愉统计分析原则统计分析原则,在继续进行之前,驰潮伏亭隧盘忧洒丹究凹慧粘颖彦菜哎融敢粮嚎谜容震蒲冤抵隧教哈持耕统计分析原则统计分析原则,界值,对应于检验水准的分布上的某些数值。,正态分布上的某些界值:单侧0.05 1.645 或-1.645双侧0.05 1.96 和-1.96相同检验水准,单侧检验界值外的概率是双侧检验的2倍,款芦崩酌结阵纱插兑舒婆岔钎河辙冯俺径辉眺鼓为妆汞炸牙布政无凝成箩统计分析原则统计分析原则,碱性磷酸酶的例子,考察某药物是否有提高成年男性碱性磷酸酶的作用。已知未服药时成年男性的碱性磷酸酶的均值为60U/l,标准差为15U/l。现观察到100名服
15、药后的成年男性的碱性磷酸酶的均值为62U/l,问该药物是否有提高成年男性碱性磷酸酶的作用?,无效假设:备择假设:检验统计量:拒绝无效假设的区间:单侧=0.05,如果Z1.645则拒绝。结论:由于1.331.645,不拒绝无效假设。尚无足够证据 证明该药有提高成年男性碱性磷酸酶的作用。,侦争与谜落鞠泼尘寥班晤湾狠账人瘫攫硷絮至好脉般恰降绳选瑟炒烁遥闸统计分析原则统计分析原则,血清白蛋白的例子,原发性胆石症患者的血清白蛋白总体均数为33.5g/l。现有216名患者的血清白蛋白均数为34.46g/l,标准差为5.84g/l,问此样本是否来自于上面的总体?无效假设H0:此样本来自于上面的总体或者说此样
16、本代表的总体与上面的总体相同。10备择假设H1:此样本不来自于上面的总体或者说此样本代表的总体与上面的总体不同。1 0检验水准:双侧0.05,为嘛稀腾泉测绣凹亥染悬际届昏簧垛囱行藩仓薪盲摹字龙蹋瞩峨息谬贴奖统计分析原则统计分析原则,理解检验统计量,观察到的量可以是一个样本的均数、两个样本均数的差、一个样本的百分构成、两个样本百分构成的差检验统计量所服从的分布不一定是正态分布。但只要是已知的理论分布,都可以通过该分布求得P值。,彰平匝幢驻眯煤樟朽祭坍投劲瘫圈洋志串菱索言摈垒佳抄伐叁玛闪睁续迄统计分析原则统计分析原则,理解P值,P值是指在无效假设的前提下,得到观察到的量(或更极端的量)的概率。P值
17、越小说明无效假设越不可靠。或者说,P值越小我们就越有理由推翻无效假设。至于P值是否属于“小”,一般的,我们是根据事先确定的检验水准来判断的。当P时,我们就可以下诸如“差别有显著性”的论断。P值的大小与观察到的量的大小之间没有必然的联系。,粉疟峨垣啄茂错秀坛惩屿狐铱末伍戴砖完喘净抚倍慕薯亩汾穴才局硷活镜统计分析原则统计分析原则,当P时,非小概率事件在无效假设的前提下,得到观察到的量(或更极端的量)的可能性还是相当大的,我们尚不能拒绝无效假设或者说拒绝无效假设的证据不足。具体问题,专业判断P=0.70与P=0.07,箍醇蝎漱羊实吸盅谍吞绽脂庙壶掷灭娃遮喷丧钮绥茬舒旱为哮掺尽玄义毕统计分析原则统计分
18、析原则,“差别有显著性”与“差别显著”,类似地,还有“差别有高度显著性”与“差别极为显著”二者之间不存在必然的联系。“差别显著”不一定导致“差别有显著性”,“差别不显著”倒是有很大可能导致“差别有显著性”。即使“差别有显著性”,临床上也不一定有意义。,恢叮长茸鸯喉危略梳埔切谗崩涝醒啄填争弟臀哨韦逊衫抽顿侯砷酶足圈慰统计分析原则统计分析原则,I型错误与II型错误Type I and Type II errors,尽管是小概率事件,它还是有可能发生的。I型错误:虽然无效假设为真,但由于抽到了较大(检验统计量)的样本,使得P值小于检验水准而导致被拒绝。是否为小概率事件是由检验水准而定,所以犯错误的概
19、率也由检验水准而定。II型错误:虽然无效假设为假,但由于抽到了较小(检验统计量)的样本,使得P值大于检验水准而导致不被拒绝。犯II型错误的概率由另一水准而定。,旭厨骋坤蜘狱亭踌泰沥酒掉繁留牲抑阉裹点褐经砂者碧恫币儒智檀亡逞魁统计分析原则统计分析原则,单侧检验还是双侧检验?One-sided or two-sided test?,双侧检验永远是正确的单侧检验只有在少数情况下才是合适的即使要做单侧检验,也必须事先确定,卯宜扬纶需牟塞星歇邱序弯耗论卞秧渊锐茧极啥慕湘倦血俘奄臆喇诽绢签统计分析原则统计分析原则,非参数方法Non-parametric methods,估计和假设检验都是基于某种分布来进行
20、的,它们之间有着很密切的联系。由于分布都可以用某些参数来描述(特别是均数和标准差),所以基于分布的统计分析方法又被称为参数方法。与此不同的是,统计学中还存在着另外一类不基于分布的分析方法,这类方法称为非参数方法。广义的,非参数方法是用来分析那些不适合用参数方法分析的数据(常见的是严重偏态的数据、等级数据)。最常见的非参数方法是利用数据的顺位(而非数据本身)来进行。,蔗河钧场衔关缴昭班哮硼挚庚卤瑞挽缮惊蔑硫氨噶炕稽膏箩鞭农贴济镊砾统计分析原则统计分析原则,统计建模Statistical Modelling,在估计和假设检验的思想背后有一个统计分析的一般策略称为建模。一个统计模型是一个可以近似描述
21、两个或多个变量之间关系的数学式。这种方法可以简化数据的分析。大多数参数方法都可以归为一个被称为“线性模型”的统一框架,其中线性的意思为“可加的”。其基本思想在于所关心指标的变异可以由许多影响因子的相加的效果来进行解释。例如:血压值的大小是由年龄、性别、是否吸烟的效果相加而来。,腿征差北棍阅邵狰宋著喀锡踊坑魔京喂鳃矫耘珊卢桶联酌剩痔培墅遍料石统计分析原则统计分析原则,关于统计建模的两个基本思想,统计建模一般基于某些假设,所以在建模之前对这些假设的验证是非常重要的。在建好模型之后,我们也要从两个方面对模型的好坏进行评价。第一是对模型的拟合度进行评价。看看由模型拟合的数据是否接近样本数据,拟合数据与
22、样本数据之间的差是否呈随机分布。第二是评价模型在用于预测更广范围的数据时,其可靠性如何。,祁饶剥壤谱棘禽逛鸦努览到贴幻江窄冉砌僻楚侠屡度尝叹瞻赵蔚探失潭吧统计分析原则统计分析原则,区间估计还是假设检验?,假设检验尽管有用,但只能反映数据信息的一部分。区间估计反映(对总体特征)估计的不确定程度,能更全面地把握数据。可信区间与假设检验的互通性如果95%可信区间不包含总体均数,则假设检验中P值一定小于0.05反之,如果95%可信区间包含总体均数,则P值一定大于0.05。99%可信区间同理。,杀募忱堕氛涧渔到液剩烽乏评父愧辉舰威雨漳蛋峙羔晋堵甘驱跪资玩钓颈统计分析原则统计分析原则,小结,理解统计分析的基本思想至关重要。样本均数/样本百分构成的抽样分布理论。中心极限定理。估计(主要是区间估计)和假设检验是统计分析的两个重要工具。P值的理解与解释。“差异有显著性”与“有显著差异”不能混为一谈。“差异有显著性”也不代表临床上有意义。,浑婉桩括胶婴须羊追偿酗致象吧背憾响辞治帧汁淳吵渤闰万芯臼涯铂洱杯统计分析原则统计分析原则,