《分类变量的统计推断.ppt》由会员分享,可在线阅读,更多相关《分类变量的统计推断.ppt(58页珍藏版)》请在三一办公上搜索。
1、1,第五章分类变量资料的统计推断,教学要求,掌握率的抽样误差计算公式掌握四格表检验,3,第一节 率的抽样误差,一、二项分布的概念例:假设注射某种免疫疫苗会有10%的人出现不适反应。问3人接种后各种可能后果的概率是多少?,4,5,贝努利试验:,n次独立、重复试验(每次试验只出现A和 之一,每次概率都是 和)。贝努利试验中,事件A可能发生0,1,2,n次,A恰好发生k次的概率为,6,若随机变量X只能在 中取值,各种可能值的概率满足前式,我们就说X服从参数为n和的二项分布,记为,7,已知:=0.5,n=10;=0.3,n=5;=0.3,n=10;=0.3,n=15。根据上式,求各阳性数事件的概率并作
2、概率分布图。,8,率的抽样分布特征:,1.为离散型分布;2.当=1-时,呈对称分布;3.当n 增大时,逐渐逼近正态分布。一般认为,当n和n(1-)5时,可近似看作正态分布。,9,二、率的抽样误差和标准误,由于抽样所引起的样本率和总体率或各样本率之间存在着差异,这种差异称为率的抽样误差。用率的标准误表示。,10,例:为了解某地人群结核菌素试验阳性率情况,某医疗机构在该地人群中随机检测了1773人,结核菌素试验阳性有682人,试计算其标准误。,11,第二节 总体率的估计,总体率的估计:点估计区间估计正态近似法,12,当样本含量n足够大,样本率p或1-p均不太小时(如np和n(1-p)均大于5),样
3、本率的分布近似正态分布。,13,95%的置信区间:38.47%1.961.16%=36.20%40.74%99%的置信区间:38.47%2.581.16%=35.48%41.46%,上例中该地人群中结核菌素试验阳性率95%和99%的置信区间为:,14,第三节 率的U检验,当样本含量n足够大,样本率p或1-p均不太小时,如np和n(1-p)均大于5,样本率的分布近似正态分布。样本率和总体率之间、两个样本率之间的比较可用Z检验。,15,一、样本率与总体率的比较,16,例:一般情况下,直肠癌围术期并发症发生率为30%,现某医院手术治疗了385例直肠癌患者,围术期出现并发症有100例,并发症发生率为2
4、6%,问该院直肠癌患者围术期并发症发生率与一般情况比较有无统计学差异。,分析:本例,n=385,属于大样本,同时样本率为26%,np和n(1-p)均大于5,可采用Z检验。,17,建立检验假设 H0:=0,H1:0,=0.05,2.计算Z值,3.确定P值,判断结果,本题Z=1.7131.96,P0.05,按=0.05的水准不拒绝H0,差异没有统计学意义,故尚不能认为该院直肠癌患者围术期并发症发生率与一般情况不同。,18,二、两个样本率的比较,19,例:为了解某地小学生蛔虫感染率的城乡差异,抽样调查了该地小学生22792人,其中城镇小学生8207人,粪检蛔虫卵阳性数为701人,蛔虫感染率为8.54
5、%,乡村小学生14585人,粪检蛔虫卵阳性数为2167人,蛔虫感染率为14.86%,试比较该地小学生蛔虫感染率城乡差异有无统计学意义。,20,本题=13.7392.58,P0.01,按=0.05的水准拒绝H0,接受H1,差异有统计学意义,认为该地乡村小学生蛔虫感染率高于城镇。,3.确定P值,判断结果,建立检验假设 H0:1=2,H1:12,=0.05,2.计算Z值,不同自由度的 分布曲线图,自由度一定时,P值越小,界值越大P值一定时,自由度越大,界值越大当自由度为1时,u,例:某医院欲比较异梨醇口服液(试验组)和氢氯噻嗪+地塞米松(对照组)降低颅内压的疗效。问两组降低颅内压的总体有效率有无差别
6、?,第二节 卡方检验,一、四格表资料卡方检验,200例颅内压增高症患者随机分为两组,1,试验组,有效,2,试验组,无效,3,对照组,无效,200,试验组,有效,两组降低颅内压疗效的比较,两种可能性:两组总体有效率确实不同两组总体有效率相同,两组样本率的差异仅仅是由于抽样误差造成。,99,5,75,21,合计,104,96,有效率(%),95.20,78.13,1、建立检验假设,确定检验水准,两组降低颅内压总体有效率相等,两组降低颅内压总体有效率不等,(83.52),(理论频数T12?),(90.48),实际频数A,(13.52),(理论频数T22?),(理论频数T21?),(理论频数T11?)
7、,表7-1 两组降低颅内压有效率的比较,174,87.00,200,26,(12.48),理论频数 是在 成立的前提下计算的,A:实际频数(Actual frequency)T:理论频数(Theoretical frequency),英国统计学家Karl Pearson首次提出,故被称为Pearson。,2、求检验统计量和自由度,3、查表,求 值,下结论。,以 查附表8 界值表得。按 检验水准拒绝,接受,认为两组总体有效率不等。,A与T相差不大,A与T相差太大,基本公式或专用公式;校正公式;Fisher确切概率法。,四格表资料 检验公式选择,校正公式(Yates校正),两种药物治疗脑血管疾病有
8、效率的比较,(4.67),(两种药物治疗脑血管疾病的有效率相等)(两种药物治疗脑血管疾病的有效率不等),配对设计是指将实验单位按一定条件配成对子,再将每对中的两个实验单位随机分配到两个处理组。,同一个体同时分别接受两种不同处理,配成对子的两个个体分别给予两种不同的处理,例:某实验室分别用乳胶凝集法和免疫荧光法对58名可疑系统红斑狼疮患者血清中抗核抗体进行测定。目的是推断两种方法的检测结果有无差别。,成组设计,1,乳胶凝集法,+,2,免疫荧光法,-,58,乳胶凝集法,+,配对设计,第1人,乳胶凝集法,+,第2人,免疫荧光法,-,第3人,+,+,-,-,第58人,-,+,11(a),12,23,2
9、,33(d),35,13,(c),(b),(b),(c),45,58,两种方法的检测结果,B=C?,在检验假设H0为总体对子数B=C的条件下:,(+,-)和(-,+)两个格子的理论频数为,本例(bc)=1440,应采用校正公式,P0.05,拒绝H0,接受H1,可以认为两种方法的检测结果不同,免疫荧光法的阳性检测率较高。,H0:BC,即两种方法的总体检测结果相同H1:BC,即两种方法的总体检测结果不同,假设检验,第五节RC列联表的检验,46,行列表资料,多个样本率比较时,有R行2列,称为R 2表;两个样本的构成比比较时,有2行C列,称2C表;多个样本的构成比比较,以及双向无序分类资料关联性检验时
10、,有行列,称为R C表。,甲、乙、丙三家医院住院病人院内感染率比较,49,检验统计量,=(R-1)(C-1),甲、乙、丙三家医院住院病人院内感染率比较,51,H0:三家医院院内感染率相同H1:三家医院院内感染率不同或不全相同=0.05,=(3-1)(2-1)=2,查2值表,20.01(2)=9.21,220.01(2),P0.01,按=0.05的检验水准,拒绝H0,接受H1,故可认为甲、乙、丙三家医院院内感染率总体有差别。,一般要求:,增大样本含量删去理论频数太小的行或列将理论频数太小的行或列与性质相近的邻行或邻列合并改用Fisher确切概率法,处理方法:,1、行列表中各格理论频数不宜过小,且1T5的格子数不宜超过1/5格子总数,各格T1,521,521,4935,4935,4935,521,2、对于有序的 表资料不宜用 检验,两组降低颅内压疗效的比较,单向有序(指标有序),不同年龄组某药降压效果,单向有序(分组有序),血清法与滤纸片法抗体阳性反应等级比较,双向有序属性相同,不同年龄组冠状动脉硬化情况列表,双向有序属性不同,双向无序单向有序(分组有序)单向有序(指标有序)双向有序属性相同双向有序属性不同,非参数检验,一致性检验,非参数检验 等级相关分析 线性趋势检验,检验,58,