社会统计学(卢淑华),第十章.ppt

上传人:小飞机 文档编号:5294626 上传时间:2023-06-23 格式:PPT 页数:35 大小:3.34MB
返回 下载 相关 举报
社会统计学(卢淑华),第十章.ppt_第1页
第1页 / 共35页
社会统计学(卢淑华),第十章.ppt_第2页
第2页 / 共35页
社会统计学(卢淑华),第十章.ppt_第3页
第3页 / 共35页
社会统计学(卢淑华),第十章.ppt_第4页
第4页 / 共35页
社会统计学(卢淑华),第十章.ppt_第5页
第5页 / 共35页
点击查看更多>>
资源描述

《社会统计学(卢淑华),第十章.ppt》由会员分享,可在线阅读,更多相关《社会统计学(卢淑华),第十章.ppt(35页珍藏版)》请在三一办公上搜索。

1、第十讲,列联表,第一节 概念,1、研究内容1)研究两定类变量的关系2)为研究y的分类是否与x之分类有关,将数据先按x分类,再分别统计x分类情况下y的分类。3)按两个定类变量进行交叉分类的频次分配表,即二维列联表。,4、列联表的一般形式,Nij:x=xi y=yj时所具有的频次,y,x,y1y2,x1N11N12,x2N21N22,.,.,.,xcNc1Nc2,.,.,.,.,yr,N1r,N2r,.,.,.,Ncr,学生上网调查(统计各项比例,能发现什么问题?),男生,女生,聊天玩游戏网恋学习,20501515,20501515,Nij,后者可以通过前者求出 p N,N,p 1,i 1 j 1

2、,2、列联表中变量的分布,1)联合分布对于二变量来说,为了知道分布,集合中的变量值,必须同时具有x和y两个变量的取值。(x1 y1 N11)(x2 y2 N12),(x1 yr,N1r),此称联合分布,(xi yj Nij)(xc yr Ncr),Nij,表示频次时,联合频次分布表,Pij 表示概率时 联合概率分布表,ij,Nij,c ri 1 j 1,c r,ij,2)边缘分布:对联合分布进行简比,只研究其中某一变量的分布,而不管另一变量的取值,这样就得到边缘分布。按行加总y的边缘分布:P y yr P1r P2 r Pcr Pr按列加总x的边缘分布:Px xc Pc1 P2c Pcr Pc

3、,3)条件分布:将其中一个变量控制起来取固定值,再看另一变量的分布,即条件分布。控制x时,条件分布中的每一项都以边缘分布的 N1*N 2*N c*为分母控制y时,条件分布中的每一项都以边缘分布的 N*1 N*2 N*r 为分母,3、列联表中的相互独立性:,1)列联表研究定类变量之间的关系,实际上是通过条件分布的比较进行的。如果两个变量之间没有关系,则称变量之间是相互独立的。2)如果两个变量之间是相互独立的,则必然存在变量的条件分布与其边缘分布相同。,条件分布=边缘分布是列联表检验的基础:,(控制x时),N*jN,NN i*,NijN,N*jN,NijNi*,N*1N,N 21N 2*,N11N

4、1*,Pij Pi*P*j,ni,n j,Pi,第二节 列联表的检验,一、原假设:将总体中变量间无关系或相互独立作为检验,的原假设。H 0:pij,pi*p*j,总体 pi*和 p*j 未知时,用样本 p i 和 P j 代替。P j n n,22c r2 2ij,E,ij,ni*n*jn,E np,*jij,统计量的讨论,1、对于22列联表,由于格数过少,为,减少作为离散观测值与作为连续型变量x值之间的偏差,可作连续性修正:22 22Eij 2、二项总体2 22E1 E2p0 为总体成数1 2,男女休闲爱好,x,ni Ei,x r 1,4、使用统计量 x 对列联表迚行检验,每一格值的 E,值

5、时 nij Eij 值的波劢就会较大。,2,那么在计算,3、对多项总体:,Ei,2,统计量:r2i 1,2,p,E,i,i 0,n,ij,2要保持在一定数目乊上。如果有的格值 Eij 过小,2xEij,每格要求:,处理方法:将期望值偏小的格值合并。右例,做检验。,Eij,20 30 3 1,nij,18,29,4,2,E ij 5,注意:列联表就其检验内容来看是双边检验,但从形式上看,却又很像单边检验。其判断的内容仅是变量间是否存在关系。至于方向,由于列联表属定类变量,因此是不存在的。,ni Ei,x,E,i 1,x r 1,列联表检验步骤,1、H,0,H,1,i,2,2,2、统计量:r23、

6、4、比较,例:以下是老、中、青三代对某影片的抽样,能否认为三代人对该影片评价有显著差异,老,中,青,很高一般,4547,3926,2122,第三节 列联强度,一、变量间的相关1、列联表中的频次分布情况,不仅是检验是否存在关系的依据,同时也是度量变量间关系强弱的依据。相关性程度越高,说明社会现象与社会现象间的关系愈密切。2、列联表中变量间的关系的强度分析,可以将频次转化为条件分布,然后比较自变量取不同值时,因变量条件分布的不同。,例,右表中,男生上网玩游,生;,想一想,当x取值大于2,时,怎样比较?,戏的比例高于女生;而上网聊天的比例低于女 y x,男生,女生,聊天,玩游戏 40 67%10 2

7、5%,30 33%30 75%,即:ad bc,二、2 2表 系数和系数,列联表中两个变量都只有二种取值时,就是 22表y,x,ac,bd,x1,x,2,y1y2,当变量间无关系时(独立)a ba c b d对于22表,无论 系数或系数,都以差值 ad bc为基础进行的讨论,同时,也把关系强度的取值范围定义在1,1之间。,1、系数,ad bca bc d a cb d,0 当两变量相互独立 1 b、c为零,值最大1a、d为零,值最小-1 1 一般情况前例中计算,Q,2、系数ad-bcad bc当a、b、c、d中有一个是零时,则 Q 1对应的实际情况是配对样本研究3、Q 系数的选择当自变量的不同

8、取值都会影响因变量时,用 系数。当存在控制组时,用系数,x,x 值构成 系数,4、r c 列联表222Eij 期望频次 Eij 是基于无相关前提下计量出来的,,2因 愈大,表示变量间距离无相关性愈远。2 x2 n其与22表中 系数是一致,22表中是 r c表中 系数的特例。,x,n,c值在0,1但永远小于1,又出现了v系,数:,由于r c 表的数增多后,值增加,没有上限,无法比较,因此以c系数修正。,x,c,2,2,2minr 1,c 1,V,1,V 的取值:o V,表示所减少的相对误差,越大表示y与x关,2)以减少误差比例为基础的相关性测量,PRE不受变量层次的限制,通过现象之间的关系研究,

9、从一个现象预测另一个现象。PRE E1 E 2E1E1:不知y与x有关系时,预测y的全部误差,E 2:知道y与x有关系后,用x去预测y的全部误差,E1 E2E1系越密切。,误差为:jnn max,为 nn max,E,PRE的取值范围:PRE=0:两变量是无相关(知道x与否无助于y的预测,1 E 2 误差不变)PRE=1:两变量是完全相关的(知道x与y有关系后,可以消除预测的全部误差)0 PRE 1:其他E1:不知y与x 有关,用y的边缘和 n的最大值去猜y值,猜中的频次会更多。全部E 2:知道有关后,先看它属于x的哪一类,然后用这一类的众值去猜y值,误差ciji 1,j,max n max

10、n,n max n,两种系数:,*j,ij*j,ci 1,1)系数 E1 E2 E1即:,每列最高频次之和 y边缘和中最高频次,观察总数 y边缘和中最高频次 的取值范围:x与y无相关:0;x与y全相关:1,PRE,所得 值称作 y,,N,D,PRE,所得 值称作 x,,N,D,Dy Dx,D D y D D x,值的非对称性:,1)以x为自变量,用对y的预测来定义yyy2)以y为自变量,用对x的预测来定义xxx3)如果x和y孰因孰果不明显的情况,这时可同时计算 y 和 x,并取其平均值,作为x和y间的相关程度。,xx,N y NDy D,y x y x,边缘分布所提供的信息。c r,n 1,n

11、,E,n,n,E,i 1 j 1 j 1,1,n n,E,n,系数又有修正:,系数:对 E1 和 E 2 的定义比,当不知道x与y有关系预测y时,充分考虑到y值2rij 2*j1 2 i*r21*jj 1的取值范围:x与y无相关:0(边缘分布与条件分布相同)x与y全相关:1(各行、各列均只有一个不为0的频次),以前例为参照的推导:,1、不知x与y有关:,猜游戏与聊天:用边缘分布:40%,60%,随机指派40人,猜对游戏的人数4040/100=16猜错的人数40-4040/100=40(1-40/100)=24,同理:,随机指派60人,猜对聊天的人数6060/100=36猜错的人数60-6060

12、/100=60(1-60/100)=24,j1 n*j,E1即为猜错人数之和。推广:,1 r 2n,n,n*2n,)n*2(1,n*1n,E1 n*1(1,)n*r(,知道x与y有关后:用y的条件分布来猜y值,当x=男生时随机10人,猜对聊天的人数:1010/50猜错的人数:10-1010/50随机40人,猜对游戏的人数:4040/50猜错的人数:40-4040/50猜错二者相加:=(10-1010/50)+(40-4040/50)=50-1/50(102+402)同理:当x=女生时?,j1,E2即为全部误差之和。,推广:,1 rn1*n 2 ijn i*,E 2(n1*n,n 21j)(n 2*)c,值称 y,以x为自变量,用对y的预测来定义PRE,所得,值的非对称性:,以y为自变量,用对x的预测来定义PRE,所得 y 与 x 是不对称的,因此 是非对称的。,例:,值,已知列联表,求,y,x,30,120,150,3060,20140,50200,x1,x,2,y1,2,y,a 0.025,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号