社会统计学卢淑华版x课件.ppt

上传人:牧羊曲112 文档编号:1454342 上传时间:2022-11-26 格式:PPT 页数:79 大小:2.66MB
返回 下载 相关 举报
社会统计学卢淑华版x课件.ppt_第1页
第1页 / 共79页
社会统计学卢淑华版x课件.ppt_第2页
第2页 / 共79页
社会统计学卢淑华版x课件.ppt_第3页
第3页 / 共79页
社会统计学卢淑华版x课件.ppt_第4页
第4页 / 共79页
社会统计学卢淑华版x课件.ppt_第5页
第5页 / 共79页
点击查看更多>>
资源描述

《社会统计学卢淑华版x课件.ppt》由会员分享,可在线阅读,更多相关《社会统计学卢淑华版x课件.ppt(79页珍藏版)》请在三一办公上搜索。

1、第2章 单变量描述统计分析,第1节 统计分组,2022-11-26,统计学,1,一、分布(distribution),变量各种可能取值及其出现的次数或频次,又称频次分布。频数、频次、次数(frequency),2022-11-26,统计学,2,二、统计表,2022-11-26,统计学,3,多选项二分法,2022-11-26,统计学,4,多选项二分法,2022-11-26,统计学,5,多选项分类法,P26 例2P27 例3,2022-11-26,统计学,6,3、加权平均法,P28 例4,2022-11-26,统计学,7,(二)定序变量,2022-11-26,统计学,8,(三) 定距变量,统计分组

2、的步骤(等距、重合、组距式分组),第一:确定组数。,经验公式 k=1+lgn/lg2,k =1+lg100/lg2=7.64,第二:确定组距。,组距 =(最大值-最小值)/组数 =(1.56-1.27)/10=0.029,原则:以5或10的倍数作为组距。本例选择:0.03,第三:确定组限。,要求:第一组下限要小于所有数据的最小值,最后一组上限要大于所有数据的最大值,原则:以5或10的倍数作为组限。,2022-11-26,统计学,9,(三) 定距变量,统计分组的步骤(等距、重合、组距式分组),第四:计数。,以0.03作为组距的分组情况。1.265-1.295;1.295-1.325,,1.255

3、-1.285;1.285-1.315,,1.245-1.275;1.275-1.305,,2022-11-26,统计学,10,(三) 定距变量,表2.11 100名儿童身高统计分组表,2022-11-26,统计学,11,向上累计:由低到高,上限以下向下累计:由高到低,下限以上,思考:360体您本次开机共用时1分10秒,击败了全国12%的电脑,2022-11-26,统计学,12,关于统计分组的个人认识,原则:统计分组没有对错,只有好坏。,开口组实际中应用更广。,极端值,extreme value,判断依据:发生概率非常小,后果很严重,911事件,2004印度洋海啸,飞机失事、英法核潜艇相撞、美、

4、俄卫星相撞,股灾,亚洲金融危机,2022-11-26,统计学,13,图2.1 家庭结构分布图,饼图(Pie),2022-11-26,统计学,14,条形图 bar,2022-11-26,统计学,15,100名儿童身高向上累计直方图,2022-11-26,统计学,16,100名儿童身高向下累计直方图,2022-11-26,统计学,17,父亲身高(800名),2022-11-26,统计学,18,母亲身高(800名),2022-11-26,统计学,19,父亲体重(800名),2022-11-26,统计学,20,母亲体重(800名),2022-11-26,统计学,21,分年龄别的死亡率,2022-11-

5、26,统计学,22,三次产业构成比,2022-11-26,统计学,23,2022-11-26,统计学,24,数据描述的数值方法,数据描述的数值方法,分布的形状,集中趋势,离散程度,众 数,中位数,均 值,离散系数,方差和标准差,峰 度,四分位距,极差,偏 态,第2节,第3节,2022-11-26,统计学,25,一、众数(Mode)概念 :出现次数最多的标志值计算(一)定类数据 表2.5 P24,第二节:集中趋势的测量,2022-11-26,统计学,26,Mo=“核心家庭”,2022-11-26,统计学,27,(二)定序 表2.7 P29,Mo=“不爱看”,Mo=“一般”,2022-11-26,

6、统计学,28,(三)定距,1.未分组资料 表2.10,2.单项式 表2.14,3.组距式 表2.11,Mo=1.38,1.39,1.40,1.41,1.42,1.43,1.44,Mo=1,2,Mo=1.40,1.43,2022-11-26,统计学,29,二、中位数Median,(一)定序 表2.7 找中位数组:向上累计次数首次超过N/2的组即为中位数组;该组的标志值即为中位数值,Me=“一般”,2022-11-26,统计学,30,(二)定距,1.未分组资料 表2.10,方法:中位数位置=(N+1)/2,2022-11-26,统计学,31,概念解释:次序统计量 (order statistics

7、),2022-11-26,统计学,32,表2.10,2022-11-26,统计学,33,2.分组资料,(1)单项式分组 表2.18向上累计次数首次超过N/2的组即为中位数组;该组的标志值即为中位数,Me=“乙”,2022-11-26,统计学,34,(三)组距式分组,首先确定中位数组;使用公式下限公式:上限公式:,2022-11-26,统计学,35,公式中各字母含义,U:中位数组的上限; L:中位数组的下限;fm:中位数组的频数;Sm-1:向上累计时中位数组前一组的累计频数, 即中位数前一组所对应的向上累计频数;Sm+1:向下累计时中位数组后一组的累计频数 即中位数后一组所对应的向下累计频数;i

8、:中位数组的组距。,2022-11-26,统计学,36,f2,x,向上累计,Sm-1,Sm,L,U,Me,A,b,中位数组前一组,中位数组,B,C,a,E,D,下限公式,Me=L+a,上限公式,Me=U-b,下限公式推导,2022-11-26,统计学,37,表2.11 100名儿童身高统计分组表,f,中位数组次数,中位数组上限,首次大于50%,首次大于50,中位数组前一组所对应向上累计次数,中位数组,中位数组下限,2022-11-26,统计学,38,L=1.385,U=1.415,fm=24,Sm-1=34,i=0.03,2022-11-26,统计学,39,2022/11/26,40,西藏,辽

9、宁,天津,上海,图1 我国分地区人口年龄中位数(2000年),北京,河南,2022-11-26,统计学,41,三、四分位数(quartile),概念:数据排序后处在25%,50%和75%位置上的数。,25%,25%,25%,25%,Q1,Q2,Q3,Q2=Me,2022-11-26,统计学,42,(一)定序 表2.7 找Q1、 Q2、 Q3所在组 Q1所在组:向上累计次数首次超过f/4的组; Q2所在组:向上累计次数首次超过f/2的组; Q3所在组:向上累计次数首次超过3f/4的组;,Q1 = Q1所在组标志值;Q2 = Q2所在组标志值; Q 3= Q3所在组标志值;,2022-11-26,

10、统计学,43,19.5,9.75,Q1所在组,Q1=“不爱看”,Q2所在组,Q2=“一般”,29.25,Q3所在组,Q3=“爱看”,2022-11-26,统计学,44,(二)定距数据,1、未分组资料(spss版本),Q1位置=(n+1)/4;Q2位置=(n+1)/2;Q3位置=3(n+1)/4,表2.10Q1位置=(n+1)/4=25.25;Q2位置=(n+1)/2=50.5;Q3位置=3(n+1)/4=75.75,Q1=x(25)+0.25 x(26)-x(25)=1.37+0.25 1.37-1.37=1.37,Q2=x(50)+0.5 x(51)-x(50)=1.4+0. 5 1.41-

11、1.4=1.405,Q3=x(75)+0.75 x(76)-x(75)=1.44+0.75 1.44-1.44=1.44,2022-11-26,统计学,45,(二)定距数据,1、未分组资料(excel版本),Q1位置=(n+3)/4;Q2位置=(n+1)/2;Q3位置=(3n+1)/4,表2.10Q1位置=(n+3)/4=25.75;Q2位置=(n+1)/2=50.5;Q3位置=(3n+1)/4=75.25,Q1=x(25)+0.75 x(26)-x(25)=1.37+0.75 1.37-1.37=1.37,Q2=x(50)+0.5 x(51)-x(50)=1.4+0. 5 1.41-1.4=

12、1.405,Q3=x(75)+0.25 x(76)-x(75)=1.44+0.25 1.44-1.44=1.44,2022-11-26,统计学,46,Excel 操作 :quartile,2022-11-26,统计学,47,2.分组资料(1)单项式分组 找Q1、 Q2、 Q3所在组 Q1所在组:向上累计次数首次超过f/4的组; Q2所在组:向上累计次数首次超过f/2的组; Q3所在组:向上累计次数首次超过3f/4的组;,Q1 = Q1所在组标志值;Q2 = Q2所在组标志值; Q 3= Q3所在组标志值;,2022-11-26,统计学,48,(2)组距式分组,使用公式, 找Q1、 Q2、 Q3

13、所在组 Q1所在组:向上累计次数首次超过f/4的组; Q2所在组:向上累计次数首次超过f/2的组; Q3所在组:向上累计次数首次超过3f/4的组;,2022-11-26,统计学,49,2022-11-26,统计学,50,2022-11-26,统计学,51,表2.11 100名儿童身高统计分组表,f,首次大于50,首次大于25,Q3所在组,首次大于75,Q1所在组,Q2所在组,L1=1.355,U1=1.385,2022-11-26,统计学,52,表2.11 100名儿童身高统计分组表,2022-11-26,统计学,53,2022-11-26,统计学,54,三、均值,(一)未分组资料(简单算术平

14、均数),(二)分组资料(加权算术平均数),2022-11-26,统计学,55,三、均值,(一)未分组资料(简单算术平均数),(二)分组资料(加权算术平均数),2022-11-26,统计学,56,例 2.10,Excel 内置函数 =average(),2022-11-26,统计学,57,例 2.11,Excel 内置函数 sumproduct(),sum(),2022-11-26,统计学,58,众数、中位数和算术平均数的关系,分配为钟形、轻微不对称的经验公式:,2022-11-26,统计学,59,第三节:离散趋势测量法,数据集中趋势的测度指标确实能反映某种事物的一般水平,在比较不同空间和时间上

15、的情况是能消除规模大小的影响,是衡量其差距的重要指标。但只依据平均指标来评价事物的优劣远远不够。因为总体内部各单位标志值具有差异,有高低、大小、多少之别。就总体而言,平均数背后隐藏最大值与最小值之间的差距,有的差距不大,有的则非常悬殊。总体内部各单位标志值差距悬殊的平均数就掩盖着尖锐的矛盾,让人们感到不真实。所以,在反映具体问题时,除了从集中趋势角度分析外,还应把总体内部各单位标志值中最大值、最小值及其差距摆出来,要列出平均差异大小和差异的相对程度,即要对待研究现象进行离散程度的测度。,2022-11-26,统计学,60,一、异众比率,2022-11-26,统计学,61,异众比率=1-1050

16、/2130=50.70%,一、异众比率 (定类数据),2022-11-26,统计学,62,2.全距(Range),全距也称极差,是一组数据的最大值与最小值之差。R=最大值-最小值组距分组数据可根据最高组上限 -最低组下限计算。受极端值的影响。,2022-11-26,统计学,63,1.未分组资料 表2.10,R=1.56-1.27=0.29,Excel操作,最大值 =max(),=large(data,1),最大值 =min(),=large(data,1),2022-11-26,统计学,64,2. 分组资料 表2.11,R=1.565-1.265=0.3,2022-11-26,统计学,65,等

17、于上四分位数与下四分位数之差反映了中间50%数据的离散程度,数值越小说明中间的数据越集中。不受极端值的影响。可以用于衡量中位数的代表性。,2 四分位距(Inter-Quartile Range, IQR),2,2,3,4,4,4,5,5,6,6,7,Q1=3, Q2=6, Q3=6,2022-11-26,统计学,66,方差是一组数据中各数值与其算术平均数离差平方的平均数,标准差是方差正的平方根。总体方差和样本方差的符号不同,计算公式也不一样。是反映定量数据离散程度的最常用的指标。,3 方差和标准差,2022-11-26,统计学,67,方差的计算公式,样本方差用(n-1)去除,从数学角度看是因为

18、它是总体方差2的无偏估计量。,2022-11-26,统计学,68,P56.表2-26,(一)未分组资料,Excel操作,总体方差 =varp(data),总体标准差 =stdevp(data),样本方差 =var (data),样本标准差 =stdev(data),(二)分组资料,表2.11,2022-11-26,统计学,69,4 离散系数(Coefficient of Variation),标准差与其相应的均值之比,表示为百分数。特点:反映了相对于均值的相对离散程度;可用于比较计量单位不同的数据的离散程度;计量单位相同时,如果两组数据的均值相差悬殊,离散系数可能比标准差等绝对指标更有意义。,

19、2022-11-26,统计学,70,离散系数:例子,对30名经理人员的调查表明年平均收入=$500,000,标准差 = $50,000。对30名工人的调查表明平均收入= $32,000,标准差 = $5,000。离散系数:经理人员:工人:虽然经理人员收入的绝对离散程度远远大于工人,但经理人员收入的相对离散程度小于工人。,2022-11-26,统计学,71,1 偏态及其测定(Skewness),数据分布的不对称性称作偏态。偏态系数就是对数据分布的不对称性(即偏斜程度)的测度。偏态系数有多种计算方法,在统计软件中(如Excel等)通常采用以下公式:,Excel操作:=skew(data),2022

20、-11-26,统计学,72,偏态系数的含义,2022-11-26,统计学,73,2 峰度及峰度系数(Kurtosis),峰度:数据分布的扁平或尖峰程度。峰度系数:数据分布峰度的度量值,对数据分布尖峰或扁平程度的测度,一般用K表示。统计软件(如Excel等)中常用以下公式计算:,Excel操作:=kurt(data),2022-11-26,统计学,74,峰度系数的含义,峰度系数K0,与正态分布相比该分布一般为扁平、瘦尾,肩部较胖。,峰度系数K0,与正态分布相比该分布一般为尖峰、肥尾,肩部较瘦。,2022-11-26,统计学,75,Excel 描述统计分析结果,2022-11-26,统计学,76,SPSS描述统计结果,全距,最小值,最大值,求和,均值,统计量,标准误差,2022-11-26,统计学,77,SPSS描述统计结果,(样本)标准差,(样本)方差,偏度系数,峰度系数,2022-11-26,统计学,78,2022/11/26,79,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号