《统计分析——单变量描述统计课件.ppt》由会员分享,可在线阅读,更多相关《统计分析——单变量描述统计课件.ppt(56页珍藏版)》请在三一办公上搜索。
1、项目八:调查资料的统计与分析,任务一 单变量描述统计任务二 单变量推论统计任务三 双变量相关关系分析,任务一 单变量描述统计,(一)频数分布所谓频数分布(frequency distribution),就是指一组数据中取不同值的个案的次数分布情况,它一般以频数分布表的形式表达。频数分布表的作用有两方面,一是简化资料,即将调查所得到的一长串原始数据,以一个十分简洁的统计表反映出来。二是从频数分布表中,可以更清楚的了解调查数据的众多信息。,一、频数分布与频率分布,(二)频率分布所谓频率分布(percentages distribution),就是指一组数据中不同取值的频数相对于总数的比率分布情况,
2、这种比率在社会调查中经常是以百分比的形式来表达。频率分布表除了频数分布表的优点之外,还有一个重要的优点就是十分方便地用于不同总体或不同类别之间的比较。,频数分布表和频率分布表实例,注意的是,对于一项有一定规模的调查样本来说,一般不宜对如年龄、收入、时间等定比变量做频数分布表或频率分布表。因为,此时类别很多,而每一类别中个案数不多,所得结果繁杂不适用。,二、集中趋势分析,集中趋势测量:用某一个典型的变量值或特征值来代表全体变量的问题,这个典型的变量值或特征值就称作集中值或集中趋势。 众值(Mode)定类层次 中位值(Median)定序层次 均值(Mean)定距层次,(一)众数(mode),1、出
3、现频次最多的变量值;2、众数的不唯一性;原始数据:4、5、7、8、19(无众值)原始数据:4、5、7、5、5、16(一个众值)原始数据:4、4、5、7、7、9(两个众值)3、主要应用于定类变量,当然也可以应用于定序和定距变量,1.单值分组资料(非连续取值)求众数,2.组距分组(连续取值)资料求众数,先找出众数组,代入公式组距分组资料众数求值公式:,解: 找出众数组为222.5227.5 代入组距分组资料众数求值公式:,练习:求下表众数,表X-X 某人群月收入频数分布表,从分布来看,众数是具有明显集中趋势点的数值,一组数据分布的最高峰点所对应的数值及为众数。,(二)中位数(Median),把一组
4、数据按顺序排列,处于中间位置的那个数值就是中位值。主要应用于定序变量,也可用于定距变量,但不可用于定类变量。,将各个个案由低至高排列起来,居序列中央位置的个案值就是中位数。 Md位置= 中位数=中间位置的值注意:先找位置,再找中位数,1.原始资料求中位数,个案数为奇数【例3】:甲地的5户人家的人数为:2,4,3,6,8,求中位值。 解:Md的位置 3,个案数为偶数【例4】:乙地的6户人家的人数为:2,4,3,6,8,5求中位值。 解:Md的位置 3.5,【例5】根据下表求中位值。,解:Md位置 250.5 中位值Md乙,先计算累计频数,然后求中间位置,中间位置最先落入的累计频数所对于的标志值即
5、为中位数。,2.单值分组资料(非连续取值)求中位数,练习1:计算表9-7的中位数,先找出中位数所在组,利用公式,374.25,3、组距分组(连续取值)资料求中位数,练习:计算下表中位数,练习:计算下表中位数,(三)平均数(mean),1、原始资料求均值,【例6】某班10名学生年龄分别为20、21、19、19、20、20、21、22、18、20岁,求他们的平均年龄。,解:根据平均数的计算公式有:,29,某个变项值重复出现多次,可以先统计每个值(x)的次数(f),再求次数与相应变量值的乘积(fx),利用各乘积之和求出均值。(f也称为权数,f/n称为权重) 公式:,2、单值分组资料求平均数,【例7】
6、调查某年120名学生的年龄,结果如下表,求平均年龄。,解:根据公式得18.9岁,3、组距分组资料求均值,先求出组中值组中值=(上限+下限)/2计算组中值的和计算分组数据的均值,组中值,例8,众数、中位数和平均数的比较1,注: 表示该数据类型最适合用的测度值,众数、中位数和平均数的比较2,平均数比中位数利用了更多的数据信息,对总体的描述更全面和准确。平均数很容易受到极端值变化的影响,而中位值不会受到这种影响。对于抽样调查来说,平均数是一种比中位数更为稳定的量度,它随样本的变化比较小。,众数、中位数和均值的关系,练习:,求下表(单项数列)所示数据的算术平均数。,表X-X 某样本家庭人口数分布表,求
7、下表所示数据的的平均数,4.4,某年级学生身高如下,求中位数,求下表中的众数,170.29,求下表的众数,表X-X 某人群身高范围频数分布表,三、离散趋势分析,离散趋势分析(dispersion tendency analysis),指的是用一个特别的数值来反映一组数据相互之间的离散程度。常见的离散量数统计量有全距、标准差、异众比率、四分位差等。标准差、异众比率、四分位差分别与平均数、众数、中位数相对应,判定和说明平均数、众数、中位数代表性的大小。,例9,如果仅从集中趋势测量(平均分数)来看,这三个系的成绩都一致,不存在什么差别。但从直观上可看出,三个系选手之间的差距程度(离散程度)很不一样?
8、,(一)全距(Range),又叫极差,它是一组数据中最大值与最小值之差。其意义在于一组数据的全距越大,在一定程度上说明这组数据的离散量数越大,而集中量数统计量的代表性越低。反之,一组数据的全距越小,则说明这组数据的离散量数越小,而集中量数统计量的代表性越高。,(二)标准差(standard deviation),一组数据对其平均数的偏差平方的算术平均数的平方根。用S表示。1、原始资料求标准差:,【例10】:求标准差,并进行简单比较。中文系:78,79,80,81,82 ( 80)数学系:65,72,80,88,95 ( 80)英语系:35,78,89,98,100 ( 80),解:根据公式 S
9、中文系1.414分 S数学系10.8分 S英语系23.8分,2、单值分组数据资料,计算标准差的公式为,3、组距分组资料标准差计算,S,组中值,标准差的实际应用,1.甲、乙、丙命中的总环数分别为93、93、91,所以丙理应先被淘汰。2.甲、乙命中环数的平均数均为9.3,计算标准差。S甲= ,S乙=3.在总成绩相同的情况下,理应派发挥较稳定的甲参加比赛。,三、四分位差(Interquartile range),将数据由低至高排列,然后分为四等分(即每个等分包括25的数据),第一个四分位置的值( Q1 )与第三个四分位置的值(Q3)的差异,就是四分位差(简写为Q)。,Q1,Q2,Q3,Q4,25%,
10、25%,25%,25%,解: Q1 的位置 =75.25 Q3的位置 225.75那么 Q1不满意; Q3一般QQ3Q1一般不满意结论,有一半的家庭对住房评价在不满意到一般之间。,【例11】求下表的四分位差,例12,2、根据分组资料求四分位差有四步:计算向上累加次数求出Q1 和Q3的位置 Q1= Q3=参考累加次数分布,决定Q1和Q3属于哪一组从所属组中,计算Q1位置和Q3位置的数值。,指的是一组数据中非众数的次数相对于总体全部单位的比率。用VR表示。其意义是指众数所不能代表的其他数值在总体中的比重。异众比率越大,则众数代表性越小;异众比率越小,则众数代表性越大。,四、异众比率(variati
11、on ratio),5、离散系数(coefficient of variation),变差系数,它是一种相对的离散量数统计量,它使我们能够对同一总体中的两种不同的离散量数统计量进行比较,或对两个不同总体中的同一离散量数统计量进行比较。定义为:标准差与平均数的比值,记为CV。,同一总体中的两种不同的离散量数统计量的比较,例13,不同总体中的同一离散量数统计量的比较,例14,练习:,试求两组产量的平均数、标准差。,求下表数据的标准差,表X-X 某人群身高范围频数分布表,小结,1、集中趋势测量和离散趋势测量具有互补性,集中趋势反映的是资料的代表性,离散趋势反映的是资料的差异情况;2、选何种方法,要注意变量的测量层次,彼此的关系综合如下:,