《数据的特征量及统计分析.ppt》由会员分享,可在线阅读,更多相关《数据的特征量及统计分析.ppt(33页珍藏版)》请在三一办公上搜索。
1、第三章,数据的特征量及统计分析,第一节 数据(资料)的集中量,集中量代表一组数据集中趋势或一般水平的特征量。,一、平均数 又称均值,能反映一组数据的集中趋势,是一组计量资料的代表值,可作为资料代表与另一组资料相比较,以明确两组资料之间的差异状况。,包括平均数、中位数、众数,包括:算数平均数、加权平均数、几何平均数、调和平均数。,统计分析中,算数平均数应用最普遍。,1.算数平均数的计算方法,(1)直接计算法,适用于不分组的小样本资料,全部数据的总和除以数据总个数所得的商,简称均数(mean),(一)算术平均数(arithmetic mean),(2)频数分布表计算法求算术平均值的近似值,f:各组
2、频数 X:各组组中值 k:组数 N:总频数,适用于已经编制成频数分布表的分组数据资料,表3-1 60个幼儿珠心算成绩平均数计算表,例3-1:,(4)算术平均数的性质,A.各观察值的总和等于平均数的n倍,B.离均差(各观察值与平均数之差)的总和等于零,C.离均差的平方和比各观察值与任何其它数值的离差的平方和都小,即离均差的平方和最小。,D.可加性:,WN:各观察值的权重 XN:具有不同权重的观察值,加权平均数计算公式1:,具有不同权重(比重)数据(或平均数)的平均数。,二、加权平均数、几何平均数、调和平均数,1.加权平均数,例3-2:学生最终总评成绩为期中考试成绩占30%,期末考试成绩占70%。
3、某学生期中考试成绩76 分,期末考试成绩82分,计算该学生最终总评成绩是多少?,N:各组数据的頻数:各组数据的平均值,加权平均数计算公式2:,例3-3:某幼儿园大班有四个班,各班人数分别为50,52,54,48,各班绘画成绩平均分数为82,83,84,81,求全年级绘画的平均成绩。解:利用加权算数平均数计算法计算得:,2.几何平均数,当数据较多时(n3),先计算对数平均数,再求GO,N个数据连乘积的N次方根,符号为 或 GO,几何平均数的应用,计算入学人数增加率、学校经费增加率、阅读能力提高率等。,例:某市6年中小学教师的学历达标率分别为40%、52%、65%、72%、78%、86%,计算该市
4、小学教师6年学历平均达标率。,解:,3.调和平均数,用于计算平均学习速度,如阅读速度、解题速度、识字速度等。,一组数据中每个数据的倒数的算数平均数的倒数,符号为。,二、中位数(median)Md,一组依大小排列的观察值中居中位置的数值。,中位数计算法:,1、不分组数据中位数计算法:,2、頻数分布表计算法:,(1)中位数计算公式:,Lmd:中位数所在组的下限值;Umd:中位数所在组的上限值;N:表示总频率;n1:小于中位数所在组下限的頻数总和;n2:大于中位数所在组上限的頻数总和;i:頻数分布表中的组距;fmd:中位数所在组的頻数。,(2)利用頻数分布表法计算中位数的步骤:,计算N/2,即数据总
5、頻数的1/2;依据N/2确定中位数所在组;查找中位数所在组的頻数、下限、上限和组距;计算小于中位数所在组下限的頻数总和或大于中位数所在组上限的頻数总和;将总頻数、中位数所在组的頻数、下限或上限、组距、小于中位数所在组下限的頻数总和或大于中位数所在组上限的頻数总和代入中位数计算公式。,中位数是表示数据阵列分布的中心位置,所以是数据集中趋势或中心位置的一种重要度量。中位数不受极端数据的影响,所以常被用作偏斜数据的平均值。,三、众数(mode)Mo,一组数据中出现频数最多的观测值或频数最多的一组数据的组中值,称为众数。,众数的计算:,A、观察法求粗略众数:,B、公式法求理论众数的近似值:,若所有数据
6、均不相同,则没有众数。,理论众数和粗略众数:主要众数和次要众数:全局众数和局部众数:,众数的适用条件:,表示一组数据变异性或离散性的统计量,又称离中趋势。,一、全距、四分位距与百分位距,包括全距、四分位距(差)、百分位距、平均差、方差和标准差。,第二节 数据(资料)的差异量数,1、全距极差 全距(R)=最大值-最小值,四分位数:把所有数据由小到大排列并分成四等份,处于三个分割点位置的数值就是四分位数。分别记为:第一四分位数(Q1),即第25百分位数(P25),又称“较小四分位数”。第二四分位数(Q2),即第50百分位数(P50),又称“中位数”。第三四分位数(Q3),即第75百分位数(P75)
7、,又称“较大四分位数”。四分位距(QD)=(Q3-Q1)/2,2、四分位距(QD)内距或四分位差,四分位距反映了数据中间50%数据的离散程度,其数值越小,说明中间的数据越集中;其数值越大,说明中间的数据越分散。四分位距的大小在一定程度上可反映中位数对一组数据的代表程度。,A、未分组数据四分位距计算方法:1、进行数据由小到大排序 2、确定四分位数:四分位数值的确定尚存争议常用方法(1):利用四分位数的百分比值(m)及样本容量(n)计算确定:情况1:如果Lm是一个整数,则四分位数的值取第Lm和第Lm+1两位置数据的平均值。情况2:如果Lm不是一个整数,则取下一个最近的整数作为Lm。(比如L25=1
8、.2,则取 2)对应的数据作为四分位数的值。常用方法(2):见教材P45:例3-12,四分位距的计算:,实例1:计算下列数据的四分位差:6,47,49,15,42,41,7,39,43,40,36 实例2:计算下列数据的四分位差:7,15,36,39,40,41,B、分组数据利用百分位数计算公式:,常用百分位距有2种:(1)第90与第10百分位数之差,即P90 P10。(2)第93与第7百分位数之差,即P93 P7。,3、百分位距两个百分位数之差,二、平均差(MD)即平均离差。,是相对于平均数来衡量一组数据分散程度的变异量。,平均差是样本所有数据与其算术平均数的离差(离均差)绝对值的算术平均数
9、。平均差反应各个数据与算术平均数之间的平均差异。平均差越大,表明各个数据与算术平均数的差异程度越大,该算术平均数的代表性就越小;平均差越小,表明各个数据与算术平均数的差异程度越小,该算术平均数的代表性就越大。,未分组数据的平均差的计算公式为:分组数据的平均差的计算公式为:,平均差的计算方法:,三、方差和标准差,离均差平方和各观测值离均差平方的总和,即SS,1、方差:一组数据离均差平方的算术平均数。,一组数据的离均差平方和(SS)除以总频数或样本容量所得的平均的离均差平方。记为 2(总体方差)或 s2(样本方差)。,方差,又称均方,频数分布表计算方差:,方差的平方根,又称为均方差。记为(总体标准
10、差)或 s(样本标准差)。,标准差,频数分布表计算标准差:,标准差的性质,(2)计算时,各变量同时加上或减去一个常数,其数值 不变,(3)各变量同时乘以或除以一个常数a,所得标准差是原来标准差的a倍或1/a倍。,(1)标准差的大小受变量影响,如变量间变异大,求得的标准差也大,反之则小。,标准差的应用:,用于计算变异系数、相关系数、标准系数。,标准差与算术平均数的百分比,(2)比较单位相同但平均数差异很大的两组数据的差异程度。,(3)判断特殊差异情况:一般CV值通常为5%35%。如果CV值大于35%,可怀疑所求平均数是否失去意义;如果CV值小于5%,可怀疑平均数与标准差是否计算错误。,(1)比较单位不同的数据的差异程度。,四、差异系数(变异系数),差异系数的用途:,描述数据分布特征的统计量。评估频数分布是否符合正态分布时,可用偏态系数作为比较性的度量。,皮尔逊偏态系数公式描述数据分布形态,(1)利用算数平均数与众数或中位数的距离计算偏态系数,五、偏态系数,偏态系数的计算方法:,当SK=0时,分布为对称形;当SK0时,分布为正偏态;当SK0时,分布为负偏态。,