《中科院心理所心理统计学2统计量数.ppt》由会员分享,可在线阅读,更多相关《中科院心理所心理统计学2统计量数.ppt(53页珍藏版)》请在三一办公上搜索。
1、常用统计量数,授课教师:禤宇明,本章内容,描述统计统计量数:定义、性质、用法集中量数众数、中数、算术平均数、加权平均数、几何平均数差异量数全距、平均差、方差、标准差、差异系数地位量数百分位数、十分位数、四分位数、中(位)数,1.描述统计 descriptive statistics,描述统计对数据特征的描述数据的两个主要特征中心位置离散性,2.集中量数,集中量数对数据的集中趋势的度量确定一组数据的代表值,2.1 常用集中量数,众数mode中数median算术平均数 mean加权平均数 weighted mean几何平均数 geometric mean调和平均数 harmonic mean,问题
2、,某部门有5名一般职员和1名经理。一般职员的薪水是3000元,而经理的薪水是10000元,请问该部门收入的平均水平是多少?,2.1.1 众数(Mode,Mo),众数:一组数据中出现次数最多的数如2、3、5、3、4、3、6的众数为3卡尔皮尔逊 1894如果次数分布最多的有两个数,而且两个数是相邻的,那么一般取两者的平均值作为众数;如果这两个数不相邻,那么一般需要报告两个众数,而且认为该组数据是bimodal双峰分布的计算众数的皮尔逊经验法Mo3Mdn2M,众数的用途,快速粗略寻求一组数据的代表值做不同质数据的代表值,如工资次数分布中有两极端的数目(一般用中数,有时用众数)用平均数和众数之差作为次
3、数分布是否偏态的指标,众数与从众,买东西,2.1.2 中数(Median,Md或Mdn),中数:一组数据中按从小到大排序后,处于中间位置上的变量值1883 高尔顿将全部数据排序后,如果项数是奇数,则正中央的那一项即为中位数例:4、7、8、9、10、11、12、13、14Mdn10如果项数是偶数,则正中央的那两项的平均值即为中位数例:2、3、5、7、8、10、15、19Mdn(78)/27.5,思考题,某病患者的潜伏期如下,求中数2,3,3,3,4,5,6,9,16 若增加1例患者,其潜伏期为30天,求中数 求15,35,25,5的中数,中数的应用,不易受极端值的影响当数据呈明显偏态时,中数较均
4、数或几何均数合理,2.1.3 平均数(Mean)2.1.3.1 平均数的定义,又叫均数、算术平均数,缩写M,设一组数据为x1,x2,xn,10名健康人的 白细胞总数(109个/L)5.50,7.00,8.20,4.80,6.70,5.75,6.10,9.30,7.60,7.15,练习,平均数的特点,一组数据的每一个数与平均数的差(离均差)的总和等于零一组数据的每一个数加上常数C,其平均数为原来的平均数加常数C一组数据的每一个数乘以常数C,其平均数为原来的平均数乘常数C一组数据的每一个数与常数C的差的平方和不小于该组数据的每一个数与平均数的差的平方和,2.1.3.3 算术平均数的优点和缺点,优点
5、反应灵敏确定严密简明易解计算简单符合代数方法进一步演算较少受抽样变动的影响缺点易受极端值的影响若出现模糊不清的数据时无法计算,2.1.3.4 算术平均数的适用条件,数据必须是同质的如:如果身高均数在性别上有差异,那么不分性别地求某一年龄组的身高均数时没有实际意义的数据取值必须明确适用于呈正态分布的数据数据离散不能太大,2.1.3.5 思考题,你们念统计的常以算术平均数来代表总体(population),那么你们一手泡在沸水中,另一手浸在冰水中,一定会感到很舒服,因为你们的平均感受是正常体温。请举例说明什么情况下我们会对估计总体的平均数感兴趣。,2.1.4 加权平均数(Weighted mean
6、),用于分组数据,2.1.5 几何平均数(Geometric mean),数据分布近似正态分布,但呈偏态传染病的潜伏期心理物理学的等距与等比量表实验,呈(近似)等比数列变化的数据,即变量值呈倍数关系或近似倍数关系的数据用于计算平均发展速度、平均增长率、学习记忆的平均进步率、学校经费平均增加率、平均人口出生率等等血清中抗体滴度、血清凝集效价,例:某学生背单词周次12345记住单词2023263034求该生记忆单词的平均进步率,2.1.6 调和平均数(harmonic mean),即倒数平均数的倒数,用于求平均速度,例被试号123456完成题数101010101010时间(小时)0.81.01.2
7、1.52.55.0,2.2 平均数、中数和众数的关系,在一个正态分布中,三者相等在正偏态分布中,M Md Mo在负偏态分布中,M Md Mo一般偏态情况下,Md离M较近,而离Mo较远,皮尔逊经验关系:,平均数:支点两端的力矩相等中数:两侧数据个数相同众数:出现次数最多,2.3 集中量数的适用数据,类别数据顺序数据等距数据比例数据*众数*中数*均数*均数 四分位 众数 调和平均数 众数 中数几何平均数 四分位数 中数四分位数 众数*表示该数据类型最适合用的量数,思考题,不做运算比较下面两个数列的平均数10,7,8,3,5,910,7,8,3,5,9,11,3.差异量数,又叫离中量数,是表示数据分
8、散程度的统计量,反映的是各变量值远离其中心值的程度表示数据离中趋势的量数有全距平均差方差标准差差异系数,3.1 全距(range),也称极差,是一组数据的最大值与最小值之差。R=max(Xi)-min(Xi),3.2 平均差(Average deviation),Mean absolute deviation各变量值与均值之差的绝对值的平均数不利于代数运算,3.3方差和标准差3.3.1 定义,3.3.2 方差和标准差的变式,样本方差与总体方差的区别,在计算上,总体方差是用数据个数或总次数去除离差平方和,而样本方差则用样本数据个数或总次数减一去除离差平方和样本方差是统计量,用S2表示;总体方差是
9、总体参数,用2表示当n很大时,S2与2相差很小,前者是后者的无偏估计,3.3.4 标准差的性质,一组数据的每一个数据都加常数C后标准差不变一组数据的每一个数据都乘常数C后标准差变为原来的C倍,方差与标准差的优点,方差与标准差是表示一组数据离散程度的最好的指标。其值越大,说明离散程度大,其值小说明数据比较集中。具有以下优点:(1)反应灵敏。(2)由计算公式严格确定;(3)容易计算;(4)适合代数运算;(5)受抽样变动的影响小,既不同样本的标准差或方差比较稳定;(6)简单明了;(7)具有可加性。可以把总变异分解为不同来源的变异。(8)各变量值对均值的方差小于对任意数的方差。,标准差的应用,表示数据
10、的离散程度标准差越大越离散结合均数描述正态分布特征根据正态分布原理求正常值范围,由各小组的标准差、方差求总标准差、方差,P 45,3.4 差异系数(Coefficient of variation),变异系数指出了标准差对于平均值的大小,用于比较不同总体或样本数据的离散程度。同一样本不同测量的变异的比较,如相同班级不同科目的变异的比较;不同样本同一测量的变异的比较,如不同年级同一科目变异大小的比较。,例:已知某小学一年级学生的平均体重为25公斤,体重的标准差是3.7公斤,平均身高110厘米,标准差为6.2厘米,问体重与身高的离散程度哪个大?解:CV体重=3.7/25100%=14.8%CV身高
11、=6.2/110 100%=5.64%,所以,体重的离散程度比身高的离散程度大。例:通过同一个测验,一年级学生的平均分数为60分,标准差为4.02分,五年级学生的平均分数为80分,标准差为6.04分,问这两个年级的测验分数中哪一个离散程度大。解:CV一年级=4.02/60 100%=6.7%,CV五年级=6.04/80 100%=7.55%,所以,五年级的测验分数的分散程度大。,3.5 数据类型和差异量数,四分位差 Quartile deviationQD=(QU-QL)/2,思考题,以下每组数的平均数均为50,哪组数在平均数附近的散布程度最大?哪组最小?A0,20,40,50,60,80,1
12、000,48,49,50,51,52,1000,1,2,50,98,99,100B47,49,50,51,5346,48,50,52,5446,49,50,51,54,4.地位量数,百分位数(Percentile):第p百分位是这样一个值,它使得至少有p%的数据小于或等于这个值,且至少有(100-p)%的数据项大于或等于这个值四分位数(Quartile):将数据划分为4部分,每部分各占25%的数据项,这种划分的临界点即为四分位数。三个四分位数分别为:QL(下四分位),Md(中数),QU(上四分位)十分位数(Decile):将数据划分为10个部分,每部分占十分之一的数据项。其划分的临界点为十分位
13、数,计算第p百分位步骤,第一步:从小到大排列原始数据第二步:计算指数i i=(p/100)n,n为项数,p为所求的百分位的位置第三步:若i不是整数,将i向上取整;若i是整数,则第p百分位数是第i项与第 i+1 项数据的平均值例:有12个职员薪金的数据,求第85和第50百分位数。解:(1)将12个数据从小到大排序如下:2210 2225 2350 2380 2380 2390 2420 2440 2450 2550 2630 2825(2)i=(p/100)n=(85/100)12=10.2(3)由于i=10.2不是整数,向上取整,所以第85百分位数对应的是第11项,其值为2630。同理,计算第50百分位(中位数)。i=(50/100)12=6,是整数,第50百分位数是第6项和第7项的平均值,即(2390+2420)/2=2405。,百分位数的应用,常用于确定医学参考值范围reference ranges正常值范围习惯上确定95%(也可用80%,90%,99%)的人的界线双侧参考值,计算P2.5和P97.5白细胞总数过高过低均属异常单侧参考值,计算P5或P95肺活量:过低为异常尿铅:过高为异常,思考题,如图为对某口服药物进行的两项研究。一项研究中服用该药会增加血压10mm左右;在另一项研究中,服用该药约会增加血压10%(分散程度变大)。哪一幅图对应哪一项研究?,