《数值变量的统计描述SSH.ppt》由会员分享,可在线阅读,更多相关《数值变量的统计描述SSH.ppt(120页珍藏版)》请在三一办公上搜索。
1、第二讲:定量变量的统计描述,一、频数表与频数分布图(Frequency table/Frequency distribution figure),二、集中趋势的统计描述(Description of central tendency),【教学内容】,三、离散趋势的统计描述(Description of tendency of dispersion),【教学要求】,了解频数分布表的编制方法及应用,掌握数值变量资料的集中趋势、离 散趋势常用统计描述指标,及各自 的应用。,统计描述,总体估计:即参数估计,包括点值估计和区间估计,假设检验:t-test u-test x2-test,定量资料,离散趋势
2、,集中趋势,定性资料:率、构成比、相对比等,统计图,统计推断,统计学指标,统计表,统计分析内容,例2.1 某市 100名8岁男童的身高资料(cm),目的:描述该组8岁男童身高的分布规律。,问题1.该组男童平均身高多少?,问题4.用表/图表示身高分布?,问题2.身高范围?最高多少?最低多少?,问题3.身高主要集中在哪个范围?,?,一、数值变量资料的 频数表与频数分布图,例2.1 某市 100名8岁男童的身高资料(cm),例2-1 某妇产科医生观察1402名临产母亲的体重(kg)资料,频数(frequency):指在一个抽样资料中,某变量值出现的次数。,(一)基本概念:,频数分布表(frequen
3、cy distribution table):将各数值变量的值及其相应的频数列表,简称频数表。频率是表示频数出现机率的指标,可用百分数或小数表示,频率的和为100%或1。.,频数表作用:简化数据,方便阅读,显示数据的分布规律,(二)连续型变量频数表的编制方法:,步骤:,求全距(Range,简记R):是一组资料中最大值(Xmax)与最小值(Xmin)之差,亦称极差。,全距(R)=Xmax-Xmin=143.3 116.2=27.1(cm),2.定组距:将全距分为若干段,称为组段。组与组之间的距离,称为组距;用小写i 表示。,原则:(1)“组段”数一般为10-15个;(2)“组距”一般为R/10取
4、整;(3)为计算方便根据组距采取取整数方法,本例题:组距(i)=全距/预分组段=27.1/10=2.713(cm),3.写组段:即将全距分为若干段的过程。,原则:(1)第一组段要包括Xmin,最末组段包括 Xmax;(2)每组段均用下限值加“”表示,最终组段同时注明上下限。,注意:各组段不能重叠,每一组段均为半开半闭区间。,4.列表划记:根据预定的组段和组距,用划记的方法整理原始资料。,频数分布图(frequency distribution figure):根据频数分布表,以变量值为横坐标,频数为纵坐标,绘制的直方图。,图3.1 某市100名8岁男童身高(cm)的频数分布,身高(cm),频数
5、,(三)频数表的用途:,1.揭示频数的分布特征,离散趋势(tendency of dispersion),集中趋势与离散趋势结合能全面反映频数的分布特征,集中趋势(central tendency),2.揭示频数的分布类型,频数分布,偏态分布,正偏,集中部位在中部,两端渐少,左右两侧的基本对称,为对称(正态)分布。,对称分布,集中部位偏于较小值一侧(左侧),较大值方向渐减少,为正偏态分布。,集中部位偏于较大值一侧(右侧),较小值方向渐减少,为负偏态分布。,4.样本含量足够大时,以频率作为概率的估计值。,3.便于发现某些特大或特小的可疑值。,5.作为陈述资料的形式。,图3.1 某市100名8岁男
6、童身高(cm)的频数分布,身高(cm),频数,二、数值变量资料的 集中趋势指标,算术均数几何均数中位数、百分位数,集中趋势:用于描述一组计量资料的集中位置,说明这种变量值大小的平均水平,常用平均数(average)表示。,注意:1.同质的事物或现象才能求平均数,包括,.应根据资料分布状态选用适当的均数。,(一)算术平均数(arithmetic mean),简称:均数(mean)使用条件:数据分布比较均匀呈正态分布或近似正态分布。样本均数用符号:X 表示 总体均数用符号:表示 计算方法有两种:直接法(小样本)和加权法(大样本),(1)直接法:,举例:某地10名18岁健康男大学生身高为(cm):1
7、68.7,178.4,170.0,170.4,172.1,167.6,172.4,170.7,177.3,169.7 求平均身高?,答:,(2)加权法:,方法:计算各组段的组中值 Xi与其频数f i的乘积和f x,然后除以总频数f。,公式:,适用范围:大样本含量的分组资料或频数表资料。,举例:用加权法计算某市8岁男童身高平均数(表3.1),计算各组段的组中值xi、fxi和fx,答:,组中值?第1组段:,用加权法计算该组身高值的均值,总身高/总人数,数据加权的意义,加权用于表示某数据值在整个数据资料中的权重举例1:12=1*101+2举例2:杂拌糖例子设软糖5元/斤,硬糖8元/斤,酒心糖10/斤
8、,问5斤软糖3斤硬糖,2斤酒心糖,应卖多少钱一斤 答:(5*5+3*8+2*10)/10=6.9 总钱数/总斤数 举例3:食堂买菜例子 举例4:评委打分和观众打分,均数的特性:,),(,(1)各离均差的总和等于零。,离均差是指变量值与均值之间的差异,即。,说明均值位于全部观察值的中央。,均值的特征:,(2)离均差的平方和小于各变量值X与任何数()之差的平方和。,即:,说明均值与全部观察值的总距离最小,即:对全部观察值的代表性最好。,算术平均数的适用范围:它适用描述一组性质相同的、单峰、且对称分布的(特别是正态分布的),且观察值之间差异不大的定量资料,此时均数最能反映分布的集中趋势,位于分布的中
9、心。,给一组定量资料,如何判断是否适合选用算术均数来表达其平均水平呢?,1.小样本采用目测法:将数据由小到大排列后,较小和较大的数据个数基本相等,关于最中间的数据基本对称。,举例:9名正常成年人非蛋白氮(mg/100ml)含量,20.1 22.3 23.4 24.8 25.7 26.9 28.2 31.4 34.3,?,举例:某地100正常成年人非蛋白氮(mg/100ml)含量,.大样本采用频数表法:将其按一定组距分组,比较各组段的频数。居中的组段内频数最大 该组前后的组段内的频数逐渐减少且基本对称,3 计算机软件法使用统计软件 SPSS、SAS等的频数统计命令,练习:求120例正常人血浆12
10、5I-T3树脂摄取比值的均数,答:,(一)编制频数分布表:,全距(R)=Xmax-Xmin=1.24 0.78=0.46,1.求全距(R):,组距(i)=全距/预分组段=0.46/100.05,3.定组段:,3.划表列记:,(二)用加权法计算均值:,均值:,修正均数,也称截尾平均值(Trimmed Mean)刪除最大及最小各2.5或5(或任何研究者认为合理之比率)后计算余下数据之平均值。截尾平均值的能平衡平均值及中位数之优劣,缺点为样本数目因去除极端值后而减少。例子:评分中,去掉一个最高分,去掉一个最低分,对下列数据求均数合适吗?1 2 4 8 16 32 64 128 256 512 102
11、4算术均数=(1+2+4+8+)/11=186.09,(二)几何均数(geometric mean,G),概念:对一组观察值,先进行对数变换,按算术均数计算方法求其对数值的均数,该均数的反对数值即几何均数(G)。使用条件:用于原始数据分布呈偏态分布,等比资料(倍数变化)或对数正态分布资料的平均数的计算。表示符号:G 计算方法:直接法和加权法,(1)直接法:,方法:将n个观察值(X1,X2,X3,Xn)直接相乘再开n次方。,公式:,适用范围:小样本资料,用对数形式表示为:,当数值为负数时,可以加一个常数项再取对数 lgY=lg10(X+K),几何均数(geometric mean),几何均数:变
12、量对数值的算术均数的反对数。,其他对数(如自然对数)变换获得相同的几何均数,举例:设有5份血清样品,滴度分别为:1:1,1:10,1:100,1:1000,1:10000 求其平均滴度。,答:,G,或 Glg-1(lg1+lg10+lg100+lg1000+lg10000)/5)lg-1(0+1+2+3+4)/5)lg-12=100 102,即:平均滴度为1:100;较好地代表了观察值的平均水平。,(2)加权法:,公式:,适用范围:大样本含量的分组资料或频数表资料。,Glg-1(f lgX/n),举例:有95名麻疹易感儿童,接种麻疹疫苗一个月后,血凝抑制抗体滴度见下表,试求平均滴度(例3.3)
13、。,Glg-1(f lgX/f)lg-1(145.0948/95)=lg-1(1.53)=101.5333.68,答:,即95名易感儿童接种疫苗一个月后,血凝抑制抗体的 平均滴度为1:33.68。,计算几何均数(G)注意事项:(1)观察值不能为0;(2)观察值不能同时有正有负;(3)同一组资料求得的几何均数小于算术均数。,课堂练习:,1.有8份血清的抗体效价分别为:1:5,1:10,1:20,1:40,1:80,1:160,1:320,1:640 求平均抗体效价。,2.有50人的血清抗体效价,分别为:5人1:10,9人1:20,20人1:40,10人1:80,6人1:160 求平均抗体效价。,
14、解答:,1.有8份血清的抗体效价分别为:1:5,1:10,1:20,1:40,1:80,1:160,1:320,1:640 求平均抗体效价。,答:,将各抗体效价的倒数代入公式:,所以血清的抗体平均为1:56.57,解答:,2.有50人的血清抗体效价,分别为:5人1:10,9人1:20,20人1:40,10人1:80,6人1:160 求平均抗体效价。,答:,将各抗体效价的倒数代入公式:,所以该50人的血清抗体效价为1:41.70,问题:下列数据用那种指标表示集中趋势更合适些,1 99 100 101 1000000算术均数?200060.2几何均数?251.86显然都不合适2.国家统计局发布了2
15、011年城镇居民人均总收入23979元,问了许多人感觉没有这么高。目前基尼指数用来表现一个国家和地区的财富分配状况,按照联合国有关组织规定:低于0.2收入绝对平均收入比较平均收入相对合理收入差距较大0.5以上收入差距悬殊 中国大陆基尼系数2011年超过0.55,已跨入收入差距悬殊行列,财富分配非常不均,两级分化严重。超过中国社会和国际社会的容忍度,中国基尼系数高于所有发达国家(如日本基尼系数仅为0.23)80%的财富20%的人掌握,(三)中位数(Median,M),概念:把一组变量值从小到大排列,位于中间位置的变量值叫中位数,用M表示。使用条件:当一组资料类型分布不清或明显 偏态分布时的平均数
16、的计算。表示符号:M 计算方法:直接法和加权法,百分位数(Percentile,P),概念:为一种位置指标,表示位于全部观察值第X%位置处的数值。一个Px将总体或样本的全部观察值分为两部分,理论上有X%的观察值比它小,(100-X)%的观察值比它大,P50分位数即是中位数。表示符号:x 计算方法:频数表计算,P50=M,0 25 50 75 100,小,大,M,P0 P25 P50 P75 P100,百分位数示意图,百分位数(percentile),(1)直接法由原始数据计算中位数:,当n为奇数时:,例:有7个人的血压(收缩压mmHg)测定值为:120,123,125,127,128,130,
17、132 求中位数?,当n为偶数时:,例:10名食物中毒者的潜伏期分别为 1,2,2,3,5,10,15,16,24H试求中位数。,数据很多,参与计算的较少,课堂练习:,1.某病患者9名,发病潜伏期分别为顺序 2、3、3、3、4、5、6、9、16d,求中位数。,2.某病患者8名,发病潜伏期从小到大排分别为5、6、8、9、11、11、13、16d,求平均潜伏期。,答案:,(2)用频数表计算中位数和百分位数,按所分组段,由小到大计算累计频数和累计频率,代入公式计算中位数及其它百分位数,注:fm、fx为所在组的频数,i 为该组段的组距,L为其下限,fL为小于L的各组段的累积频数。,步骤:,中位数计算公
18、式,百分位数计算公式,计算中位数时,X=50,即M=P50。,百分位数在总观测值中顺序,其实是一个比例问题,i是组距,fx是需要计算的百分位数值,后面的就是 需要计算的百分位数值在中位数所在组段应占的频数,i fx?,例:求164例沙门菌食物中毒病人潜伏期的中位数和百分位数P5、P95,2.把 L=24、i=12、fx=44、fL=79代入公式,求M。,3.同样方法,可求P5、P95。,练习:求238名正常人发汞值的中位数和百分位数P25、P75,答案:,(1)中位数:常用于描述偏态分布资料的集中位置,反映位置居中的观察值的水平,它和均数、几何均数不同,不是由全部观察值的数量值综合计算出来的,
19、只受居中变量值的影响,不受两端特大值和特小值的影响。因此,当分布的一端或两端无确定数值或资料的分布不清可以求中位数。.,应用:,(2)百分位数:A.用于描述数据某一百分位的位置,最常用的是P50,即中位数;也可用多个百分位数的结合来描述一组资料的分布特征,如用P25和 P75合用时,反映中间50%观察值的分布情况。B.用于确定参考值范围:WBC的95%参考值范围:P2.5 P97.5过高过低均异常 肺活量95%参考值范围:P5 过低异常 尿铅95%参考值范围:P95 过高异常C.用一组PX可较全面地描述总体或样本的分布特征。,注意:表达一组性质相同的定量资料的平均水平的指标共有4种,其中算术均
20、数和几何均数要用到每一个数据的具体值才能计算出来,而中位数和百分位数只需知道数据的个数和相对大小就可确定,相对来说,它们对信息资料的利用率较低,因此,准确度不如前者。.,(四)众数(mode),众数是一组观察值中出现频率最高的那个观察值;若为分组资料,众数则是出现频率最高的那个组段的组中值。适用于大样本;较粗糙。例 有16例高血压病人的发病年龄(岁)为:42,45,48,51,52,54,55,55,58,58,58,58,61,61,62,62,试求众数。,正态分布时:均数中位数众数正偏态分布时:均数 中位数 众数负偏态分布时:均数 中位数 众数,(3)当资料呈负偏态分布时,中位数大于算术均
21、数。,中位数和算术均数的关系:,(1)当资料呈对称分布(特别是正态分布)时,中位数在理论上等于算术均数。,(2)当资料呈正偏态分布时,中位数小于算术均数。,均数,中位数,均数,中位数,均数与观测值大小有关中位数与观测值所在位置有关众数与观测值频数大小有关,思考题:,某医院对内科进行一周工作效率调查。第1天6 h诊治患者42人,7人/h;第2天4 h诊治患者32人,8人/h;第3天7 h诊治患者35人,5人/h;第4天8 h诊治患者72人,9人/h;第5天5 h诊治患者50人,10人/h。问该科室5天平均每小时诊治多少患者?.,答案:,四、数值变量资料的 离散趋势指标,举 例:,有三组数据,甲:
22、1 3 5 7 9乙:1 4 5 6 9丙:3 4 5 6 7,集中,5,5,5,=,=,=,丙,乙,甲,X,X,X,说明集中趋势是数据分布的一个重要特征,但单有集中趋势指标还不能很好地描述数据的分布规律。而且还要看数据的变异程度。,观察值的离散趋势,离散程度大说明均数代表性差离散程度小说明均数代表性好,离散趋势:用于描述一组数值变量观察值之间参差不齐的程度,即变异程度。,包括,极差(Range,R)四分位数间距(Quartile,Q)方差(Variance,)标准差(Standard deviation,S2)变异系数(Cofficient of variation,CV),(一)极差(Ra
23、nge,简称R),计算:R=最大值最小值=Xmax-Xmin 意义:反映样本变量值的全范围。条件:对变量值的各种分布类型的资料 都适用。优点:简单明了,容易理解,使用方便。缺点:仅考虑了极大值和极小值,未考虑 其它变量的个体差异。建议:与其他离散指标共同使用。,2.样本例数越多,抽到极大值和极小值的可能性越大,故样本例数悬殊时不易比较极差。,极差的缺点:,1.R只考虑最大值和最小值之差,不能反映组内其它观察值的变异度。,3.即使样本例数不变,极差的抽样误差亦较大,即不够稳定。,(二)四分位数间距(uartile,简称),计算:=-=P75-P25意义:中间一半观察值的极差。条件:对变量值的各种
24、分布类型的资料 都适用。优点:类似值但比其稳定。缺点:未考虑全部观察值的变异度。建议:与其他离散指标共同使用。,四分位数间距(Quartile 用Q表示),小,大,1 25 50 75 100,P1 P25 P50 P75 P100,QL,QU,下四分位数 上四分位数,QU QL=四分位数间距,例:有164例沙门氏菌食物中毒病人的潜伏期(小时),求该潜伏期的四分位数间距。,P25 L i/f25(n25%fL)12 12/58(16425%21)16.14(小时)P75 L i/f 75(n75%f L)24 12/44(16475%79)36(小时)Q=P 75-P 25=36-16.14=
25、19.86(小时)即该潜伏期的四分位数间距为19.86小时。,答:,四、数值变量资料的 离散趋势指标,离散趋势:用于描述一组数值变量观察值之间参差不齐的程度,即变异程度。,包括,极差(Range,R)四分位数间距(Quartile,Q)方差(Variance,)标准差(Standard deviation,S2)变异系数(Cofficient of variation,CV),(三)方差(Variance,简称),公式及来源:,极差和四分位间距未考虑全部观察值的变异度,应考虑总体中每个变量值x与总体均数之差;x-称为离均差。,分析:,为解决这个问题,给每项离均差平方后再相加,称离均差平方和,即
26、(x-)2。,甲:26 28 30 32 34,证明:,还有没有问题没考虑到?,离均差平方和的大小,除与变异度有关外,还与变量值的个数(多少)有关,为在变量值个数不等时进行比较,还要除以变量值的个数,所得值即为总体方差,用2表示:,2=,总体方差:,公式中存在的问题?,根据以上公式研究的结果表明求得的样本方差总是偏小;为解决此问题,英国统计学家通过实验,用n-1代替可消除误差。,n-1 称为自由度(degree of freedom),用希腊字母nju:表示,表示随机变量能够自由取值的个数。,n-1“自由度”是指当以样本的统计量来估计总体的参数时,样本中独立或能自由变化的数据的个数。这个定义可
27、以从如下几个方面来理解:第一,“统计量”(如样本数据的平均数X、样本数据的标准差)理解:一共有10个座位坐10个人,前9个人都可以自由选取,最后一个没有办法自由了,因为只剩一个座位。当样本均数和标准差,确定了之后,因为,如数据 1 2 3 要求离均差之和为0,这组均数为2,数据 离差1-12 03?第三个数的离差是不能自由的只能是1,(n-1)称为自由度(degree of freedom),用希腊字母nju:表示,表示随机变量能够自由取值的个数。,方差:分总体方差,样本方差S2,计算:意义:克服了值的不足,考虑了每个变量值的离散情况并消除了的影响。优点:全面地考虑每个变量值的离散情况缺点:其
28、单位是原度量单位的平方。,总体方差,样本方差,(四)标准差(Standard deviation,SD或S),方差的单位是原度量单位的平方,不便使用。,将方差公式展开,并开方,即得到另一个重要的离散趋势的指标,即标准差,简写为S。,公式来源:,总体标准差:,样本标准差:,标准差的计算:,利用(a-b)2展开原理,直接法:加权法:,(1)直接法:用于小样本资料,举例 现有一影像医生,测得10名患者的EA值分别为:0.47,0.60,0.86,0.96,1.01,1.13,1.27,1.58,1.72,2.88试计算其标准差?,将X、X2代入公式:,甲乙丙对谁变异大?,甲:1 3 5 7 9乙:1
29、 4 5 6 9丙:3 4 5 6 7,举例 计算100名8岁男孩身高的标准差,(2)加权法:用于大样本资料或频数表资料,代入公式:,标准差的意义和用途,说明资料的离散趋势(或变异程度),标准差的值越大,说明变异程度越大,均数的代表性越差;.。标准差与原始数据的单位一致,在科技论文报告中,均数与标准差经常被同时用来描述资料的集中趋势与离散趋势。用于计算变异系数用于计算标准误结合均值与正态分布的规律,估计参考值的范围。,问题:,某地7岁男孩身高的均数为123.10cm,标准差4.71 cm;体重均数为22.29kg,标准差2.26kg。试比较其身高、体重的变异程度。单位不同!2011年城镇居民人
30、均收入23979元,标准差 1230农村居民人均收入6977,标准差 120 试比较变异程度均数相差较大,(五)变异系数:简称CV,概念:是同一组资料的标准差与均数之比,又叫变异度或离散系数。计算:实际含义:标准差相对于同组均数的百分比。优点:CV 消除了度量衡单位,用于比较 1.单位不同的多组资料的变异度.2.均数相差悬殊的多组资料的变异度,变异度CV的数值越小,说明观察值的变异度越小,均数的代表性越好。,举例1:某地7岁男孩身高的均数为123.10cm,标准差4.71 cm;体重均数为22.29kg,标准差2.26kg。试比较其身高、体重的变异程度。,说明其体重的变异度大于身高的,即身高比
31、体重稳定。,2011年城镇居民人均收入23979元,标准差 1230农村居民人均收入6977,标准差 120 试比较变异程度城镇 CV=2230/23979*100=9.30农村CV=120/6977*100=1.72说明城镇居民收入比农村居民收入变异大变异系数实际是 单位均数的标准差,去除均数大小的影响,举例2:试分析下组资料变异程度的变化趋势,附表 某地不同年龄儿童身高(cm)的变异度,小 结,为描述数值变量的分布特征,可将观察值编制 频数表,绘制频数分布图。集中趋势描述的主要指标是平均数。,3.描述频数分布离散程度的指标有:极差与四分位数间距,后者较稳定,但均不能综合反映个观察值的变异程
32、度。方差和标准差,最常用,对正态分布尤重要。变异系数,可用于多组资料间单位不同或均数相差较大时,变异度的比较。,注意:变异指标的大小与平均指标值的大小无关。,平均指标和变异指标相结合,能对各种分布的资料作很好的描述。,符号小结,总体均数,样本均数,总体标准差,S,样本标准差,=n-1,自由度,Px,第X位百分位数,M,中位数,f,频数,n,样本含量,R,全距,i,组距,G,几何均数,CV,变异系数,QU-QL,四分位数间距,选择题1 x是表示数值变量 的指标。(1)平均水平;(2)变化范围;(3)频数分布;(4)相互间差别大小。2血清学滴度资料最常计算 以表示其平均水平。(1)算术均数;(2)
33、中位数;(3)几何均数;(4)全距。,3原始数据同除以一个既不等于0也 不等于1的常数后。(1)X 不变、S 变;(2)X 变、S 不变;(3)X 与S 都不变;(4)X 与S都变。4.原始数据减去同一不等于0的常数后。(1)X 不变、S 变;(2)X 变、S 不变;(3)X 与S 都不变;(4)X 与S都变。,5在正态分布条件下表示变量值变异情况的指标最常用的是。A.标准差 B.百分位数C.变异系数 D.全距6.变异系数越大说明。A.标准差越大 B 以均数为准变异程度大C.平均数越小 D 标准差、平均数都大,6反映定量变量观察数据集中位置的 指标是。A.标准差 B.标准误 C.频率 D.全距 E.均数7已知某疾病患者10人的潜伏期(天)分别为:6,13,5,9,12,10,8,11,8,20,其潜伏期的平均水平约为。A.9天 B.9.5天 C.10天 D.10.2天 E.11天,简答题 1.描述数值变量集中趋势和离散趋势的指标各有哪些?各自的应用是什么?2.测定某地健康妇女255人的两种血象指标结果为:红细胞数(1012/L)的均数为4.178,标准差为0.291;血红蛋白(g/L)的均数为117.6,标准差为10.2。能否说血红蛋白的变异比红细胞数的变异大?应如何比较?,THANK YOU!,