第八讲单变量描述统计分析课件.ppt

上传人:牧羊曲112 文档编号:1547473 上传时间:2022-12-04 格式:PPT 页数:32 大小:221KB
返回 下载 相关 举报
第八讲单变量描述统计分析课件.ppt_第1页
第1页 / 共32页
第八讲单变量描述统计分析课件.ppt_第2页
第2页 / 共32页
第八讲单变量描述统计分析课件.ppt_第3页
第3页 / 共32页
第八讲单变量描述统计分析课件.ppt_第4页
第4页 / 共32页
第八讲单变量描述统计分析课件.ppt_第5页
第5页 / 共32页
点击查看更多>>
资源描述

《第八讲单变量描述统计分析课件.ppt》由会员分享,可在线阅读,更多相关《第八讲单变量描述统计分析课件.ppt(32页珍藏版)》请在三一办公上搜索。

1、第八讲:单变量描述统计分析,本讲关注的主要问题,1.什么是单变量分析?2.变量分布特征;3.如何制作统计图表?4.集中趋势分析法;5.离散趋势分析法;,第一节:什么是单变量分析?,1.单变量分析就是针对一个变量或多个独立的变量进行的分析,以了解某一现象的本质和发展规律;例如:同济大学每年招收多少学生?同济大学共有多少个专业?每个专业各有多少人?某城市每天出生多少婴儿?等等。2.对于单变量而言,一般需要研究它的分布特征,集中趋势和离散趋势。,第二节:单变量分布特征,通常收集到的原始资料(数据、变量)是杂乱无章的;在分析数据之间,通常我们会对数据进行一定整理。最简单的就是了解变量的分布特征。1.所

2、谓分布,就是在一次调查中,某变量的每一个取值所呈现的状态。包括频次分布和频率分布。2.频次分布:变量取值及其对应的频次的集合;3.频率分布:变量取值及其对应的频率的集合。4.分布可以用表格来表示(分布表),也可以用图形来表示(分布图),6.变量分布示例,某班级学生性别分布(男生,100人)(女性,150人);某学校学生父亲的职业分布(干部,110人)(工人,152人)(农民,288人);2010年上海市常住人口年收入分布(5000元以下,5%)(5000元-20000元,20%)(20000元-50000元,45%)(5000元及以上,30%),7.分布表,变量的取值要具有完备性(不能遗漏)和

3、互斥性(不能重复)。为了满足这两个要求,在制作分布表时,会对原始数据有些修改。对于分组资料的上下限有所约定:规则“含下不含上”,即nxm;,7.1 定类变量分布表,7.2 定序变量分布表,掌握累积频次的概念:cf(向上累加,一组数据从小到大排列)小于当前值的累积频次(或所占比例)。,7.2.1 向上累加cf与向下累加cf,7.3 定距变量分布表,假如某定距变量有100个取值,如100个儿童的身高;将其制作成分布表;思路:进行分组统计,转化为定类变量再进行统计。方法:确定组数确定组距确定分点精度(比原始数据提高一位精度)频次统计。,第三节:如何制作分布图?,不同类型变量,可以制作不同类型的图。1

4、.定类变量:条形图,饼状图;2.定序变量:条形图;3.定距变量:直方图;利用excel作图。,1 定类变量条形图与饼状图,2 定序变量条形图:按序排列,可分散,3 定距变量直方图,第四节:集中趋势测量法,1. 所谓集中趋势(central tendency),是指运用一个或多个特征值来代替样本的某一个变量的情况。当运用这个值来预测或概括样本时,所犯的错误最小。从而达到简化资料的目的。2. 对于不同层次的变量,可以采用不同的集中趋势测量法。,2.1 定类变量的集中趋势测量,有一组关于中国人口婚姻状况的资料(分为未婚、已婚、离婚和丧偶四种类型)。现从中再随机抽取一人,试预测其婚姻状况是哪种类型?当

5、知道中国人口婚姻状况分布之后,又如何预测?两种结果哪个精确?,2.1.1 众值测量法,对于定类变量而言,一般采用众值(mode)来测量它们的集中趋势;众值:在一组数据中,出现频次最多的值;对于分组资料而言,众值是出现频次最多的组的中心值。右图,众值=?,2.2 定序变量的集中趋势测量,某班级21人的社会统计学考试成绩分为四个等级,依次为:及格,中,良,优;现从中任意抽取一人,猜测其成绩;在得知该21人成绩的分布之后,再预测其成绩,比较两次预测的结果有何差异?如果用众值的话 会有什么损失?,2.2.1 中位值测量法,对于定序变量而言,采用中位值(mean)测量它们的集中趋势;所谓中位值,是指将一

6、组数据从小到大(或从大到小)排序后,中间位置所对应的值。中位值表示一组数据中,有半数的取值小于或等于该值,有半数的取值大于或等于该值;比众值来预测更加精确,利用了变量的排序特征。,2.2.2 中位值的原始算法,对于原始数据(n较小)可以直接排序,求中位值。n为奇数时,中位值为(n+1)/2位置对应的值;n为偶数时,中位值为(n+1)/2相邻两个位置对应的数的平均数;对于原始数据(n较大)时,根据变量的累积频次分布计算(n+1)/2位置对应的取值。例:9个人的日工资分别如下:47,42,50,51,92,112,71,83,108;,3. 定距变量的集中趋势,对于定距变量而言,采用均值(mean

7、)来代替他们最为精确,利用信息最多。均值计算有三种情况:原始数据(n较小):求和取平均值原始数据(n较大):根据频次分布分组数据(n较大):取组中值比例数据:,3.1 求下列数据的平均值,3.2 众值、中位值、均值的比较,1.三个设计的目的是共同的,只是适用的测量层次不同 。2.均值是最灵敏的。3.只有单峰和基本对称的图形,用均值作为集中趋势才是合理的。4.偏态和三值的关系。由于对称图形,众值、中位数和均值的位置重叠。当图形正偏或负偏时,均值变化最快,中位数次之,众值不变。,第五节:离散趋势测量法,1. 所谓离散趋势,是指用一个或几个值来测量不同样本(个案)之间的差异情况;与集中趋势测量法相互

8、补充,反映集中趋势测量的代表性程度大小。2. 与集中趋势相同的是,不同层次的变量有不同的离散趋势测量法。,2.1 定类变量的离散趋势测量,对于定类变量,可以采用异众比例来测量个案之间的离散性程度。公式: fmo是指众值的频次异众比例越大,说明众值的代表性越低;当运用众值来预测变量时,所犯的错误会越大,2.2 定序变量的离散趋势测量,对于定序变量,可以采用四分位差来测量个案之间的离散性程度。四分位差Q=Q75-Q25Q75、Q25分别表示75%位置和25%位置所对应的值,算法同中位值;,练习:原始数据的四分位差计算,例:调查甲乙两个农村的家庭人数,甲有11户人家,每户人数:2,2,3,4,6,9,10,10,11,13,15。试求中位值及四分位差;,2.3 定距变量的离散趋势测量法,对于定距变量而言,采用方差2或标准差来测量。反映均值的离散程度;方差表示某变量的每个样本取值与均值之间离差的平方和。公式为:,2.3.1 原始变量的方差与标准差计算,例:调查甲地的十个乡的卫生情况,发现每个乡的卫生户比率是(%):8,18,14,14,8,15,12,17,12,19。平均每个乡有百分之几是卫生户?各乡之间的差异有多大?,2.3.2 频次分布数据求方差和标准差,2.3.3 分组资料求方差和标准差,用组中值bi来代替个案取值。,2.4 集中趋势&离散趋势对比,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号