《实用社会统计分析技术.ppt》由会员分享,可在线阅读,更多相关《实用社会统计分析技术.ppt(38页珍藏版)》请在三一办公上搜索。
1、实用社会统计分析技术,及SPSS和STATA统计软件操作说明第一讲,课程主要内容:,本课程教授的内容是专门针对抽样调查数据资料的统计分析技术,而不适用于试验性调查资料和观察性调查资料的分析。,课程安排:,统计学基础知识:1)描述性统计、2)概率论和3)推论统计。(三讲)。数据处理技术:4)数据录入、整理、校验和加权、5)数据加工、重组和再生变量。(两讲)。统计分析技术:6)量表和指标建构、7)列联表分析技术、8)简单线性回归、9)多元回归、10)非线性转换、11)对数线性模型、12)logistic回归、13)多元logistic回归、14)等级logistic回归、15)Probit模型、1
2、6)tobit 模型、17)poisson 回归、18)因子分析、19)路径分析、20)结构方程、21)事件史分析,什么是统计学,统计学就是描述、组织和解释数据或信息的一套工具和技术。它帮助我们理解周围的世界。,统计分析中的两个最基础的概念,描述性统计(Descriptive Statistics)推论统计(Inferential Statistics),什么是描述性统计(Descriptive Statistics),描述性统计就是组织、描述和总结所收集到的一组数据的特征。需要注意的是,它所描述的是这组数据本身的分布特征。,什么是推论统计(Inferential Statistics,推论统
3、计就是从一个较小的群体中了解的信息并得出相关结论,推广到更大的一个群体。我们把较小的这个群体,也就是我们收集了数据的群体称之为样本(sample),把更大的那个群体,也就是我们所感兴趣的、要研究的对象群体称之为总体(population)。,偏误估计(biased estimation)与无偏估计(unbiased estimation),很多因素导致了偏误估计过高估计或过低估计。样本的代表性、数据收集过程中的误差、计算中的差错,尤其是干扰因素的作用,等等,都有可能导致偏误估计。要达到无偏估计需要一系列的技术手段,应用统计技术的研究者就是采用这些技术手段,以样本去推测总体,以达到无偏估计。在社
4、会科学研究中,人为地制造(模拟)试验环境,控制各种干扰因素,以达到(自然)科学的求证方法。这就是社会统计学的一种思维方式。,描述性统计,集中趋势的量度(measures of central tendency):共性离散程度 的量度(measures of variability):异质性,集中趋势的量度,集中趋势(平均数值)是对整个群体的数值的最好的代表。有三种形式的平均数值:平均值(mean)、中位数(median)、众数(mode)。其中,最常用的是平均值。,离散程度,离散程度(异质性)反映的是数值之间是如何的不同。同样均值不同差异程度。如:7,6,3,3,1 3,4,4,5,4 4,4
5、,4,4,4 有三个离散程度的量度指标:全距(range)、标准差(standard deviation)、方差(variance)。其中,最常用的是标准差。,标准差,标准差反映的是每一个个案的分值与平均的分值之间的差距,简单来说,就是平均差异有多大。标准差越大表示差异越大。,不同样本量的标准差的偏误估计与无偏估计之差比较,方差,量度离散程度的第三个指标是方差(variance)。方差就是标准差的平方。,单变量描述性统计,均值标准差,单变量描述统计的目的,检查数据对此变量的分布特征做初步判断;依据此数据推论总体是否合适,要如果做调整;依据此变量分布特征,选择合适的统计模型。,用图形显示数据,为什么要用图形显示数据?柱状图 多边图线性图,柱状图,多边图,线性图,图型显示的频数分布特征,频数分布的特征可以有4个指标来显示:均值标准差斜度(skewness)峰度(kurtosis),均值,低收入 A群体的平均收入 B群体的平均收入 C群体的平均收入 高收入,频数,异质性(标准差),频数,低收入 均值 高收入,群体A的收入分布,群体B的收入分布,群体C的收入分布,斜度,频数,低收入 高收入,群体A收入分布正向倾斜,群体B收入分布无倾斜,群体C收入分布负向倾斜,峰度,低收入 高收入,频数,群体A的收入分布,群体B的收入分布,群体C的收入分布,