《社会学研究方法分析和综合之定量(统计)分析课件.ppt》由会员分享,可在线阅读,更多相关《社会学研究方法分析和综合之定量(统计)分析课件.ppt(79页珍藏版)》请在三一办公上搜索。
1、社会学-研究方法,分析和综合之定量(统计)分析,所谓定量(统计)分析,就是对社会研究收集来的数据资料进行计算、统计检验、分析解释,并以此为依据,做出科学推断,揭示社会现象中所蕴涵的规律的一种方法。统计分析包括描述统计和推断统计两种类型。统计分析方法的内容还可以根据变量的多少划分为单变量分析、双变量分析和多变量分析,前两者可称为初等统计,后者可称为高等统计。,1. 描述统计描述统计主要是对所收集的资料进行整理、分类和简化,描述数据的全貌以表明研究对象的某些特性。描述统计包括数据的初步整理,数据集中趋势和离散趋势以及相关系数的度量等方面。描述统计的目的在于使杂乱无章的数据更清晰直观地显示研究对象的
2、特征,以利于进一步分析。,1. 描述统计(1)描述统计的基本技术(2)集中趋势测量(3)离散趋势测量,(1)描述统计的基本技术频数(Frequency) :也称为次数,它是指分布在各类别中的数据个数。频数分布(Frequency Distribution):是指一组数据中取不同值的个案的次数分布情况,它一般是以频数分布表的形式表达。频数分布表的作用:简化资料。将调查得到的杂乱的原始数据,以十分简洁的统计表反映出来.清楚地了解调查数据的众多信息。,(1)描述统计的基本技术频率分布(Percentages Distribution):是一组数据中不同取值的频数相对于总数的比率分布情况。这种比率在社
3、会调查中经常是以百分比的形式来表达。频率分布表:是不同类别在总体中的相对数量分布。它十分便于不同总体和不同类别之间的比较。,(1)描述统计的基本技术统计表:表示被说明的事物及其统计指标和数值的表格。统计表的种类按总体分组的情况分:简单表(P272表11-10)分组表单项分组表(P269表11-6)组距分组表(P269表11-7)复合表(又称交互分类表)P271表11-9,(1)描述统计的基本技术统计表的结构从外表形式上看,统计表由表号、总标题(上端中部)、横行标题(左端)、纵栏标题(表上方)、指标数值、注释和资料来源等要素组成。从内容上看,统计表由主词和宾词两部分构成。P271表11-8,(1
4、)描述统计的基本技术统计图统计图是利用统计资料绘制成的几何图形或具体形象,它可以从数量方面显示出研究对象的规模、水平、结构、发展趋势和比例关系,是表现统计资料的一种重要形式。,(1)描述统计的基本技术统计图条形图条形图是用宽度相同的直条的高低或长短来表示各项统计指标数值大小的图形。根据条形图表现统计资料内容的不同,条形图又分为单式条形图、复式条形图和结构条形图。,单式条形图,单式条形图:是以若干距离相等的单一条形的高低、长短来表明指标数值大小的一种图形。,复式条形图,复式条形图:是以两个以上的条形为一组,来进行比较的一种图形,它既可以进行组与组之间的比较,又可以进行组内的比较。它常常用来表现分
5、组资料。,结构条形图,结构条形图:是以一个独立的条形或几个条形的全部长度代表被说明现象的总体,并把条形分割为几个小段,用来表示构成这一总体的各个组成部分。它既可以比较现象的各部分在总体中所占比重的大小,又可以说明现象在不同时期的构成资料。这些资料可以是绝对数,也可以是百分数。,(1)描述统计的基本技术统计图饼形图饼形图通常是以圆形面积或以圆内各扇形面积的大小来表示统计指标数值大小的图形。,(1)描述统计的基本技术统计图直方图直方图是由紧挨着的长条构成的,与条形图不同的是,它的条的宽度是有意义的,实际上它不是用长条的高度而是用长条的面积表示频率的大小,长条的纵轴高度表示频率密度(频率密度=频率/
6、组距),长条的宽度表示组距。,某班统计学考试成绩分布图,2,10,15,18,5,0,5,10,15,20,成绩(分),60,70,80,90,100,人数,(1)描述统计的基本技术统计图折线图折线图是用直线连接直方图中条形顶端的中点而成的。当组距逐渐减小时,折线将逐渐变为平滑,趋向为曲线。,(,10,15,20,95,成绩(分),人数,0,60,70,80,90,100,(1)描述统计的基本技术统计图线性图线性图:表示两个变量之间的函数关系的曲线图,可以表明事物的发展规律、总体单位的分配情况、揭示事物间的依存关系或表明计划执行的进度。,1. 描述统计(1)描述统计的基本技术(2)集中趋势测量
7、(3)离散趋势测量,(2)集中趋势测量集中趋势分析:是从一组数据中抽象出一个代表值,以代表现象的共性和一般水平。除可以说明某一社会现象在一定条件下数量的一般水平外;集中趋势还可以对不同空间的同类现象或同一现象在不同时间的状态进行比较;以及分析某些社会现象之间的依存关系。最常见的集中量数有算术平均数(简称平均数,也称为均值)、众数和中位数三种。,(2)集中趋势测量众数众数是一组数据中出现次数最多(即频数最高)的那个数值,用 Mo 表示。适用条件:只有集中趋势明显时,才能用众数作为总体的代表值。例:有16例高血压病人的发病年龄(岁)为:42,45,48,51,52,54,55,55, ,61,61
8、,62,62,试求众数。,58,58,58,58,(2)集中趋势测量众数需要注意的几个问题:定性数据可以存在众数。众数是一组数据中出现次数最多的数据,是一组数据中的原数据,而不是相应的次数。例对于某些数据而言,例如均匀分布,并不存在众数。如,原始数据: 10 5 9 12 6 8对于某些数据存在两个或多于两个的众数。如,原始数据: 25 28 28 36 42 42,这里的变量为“广告类型”,这是个定类变量,不同类型的广告就是变量值。我们看到,在所调查的200人当中,关注商品广告的人数最多,为112人,占总被调查人数的56%,因此众数为“商品广告”这一类别,即 Mo商品广告,(2)集中趋势测量
9、众数众数的计算方法(1)单项数列确定众数,即出现次数最多(频率最大)的标志值就是众数。(2)组距数列确定众数:在等距数列条件下,先确定众数组,然后再通过公式进行具体计算,找出众数点的标志值。,(2)集中趋势测量众数计算公式:,是众数所在组的下限; 是众数所在组前一组的次数; 是众数所在组后一组的次数; 是众数所在组的次数;,是众数组的组距。,例 对某公司员工奖金情况进行调查,得到资料如下表所示:,也可以作图求解众数,方法:即先画相邻三组次数分布直方图,然后连接相邻两组次数差的对角线,再以对角线的交点向x轴引一条垂线,它与X轴的交点即为众数.,众数示意图,(2)集中趋势测量中位数中位数:将总体单
10、位的某一数量标志的各个数值按照大小顺序排列,居于中间位置的那个数值就是中位数。它的含义是全部数据中有一半数值在它之上,另一半数值在它之下。,(2)集中趋势测量中位数计算方法由未分组资料确定中位数 排序:确定中位数位置 奇数:中间位置的标志值为中位数。 偶数:中间位置相邻两个变量值的简单平均数是中位数。,原始数据: 24 22 21 26 20排 序: 20 21 22 24 26位 置: 1 2 3 4 5,原始数据: 10 5 9 12 6 8排 序: 5 6 8 9 10 12位 置: 1 2 3 4 5 6,(2)集中趋势测量中位数由定序分组资料求中位数,中位数的位置为: (300+1)
11、/2150.5从累计频数看,中位数的在“一般”这一组别中。因此 Md一般,(2)集中趋势测量中位数由单值分组资料求中位数,先计算中间位置: (n+1)2=(150+1)2=75.5再找出其对应值,由组距分组资料求中位数,第一步:确定中位数所处位置,按 确定(f为次数)。第二步:采用公式计算上限法:用“以上累计”法确定中位数。下限法:用“以下累计”法确定中位数。其中:U是中位数所在组的上限,L是中位数所在组的下限,fm是中位数所在组的次数,Sm+1是中位数所在组后面各组累计数, Sm-1是中位数所在组前面各组累计数,i是中位数所在组的组距。,例 现检测某厂生产的一批电子产品的耐用时间,得到资料如
12、下表所示:,(2)集中趋势测量算术平均数(The Arithmetic Mean)简称均数(Mean)或均值,定义为所有测量值之和除以变量值个数(即,样本含量Sample Size)。反映一组呈对称分布的变量值在数量上的平均水平。,(2)集中趋势测量算术平均数(The Arithmetic Mean)直接计算法,计算公式 :,例:试计算1,3,7,9的均数?,(2)集中趋势测量算术平均数(The Arithmetic Mean)加权算术平均法,当数据已分组,形成了变量数列:,平均成绩(70+80+85)/3 ?,平均成绩所有人的成绩总和/总人数 (70+80*2+85*2)/580,(2)集中
13、趋势测量算术平均数(The Arithmetic Mean)加权算术平均法计算公式,例:由单值分组求算术平均值,平均指标的种类,集中趋势(Central tendency)平均指标一组数据向其中心值靠拢的倾向和程度;测度集中趋势就是寻找数据一般水平的代表值或中心值;不同类型的数据用不同的集中趋势测度值;选用哪一个测度值来反映数据的集中趋势,要根据所掌握的数据的类型来确定。,众数、中位数、平均数的特点和应用众数不受极端值影响具有不惟一性数据分布偏斜程度较大时应用中位数不受极端值影响数据分布偏斜程度较大时应用平均数易受极端值影响数学性质优良数据对称分布或接近对称分布时应用,众数、中位数和平均数的关
14、系图示,中位数、众数和平均数之间的数量关系决定于总体内次数分配的状况。,1. 描述统计(1)描述统计的基本技术(2)集中趋势测量(3)离散趋势测量,(3)离散趋势测量所谓离散趋势(又称离中趋势),是指数列中各变量值之间的差距和离散程度。离势小,平均数的代表性高;离势大,平均数代表性低。离中趋势(差异程度)变异指标变异指标用以反映总体各单位标志值的变动范围或参差程度,与平均指标相对应,从另一个侧面反映了总体的特征。,(3)离散趋势测量全距(极差Range)R=最大值 最小值(R =Xmax Xmin)优、缺点计算简便,意义清楚,但反映现象的差异程度较粗略,实用价值甚小。,(3)离散趋势测量异众比
15、率所谓异众比率,是指非众数的频数与总体单位数的比值,用VR来表示 其中:fmo为众数的频数;n是总体单位数,异众比率能表明众数所不能代表的那一部分变量值在总体中的比重。,例:根据下表中的数据,计算异众比率。,某城市居民关注广告类型的频数分布,解:根据公式,得,这说明在所调查的200 人当中,关注非商品广告的人数占44%,即关注商品广告的人数占 56%。由于异众比率值较大,从而用“商品广告”来反映城市居民对广告关注的一般趋势,代表性还不是很好。,(3)离散趋势测量异众比率例:某项调查发现,现今三口之家的家庭最多(32%),求异众比率。某开发商根据这一报导,将房屋的户型大部分都设计为适合三口之家居
16、住的样式和面积,你认为如何呢?,(3)离散趋势测量四分位差(Quartile deviation)四分位数(Quartile)(三个四分位数)一组数据按从小到大排列时,处于1/4位置上的变量值称为第一个四分位数(下四分位数),处于3/4位置上的变量值称为第三个四分位数(上四分位数),而中位数就是第二个四分位数。四分位数通常用符号Q表示。,在未分组时下四分位数(Q1)的位置上四分位数(Q3)的位置显然,中间的四分位数(Q2)就等于Md。,(3)离散趋势测量四分位差(Quartile deviation)四分位数的确定,例:根据下表中的数据,计算甲城市家庭对住房满意状况评价的四分位数。,甲城市家庭
17、对住房状况的评价,解:已知N=300,得下四分位数的位置上四分位数的位置则根据累积频数Q1 = 不满意,Q3= 满意,(3)离散趋势测量四分位差四分位差是第三四分位数(上四分位数)和第一四分位数(下四分位数)的半距。其作用是避免全距受极端值影响大的缺点。计算公式在定距和定比变量中在定序变量中,(3)离散趋势测量标准差(Standard deviation)各变量值对其算术平均数的离差平方的算术平均数的平方根,又称均方差,用S表示。 标准差是最常用的离散程度测度值。基本公式: 或,(3)离散趋势测量标准差未分组资料标准差的计算,例:求72、81、86、69、57这些数字的标准差。,(3)离散趋势
18、测量标准差分组资料标准差的计算计算公式式中fi为第i组的次数,例:调查大一男生60人的身高情况如下表所示,求他们身高的标准差。,计算左边数列的标准差,一、资料的整理和分析,2. 推论统计推论统计就是利用样本的统计值对总体的参数值进行估计的方法。推论统计的内容主要包括两个方面:(1)区间估计(2)假设检验,(1)区间估计(Interval Estimation)以样本统计量的抽样分布为理论依据,按一定概率要求,由样本统计量的值来估计总体参数的值所在的范围,叫做总体参数的区间估计。区间估计的实质就是在一定的可信度(置信度)下,用样本统计值的某个范围(置信区间)来估价总体的参数值。范围的大小反映的是
19、这种估计的精确性问题,而可信度高低反映的则是这种估计的可靠性或把握性的问题。,(1)区间估计区间估计的结果通常可以采取下述方式来表述:我们有95%的把握认为,全市职工的月收入在182元至218元之间。全市人口中,女性占50%至52%的可能性为99%。区间估计中的可靠性或把握性是指用某个区间去估计总体参数值时,成功的可能性有多大。它可以这样来解释:如果从这个总体中重复抽样100次,约有95次所抽样本的统计值都落在这个区间。说明这个区间估计的可靠性为95%。,对于同一总体和同一抽样规模来说所给区间的大小与做出这种估计所具有的把握性形成正比;区间大小所体现的是估计的精确性,区间越大,精确性程度越低,
20、区间越小精确性越高,二者成反比; 从精确性出发,要求所估计的区间越小越好,从把握性出发,要求所估计的区间越大越好,因此人们总是需要在这二者之间进行平衡和选择。在社会统计中,常用的置信度分别为90%,95%和99%。与他们所对应的允许误差()分别为10%,5%和1%。在计算中,置信度常用1- 来表示。,(2)假设检验利用样本信息,根据一定的概率,对总体参数或分布的某一假设作出拒绝或保留的决断,称为假设检验。假设检验实际上就是先对总体的某一参数作出假设,然后用样本的统计量去进行验证,以决定假设是否为总体所接受。,(2)假设检验假设检验的依据假设检验所依据的是概率论中的“小概率原理”,即“小概率事件
21、在一次观察中不可能出现的原理”,但是如果现实的情况恰恰是在一次观察中小概率事件出现了,应该如何判断呢?一种意见认为该事件的概率仍然很小 ,只不过偶然被遇上了。另一种则是怀疑和否定该事件的概率未必很小,即认为该事件本身就不是一种小概率事件,而是一种大概率事件。 后一种意见代表的正是假设检验的基本思想。,举例说明假设检验的基本思路某单位职工上月平均奖金为210元,这个月的情况与上月没有大的变化,我们设想平均奖金还是210元。为了验证这一假设是否可靠,我们抽取100人作调查,结果得出月平均奖金为220元,标准差为15元。显然,样本的结果与总体 结果之间出现了误差,这个误差是由于我们假设错误引起的,还
22、是由于抽样误差引起的呢?如果是抽样误差引起的,我们就应该承认原来的假设,而如果是假设错误引起的,我们就应该否定原假设。,方法通过将原假设作为虚无假设,而将与之对立的假设作为研究假设,然后用样本的数据计算统计量并与临界值比较。当统计值的绝对值小于临界值,即ZZ/2时则接受虚无假设,否定研究假设;当统计值的绝对值大于或等于临界值:即Z Z/2时则拒绝虚无假设,接受研究假设。,通常把概率不超过0.05或0.01的事件当作小概率事件,也成为显著性水平。根据显著性水平查到的 Z值称为临界值,根据样本资料计算的 Z 值称为统计值。,假设检验的步骤建立虚无假设和研究假设。通常将原假设作为虚无假设。根据需要选
23、择适当的显著性水(即小概率的大小)。通常=0.05或=0.01等。根据样本数据计算出统计值,并根据显著性水平查出对应的临界值。将临界值与统计值进行比较,以判定是接受虚无假设还是接受研究假设。,总体均值的假设检验例:某单位职工上月平均奖金为210元,本月调查了100名职工,平均奖金为220元,标准差为15元,问该单位职工平均奖金与上月相比是否有变化?解:首先建立虚无假设 (用H0 表示) 和研究假设(用H1 表示) ,即有: H0 : =210 H1 : 210 选择显著性水平= 0.05,由Z检验表查得 Z(0.05/2)=1.96,然后根据样本数计算统计值公式为: 式中, 为样本均值;为虚无
24、假设中的总体均值;S为样本标准差;n为样本量。代入计算得由于Z=6.67Z (0.05/2) =1.96所以,拒绝虚无假设,接受研究假设,即从总体上说,该单位职工月平均奖金与上月相比有变化。,总体百分比的假设检验总体百分比的假设检验的基本思路和方法与总体均值的假设检验相同,只是统计量的计算公式为:式中,p为样本中的百分比(或比例),P是所假设的总体百分比(或比例),n是样本大小。,经常不断地学习,你就什么都知道。你知道得越多,你就越有力量Study Constantly, And You Will Know Everything. The More You Know, The More Powerful You Will Be,写在最后,感谢聆听不足之处请大家批评指导Please Criticize And Guide The Shortcomings,结束语,讲师:XXXXXX XX年XX月XX日,