《九章资料的统计分析.ppt》由会员分享,可在线阅读,更多相关《九章资料的统计分析.ppt(94页珍藏版)》请在三一办公上搜索。
1、第九章 资料的统计分析,在调查结束后,我们必须对收集到的资料进行认真仔细的整理。而整理的目的是为了分析,没有对资料的分析,我们就不可能有对研究对象的总体把握,也不可能写出好的研究报告。当然,作为社会调查研究对象的社会现象有其质和量两方面,我们对整理好的资料也必须展开定性和定量两方面的分析,缺一不可。但是,定性分析是以研究者的理论功底为基础,主要靠个人的悟性。定量分析就不同了,它是我们每个人通过学习都可以统一掌握的技术。所以学习社会研究方法,课堂教学在资料分析方面重点讲得是统计分析,而对定性分析,本书是以穿插于有关章节的方式并以情境启发的方式来加以讨论的。,第一节 统计调查资料及其整理,一、统计
2、分组和频数分布 统计整理是与统计分组相联系的。所谓统计分组,就是将情况相同或相近的数据资料加以分门别类的归并,使之简单明晰,以便为统计分析中提取各种有用信息打下基础。,经过调查收集上来的资料虽然是大量的,却很可能是杂乱无章的,用它来直接做分析往往有困难。统计整理是对调查数据资料的条理化、系统化和有序化,通过它,社会调查研究才能进入统计分析阶段。,统计分组有两方面的含义,对总体(或样本)而言是“分”,即将总体中各个单位按照它们的差异性(如身高的差异)区分为若干部分;对总体单位而言是“合”,即将相近似的单位组合起来。这样,本来杂乱无章的数据便有序化了。,频数分布是统计分组的结果,它是指众多的调查数
3、据在各个组(各类别、各等级或各区间)出现或发生的次数。频数分布是对客观事物自然形成的分布状态的集中反映和描述。,60名男性青年的身高表(原始资料)单位:厘米,161 179 173 162 161 169 166 155 177 165 165 171 165 168 176 174 163 173 159 170 170 169 169 170 174 169 171 167 164 169 178 160 168 166 163 158 169 172 178 171 152 176 167 171 161 176 168 181 175 159 162 165 168 164 179 1
4、57 173 166 172 167,现在我们用从某大学大一男同学中抽取出来的60人的身高资料来编制频数分布表,60名男同学身高(以厘米计)的原始资料如右:,60名男性青年的身高表(序列资料)单位:厘米,152 160 163 165 167 169 170 171 174 177 155 161 163 165 167 169 170 172 174 178 157 161 164 166 168 169 170 172 175 178 158 161 164 166 168 169 171 173 176 179 159 162 165 166 168 169 171 173 176 17
5、9 159 162 165 167 168 169 171 173 176 181,很显然,面对这一堆原始数据,如果我们不作简化处理,是不容易从中看出什么规律性的。为此,我们先将它们由低到高排成序列资料:,将原始资料编排成序列资料,实际上是在进行统计汇总。由于身高(X)是连续变量,我们如果选4cm为间距,我们可以直接把序列资料编制成为含有8个组的,频数分布表(频数用f 表示)。如此一来,原来无序的原始资料就变为现在有序的分组资料。与此同时,学生总体中身高的分布状况也清晰地呈现出来。(注:由于身高是连续变量,汇总时使用了“上组限不包括在内”的处理原则。),某校大一60名男生身高频数分布表,二、频
6、率分布与总体内部结构 分组资料虽然简单明了,但不能直接看出各组人数占这60人的比重,从而显示出总体内部结构。为了实现这个要求,就要在分组资料的基础上派生出频率分布表(频率用P表示)。,频率就是各组人数占总体人数的比重,即PfN。比重都小于1,经常用百分数来表达,它反映了对象总体的内部结构。,某校大一60名男生身高频率分布表,累计频数(F),向上累计以变量数列首组的频数为始点,逐个累计各组的频数,展示小于该组上限的频数和。,向下累计以变量数列末组的频数为始点,逐个累计各组的频数,展示大于该组下限的频数和。,以上我们看到了三种形式的资料:原始资料、次序资料和分组资料,这反映了对资料进行整理和简化的
7、顺序。这三种形式是依次逐步简化和条理化的,使人们看起来越来越容易、越来越清楚。,三、图示法 把无序的原始资料整理成频数分布表,是表示统计资料的一种有效方式,我们可以称为列表法。其实,用图示法来表示统计资料比列表法更能一目了然。我们可以根据整理好的频数分布(或频率分布和累积百分数分布)绘制出相应的统计图。最常用的有直方图、条形图、折线图、曲线图等。,对于连续变量的分布,可以用矩形图表示。矩形高度表示各组的频数或频率。在等距分组的条件下,很显然,各矩形的面积与其高度成正比。因此,各矩形的面积同样可以用来表示各组的频数和频率,而且更加形象直观(如前图)。,1矩形图,方条图适用于表示离散变量的资料。方
8、条图与矩形图基本相同,其高度表示各组的频数(或频率)。对于定类变量和定序变量的测量,它的宽度是没有意义的,各方条之间要留有一定的距离。,2方条图,3折线图,表示频数(或频率)分布的另一种相似的图形是折线图。直接把矩形图各矩形顶部的中点用直线连接起来,并把原来的矩形抹掉,就得到了折线图。,在许多并非十分严格的场合,人们往往乐于把频数分布的矩形图和折线图修匀成平滑曲线,这样看起来更美观。例如,1901年至1985年,全世界已有300多位科学家获得过诺贝尔物理奖、化学奖和生物医学奖。对这些科学家取得成果的年龄进行统计,结果如下表。再以年龄为横坐标,人数为纵坐标,使可制成“获诺贝尔奖的年龄曲线”(见下
9、图9-3)。,4曲线图,第二节 统计分析一:描述统计,所谓描述统计就是讨论范围仅以搜集资料本身为限,而不予以扩大。包括推论统计在内,没有描述统计作为基础,想要运用好也是不可能的。描述统计所用数学较少,实用性又很强,因此在社会调查研究中使用的机会很多。,调查数据资料经分类整理后,已经使杂乱无章的原始数据资料成为有系统、有条理的数据资料,这就为统计分析中提取各种有用信息打下了基础。而在社会研究的定量分析中,描述统计是基础。,一、集中趋势统计量 统计分析首先要解决的第一个问题是,要用一统计指标来代表一系列的数据。这个具有代表性的统计指标,能够概括这一系列数据的特征,集中反映这一系列数据的一般水平。,
10、主要内容,算术平均数,中位数,众数,1算术平均数()简单算术平均数(对于未分组资料)注意:对求和符号,此时流动脚标的变动范围是1,2,3,N,N是总体单位数。例 求74、85、69、9l、87、74、69这些数字的算术平均数。解 78.4,加权算术平均数(对于分组资料)注意:对求和符号,此时流动脚标的变动范围是1,2,3,n,n是组数,而不是总体单位数。很显然,算术平均数不仅受各变量值(X)大小的影响,而且受各组单位数(频数)的影响。由于对于总体的影响要由频数(f)大小所决定,所以 f 也被称为权数。值得注意的是,在统计计算中,权数不仅用来衡量总体中各标志值在总体中作用,同时反映了指标的结构,
11、所以它有两种表现形式:绝对数(频数)和相对数(频率)。这样一来,在统计学中,凡对应于分组资料的计算式,都被称为加权式。,注意:分组资料有单项式和组距式两种。计算加权算术平均数,只有对每个变量值可分为一组的离散变量的分组资料(即单项式分组资料,参见下表)才能得到精确的结果。例 求下表(单项数列)所示数据的算术平均数。,对于组距数列(参见下表),要用每一组的组中值权充该组统一的变量值。例 求下表(组距数列)所示数据的算术平均数。,算术平均数的性质,各变量值与算术平均数的离差之和等于0。,各变量值对算术平均数的平方和,小于它们对任何他数偏差的平方和,算术平均数受抽样变动影响较小。,分组资料如遇有开放
12、组距时,不经特殊处理不能进行算术平均数的计算。,受极端值影响较大。,2中位数(Md),把总体单位某一数量标志的各个数值按大小顺序排列,位于正中处的变量值,即为中位数,用Md表示。Md可用于定序、定距、定比资料。,对未分组资料,(1)、先把所有数据按大小顺序排列,如果总体单位数为奇数,则取第(N+1)/2 位上的变量值为中位数;(2)、如果总体单位数为偶数。因为居中的数值不存在,按惯例,取第 N/2位和第(N+1)/2 位上的两个变量值的平均作为中位数。,数。,例 求54,65,78,66,43这些数字的中位数。例 求54,65,78,66,43,38 这些数字的中位数。,你会吗?,例 求72、
13、81、86、69、57这些数字的中位数。解 先将这几个数字由小到大排序:57、69、72、81、86,然后把居中那个数拿出来,于是 Md72,(1)单项数列,根据N/2在累计频数分布中找到中位数所在组,该组变量值就是Md。,中位数,对于分组资料,(2)组距数列按中位数所在组的下限:按中位数所在组的上限:,当根据组距数列求中位数时,要采用所谓的比例插值法:先根据N2在累计频数分布中找到中位数所在组,然后假定该组中各变量值是均匀分布的,再用以下任何一种方法求出中位数(注意:此处用的是向上累计)。,例 调查大一男生60人的身高如前表,求他们身高的中位数。解 第一种方法 166 4 1685(厘米),
14、请你用第二种方法来做一下,中位数的性质,(1)各变量值对中位数之差的绝对值总和,小于它们对任何其他数的绝对值总和。(2)中位数不受极端值的影响。(3)分组资料有不确定组距时,仍可求得中位数。(4)中位数受抽样变动的影响较算术平均数略大。,3众数(Mo),众数是在一组资料中,出现次数(或频数)呈现出“峰”值的那些变量值,用Mo表示。众数只与次数有关,可以用于定类、定序、定距、定比资料。,对于未分组资料 直接观察。首先,将所有数据顺序排列;然后,只要观察到某些变量值(与相邻变量值相比较)出现的次数(或频数)呈现“峰”值,这些变量值就是众数。,对于分组资料 单项式:观察频数分布(或频率分布)组距式:
15、,Lo为众数组下限;为众数组频数与前一组频数之差;为众数组频数与后一组频数之差;ho为众数组组距。,例 就72、81、56、86、81、57这几个数字求众数。解 按照众数的定义识别,众数是81。,例 调查大一男生60人的身高情况如前表,求他们身 高的众数。解 因为是组距式分组资料,运用前式计算,为什么众数有时不存在,有时有两个以上?,二、离中趋势统计量,主要内容:(1)全距;(2)异众比率;(3)标准差。,所谓离中趋势,是指数列中各变量值之间的差距和离散程度。离势小,平均数的代表性高;离势大,平均数代表性低。,例如有A、B、C、D四组学生各5人的成绩如下:A组:60,60,60,60,60 B
16、组:58,59,60,61,62 C组:40,50,60,70,80 D组:80,80,80,80,80 数据显示,平均数相同,离势可能不同;平均数不同,离势可能相同。,1.全距(R)R=Xmax Xmin 例 求74,84,69,91,87,74,69这些数字的全距。解 把数字按顺序重新排列:69,69,74,74,84,87,91,显然有 R=Xmax Xmin 91 6922,全距(R):最大值和最小值之差。也叫极差。全距越大,表示变动越大。,优点:缺点:,计算简单、直观。,(1)受极端值影响大;(2)没有量度中间各个单位间的差异性,数据利用率 低,信息丧失严重;(3)受抽样变动影响大,
17、大样本全距比小样本全距大。,2.异众比率(VR)所谓异众比率,是指非众数的频数与总体单位数的比值,用VR来表示 其中:为众数的频数;是总体单位数,异众比率能表明众数所不能代表的那一部分变量值在总体中的比重。,例 调查某小区50户家庭的人口情况如表9.5,求异众比率。解,3.标准差(S),在统计分析中,对于定距变量,用标准差来作为离中趋势统计量是最基本的做法。这是指在一组数据中,各数值之间的差距是不相等的,有的差距大,有的差距小,以它们之间平均相差多少作为标准来衡量一组数据的离散程度,即标准差。更准确地讲,标准差用于衡量各数值相对于算术平均数的平均偏离程度。,对于未分组资科,一个数据与该组数据的
18、算术平均数 的差叫离差。当一个数据大于 时,离差是正值,反之则为负值。为了消除离差正负号的影响,可求所有离差平方的算术平均,这是所谓的均方差,简称方差()。将方差开平方后所得的值就是标准差。方差:标准差:,例 求72、81、86、69、57 这些数字的标准差。,对于分组资料,计算左边数列的标准差,例 调查大一男生60人的身高情况如前表所示,求他们身高的标准差。解 因为是分组资料,运用(9.10)式,计算参见下表,值得注意的是,计算分组资料的标准差,也可以依据频率分布来进行计算式由此可以写成:,或者,第三节 统计分析二:推论统计,所谓推论统计,主要是依据概率论,研究如何依据有限资料对总体性质作推
19、断,从而使统计的功能大为扩充。,在社会研究中,抽样调查被公认为是一种最完善、最有科学根据的调查方法。然而它在数学上要求比较高,一定要有推论统计。那种认为样本理所当然能够代表总体的看法是没有根据的。,一、概率与概率分布,随机现象具有一定条件呈现多种可能结果的特性。,人们把随机现象的结果以及这些结果的集合体称作随机事件。,概率是与随机现象相联系的一个概念。所谓随机现象,是指事先不能精确预言其结果的现象,如即将出生的婴儿是男还是女?一枚硬币落地后其正面是朝上还是朝下?等等。所有这些现象都有一个共同的特点,那就是在给定的条件下,观察所得的结果不止一个。随机现象具有非确定性,但内中也有一定的规律性。例如
20、,事先我们虽不能准确预言一个婴儿出生后的性别,但大量观察,我们会发现妇女生男生女的可能性几乎一样大,都是0.5,这就是概率。,在推论统计中,概率和概率分布有着如同在描述统计中频率和频率分布那样的联系。现在我们了解了概率,但作为随机现象的全面研究这还很不够。概率仅仅告知了随机现象某一局部结果发生的可能性有多大,概率分布则要在满足完备性(穷举)和互不相容性(互斥)的前提下,回答随机现象一共会出现多少种结果,以及每种结果所伴随的概率是多少。,以抛掷十枚硬币的试验为例,概率分布不仅要回答一共会发生11种结果(从没有一枚硬币面朝上到所有十枚硬币面全朝上),而且要回答全部11种结果发生的概率各是多少。解决
21、了这两个问题,我们的讨论便从概率过渡到了概率分布。在推论统计中,我们是用先验的方法就每种结果算出其发生概率的,将它们一一列入右表中,我们就得到了著名的二项分布。,推而论之,在随机变量的取值满足“穷举”和“互斥”这两个原则的前提下,概率分布的一般形式如下表所示。,现在我们把这里所讲的概率分布与前面所讲的频数分布、频率分布作一比较,就会发现它们(特别是频率分布与概率分布)非常相象。当然概率分布与频率分布也有重要区别:频率分布是经资料整理而来的,概率分布却是先验的;频率分布随样本不同而有所不同,概率分布却是唯一的;频率分布有对应的频数分布,概率分布则没有。因此频率分布被称为随机变量的统计分布或经验分
22、布,而概率分布则被称为随机变量的理论分布。,二、分布函数 但是我们要特别注意,上表实际上只对离散型随机变量适用。因为离散型随机变量X的取值是可数的。如果对X的每个可能取值xi计算其实现的概率Pi,我们便得到了离散型随机变量的概率分布,即,像上面抛掷硬币的试验一样,有许多随机现象只包含两个结果,如男与女、是与非、生与死、同意与不同意、赞成与反对等等。通常,我们把其中比较关注那个结果称为“成功”,另一个结果则称为“失败”。每当试验如同抛掷硬币,是在相同的条件下重复n次,考虑的是“成功”的概率p(“失败”的概率q1p),且各次试验相互独立,我们都可以得到由二项分布所示的概率分布。二项分布是最著名的离
23、散型随机变量的概率分布,它的数学表达式是,连续型随机变量的取值充满某一区间,因而取某一数值讨论其概率是无意义的。为此,我们引进概率密度 的概念来表达连续型随机变量的概率分布。,以频率密度为纵坐标,可以作出频率分布直方图。类似地,以概率密度 为纵坐标,可以作出概率密度曲线。所不同的是,概率密度由于对组距求了x0的极限,其图形乃平滑曲线。,这样一来,随机变量X取值在区间x1,x2上的概率等于概率密度曲线 下面x1与x2两点之间面积,即,所以有概率密度的性质,因为概率不可能是负的,且,为了从数学上能够统一对随机变量的概率进行研究引入分布函数 的概念,它被定义为 有了分布函数,就可以很容易得到随机变量
24、X取值在任意区间x1,x2上的概率,即,连续型随机变量,离散型随机变量,和(离散变量)或(连续变量)的关系,就像向上累计频率和频率的关系一样。不同之处在于,累计的是概率。但使用分布函数的好处是很明显的,它不仅在数学上统一了对离散型随机变量和连续型随机变量概率的研究,而且由于它计算概率的起点都固定为,因而可以把概率值换算成表,以易于求得任何区间的概率,从而达到计算快捷和应用广泛之目的。,例 求两颗骰子点数的分布函数。,例 某特定社区人口的10%是少数民族,现随机抽取6人,问其中恰好2人是少数民族的概率是多少?解 根据附表3求得 B(2;6,0.1)F(2)F(3)0.11430.01590.09
25、84,三、数学期望与变异数 在前面统计分组的讨论中,我们在得到频数(或频率)分布后,为了对变量有系统概括的认识,分别研究了集中趋势和离中趋势。而对集中趋势和离中趋势量度,我们分别得到了平均指标和变异指标,其中最有代表性的是算术平均数和标准差。很显然,现在当我们面对随机变量的理论分布时,也要对随机变量的集中趋势和离中趋势作概括性的描述,这就引出数学期望和变异数这两个概念。所谓数学期望,是反映随机变量X取值的集中趋势的理论均值(算术平均),记作E(X)。,离散型随机变量,连续型随机变量,例 一家保险公司在投保的50万元人寿保险的保单中,估计每1000 保单每年有15个理赔,若每一保单每年的营运成本
26、及利润的期望值为200元,试求每一保单的保费。解 依题意知,利润的期望值 E(X)200(元)设x1表示保费,x2为理赔费x2-(500000-x1),则可得 所以,x17700(元)。即每一保单每年的保费应定在7700元。,数学期望也常常记为,在推论统计中同总体均值的记号,而 则在推论统计中被作为样本均值的记号。数学期望和总体均值一样,都是唯一的,不过它是一个先验的理论值。由于它是用随机变量各取值分别乘以取值的概率来计算的,因此数学期望又可称为随机变量的加权算术平均数。样本均值依据统计数据计算而来,但它具有随机性。在统计推论中,E(X),是“估计”。,和 都是为服务的,E(X)是“期望”,数
27、学期望的几个基本性质:(1)常数c的期望等于该常数,即 E(c)c(2)常数c与随机变量X之积的期望等于X的期望与c的积,即 E(cX)cE(X)(3)两个随机变量之和的期望等于它们的期望之和,即 E(X+Y)E(X)+E(Y)(4)两个独立随机变量乘积的期望等于它们的期望之积,即E(XY)E(X)E(Y),数学期望反映了随机变量的集中趋势,但仅知道集中趋势还不够,还应该知道随机变量在均值周围的离散程度,即离中趋势。变异数是综合反映随机变量取值分散程度的指标,其功能相当于描述统计中已讨论过的方差及标准差,记用D(X)。,离散型随机变量,连续型随机变量,由于变异数的单位是随机变量单位的平方。为了
28、使随机变量变异指标的单位与其本身的单位相同,将D(X)开方(取正值)称作随机变量X的标准差;同时为了更明确的表示D(X)与标准差之间只是开方关系,索性把D(X)写成2,并直接称D(X)为随机变量X的方差。于是有,很显然随机变量X的变异数也可以写成,简化公式,当然不难理解,在推论统计中随机变量变异数的记号常常同总体方差的记号,即用2表示之。而S2 则被作为样本方差的记号。变异数和总体方差一样,都是唯一的,不过它是一个先验的理论值。样本方差S2 依据统计数据计算而来,但它具有随机性。,试求两颗骰子点数的变异数D(X),变异数的几个基本性质:,(1)常数c的方差等于0,即D(c)0(2)常数c与随机
29、变量X之积的方差,等于随机变量X的方差c2倍,即D(cX)c2D(X)(3)随机变量与常数之和的方差等于随机变量的方差,即D(X+c)D(X)(4)两个独立随机变量之和的方差等于它们的方差和,即D(X+Y)D(X)+D(Y),四、假设检验与二项分布的应用 对于一枚硬币被重复抛掷10次的二项试验,经验告诉我们,一共有11种可能的结果,而且实现这些结果的机会是大不相同的。研究者实际上从来不用经验的方法求得概率分布,因为通常我们只对一项试验进行一次或几次,抽取样本也是一个或至多不过几个。二项分布是用数学或演绎推理的方法求得的一种理论分布。既然如此,如果实际抽样得到的结果偏巧就是概率分布预示的最不可能
30、出现的结果,那么我们是认定纯属巧合,还是开始对用数学或演绎推理方法求得的概率以及理想试验的种种前提假设产生怀疑?更准确地说,在一枚硬币被重复抛掷10次的这个二项试验中,究竟出现什么结果时,我们应该对二项分布及其前提假设产生怀疑呢?是不是只要不是得到5次成功5次失败(x5)这个最大可能性结果时就开始怀疑,还是仅当出现10次成功或一次也不成功(x10或x0)这两个极端情况时才产生怀疑呢?这就是假设检验的核心问题。,(1)建立假设,(2)求抽样分布,(4)计算检验统计量,(3)选择显著性水平和否定域,(5)判定,所所包有含统的计步检骤验,概率分布不是一种研究者从资料中看到的分布,我们讨论它,不是出于
31、对数学的爱好,而是因为统计推论的有关工作需要它。现在,我们要进入系统讨论统计假设检验的实际步骤的阶段。所有的统计检验都包含某些特定的步骤,这里先列示如下:,1建立假设 统计检验是将抽样结果和抽样分布相对照而作出判断的工作。取得抽样结果,依据描述性统计的方法就足够了。抽样分布则不然,它无法从资料中得到,非利用概率论不可。而不对待概括的总体和使用的抽样程序做某种必要的假设,这项工作将无法进行。比如通过掷硬币的实验得到二项分布,必须假设:样本是随机的,试验中各次抛掷相互独立;硬币是无偏的(或称是诚实的),即pq0.5。概括地说,必须首先就研究总体和抽样方案都做出假设,再加上概率论,我们就可以对各种可
32、能结果做具体的概率陈述了。,2求抽样分布 在做了必要的假设之后,我们就能用数学推理过程来求抽样分布了。比如在这一章开头,在硬币重复抛掷n次的理想实验中,我们计算了成功次数为x的宏观结果所具有的概率,得到二项分布。如果前提假设变动了,还可以求出其他形式的概率分布,如正态分布、泊松分布、卡方分布等等,它们都有特定的方程式。由于数学上已经取得的成果,实际上统计工作者要做的这项工作往往并不是真的去求抽样分布的数学形式,而是根据具体需要,确定特定问题的统计检验应该采用哪种分布的现成的数学用表。,3选择显著性水平和否定域 在统计检验中,那些不大可能的结果称为否定域。如果这类结果真的发生了,我们将否定假设;
33、反之就不否定假设。在统计检验中,通常把被检验的那个假设称为零假设(用符号H0表示),并用它和其他备择假设(用符号H1表示)相对比。,零假设与备择假设,否定域,在统计检验中,无论是拒绝或者接受原假设,都不可能做到百分之百的正确,都有一定的错误。第一类错误是,零假设H0实际上是正确的,却被否定了。第二类错误则是,H0实际上是错的,却没有被否定。遗憾的是,不管我们如何选择否定域,都不可能完全避免第一类错误和第二类错误,也不可能同时把犯两类错误的危险压缩到最小。对任何一个给定的检验而言,第一类错误的危险越小,第二类错误的概率就越大;反之亦然。一般来讲,不可能具体估计出第二类错误的概率值。第一类错误则不
34、然,犯第一类错误的概率是否定域内各种结果的概率之和。,两类错误及其关系,被我们事先选定的可以犯第一类错误的概率,叫做检验的显著性水平(用表示),它决定了否定域的大小。因此,有人也把第一类错误称之错误。相应地第二类错误被人称为 错误。在原假设成立的条件下,统计检验中所规定的小概率标准一般取为=0.05或=0.01。由所决定的否定域与接受域之间的分界值被称为临界值,如Z。如果抽样分布是连续的,否定域可以建立在想要建立的任何水平上,否定域的大小可以和显著性水平的要求一致起来(后面的正态检验就如此)。如果抽样分布是非连续的,就要用累计概率的方法找出一组构成否定域的结果。,显著性水平,根据否定域位置的不
35、同,可以将假设检验分为双侧检验和单侧检验。,在统计中,必须把否定域分配到抽样分布的两端的检验,被称为双侧检验。,在统计中,可以事先能预测偏差方向,因而可以把否定域集中到抽样分布更合适的一端的检验,被称为单侧检验。,双侧检验和单侧检验,4计算检验统计量 在完成了上述工作之后,接下来就是做一次与理想试验尽量相同的实际抽样(比如实际做一次重复抛掷硬币的试验),并从获取的样本资料算出检验统计量。检验统计量是关于样本的一个综合指标,但与我们后面参数估计中将要讨论的统计量有所不同,它不用作估测,而只用作检验。5判定 假设检验系指拒绝或保留零假设的判断,又称显著性检定。在选择否定域并计算检验统计量之后,我们
36、完成最后一道手续,即根据试验或样本结果决定假设的取与舍。如果结果落在否定域内,我们将在已知犯第一类错误概率的条件下,否定零假设。反之,如果结果落在否定域外,则不否定零假设,与此同时,我们就有了犯第二类错误的危险。,例 若想通过抛掷10次硬币的实验来检验这个硬币无偏的零假设,通过双侧检验0.10显著性水平,请指出否定域。如果单侧检验(p0.4),五、正态分布与标准正态分布 如果说二项分布是离散型随机变量最具典型意义的概率分布,那么连续型随机变量最具典型意义的概率分布就是正态分布了。实践中常见的一类连续型随机变量,多数服从或近似服从正态分布。例如测量误差、智商以及人体的身高体重、运动员的成绩等等,
37、都可以用正态分布进行描述。一般地讲,若影响某一变量的随机因素很多,而每个因素所起的作用不太大且相互独立,则这个变量服从正态分布。更为重要的是,正态分布还是抽样理论和统计推断的基础。,1.正态分布的数学形式,正态分布性质:(1)正态曲线以x=呈钟型对称 均值=中位数=众数(2)在x=处,概率密度最大;当区间离越远,x落在这个区间的概率越小。,(3)正态曲线的外形由值确定。对于固定的值,不同均值的正态曲线的外形完全相同,差别只在于曲线在横轴方向上整体平移了一个位置。,(5)E(X)=D(X)=2,(4)对于固定的值,改变值,值越小,正态曲线越陡峭;值越大,正态曲线越低平。(总之,正态分布曲线的位置
38、是由决定的,而正态分布曲线的“高、矮、胖、瘦”由决定的。),2.标准正态分布 Z分数(标准正态变量)用Z分数表达的标准正态分布,其概率密度为,一般正态分布的表示,标准正态分布的表示,3.正态曲线下的面积,但积分毕竟太麻烦了,更何况许多人对积分运算不熟悉,为此须计算出现成的数值表供使用者查找。由于正态曲线的优良性质,这项工作可以卓有成效地完成:经过X的标准分,可以将任何正态分布N(,2)转换成标准正态分布N(0,1);运用分布函数的定义,并利用正态曲线的对称性,通过下式(分布函数)可以计算编制出正态分布表(见附4)。,采用标准正态变量表达正态分布,使标准差得到了进一步阐明。我们看到,标准差是计算
39、总体单位分布及其标志值变异范围的主要依据,下图说明了这一点。,(1)变量值在【-,+】之间的概率为0.6826。(2)变量值在【-2,+2】之间的概率为0.9546。(3)变量值在【-3,+3】之间的概率为0.9973。,例 设随机变量X服从正态分布N(168,12),试求P(X143)。,总之,决定任意两点间的面积都完全是可能的。比如向均值两侧移1.96个标准差,曲线下方便包含了大约95的面积;如移动2.58个标准差,则面积几乎是99。附录4已编制了关于Z和标准正态曲线所含面积之间关系的精确数值表,即Z从0到+变化,相应区间含的面积从0变至0.5。,解 已知168,12 z 是负值,表示X的
40、取值处于均值左边。由于曲线完全对称,所以使用正态分布表时可以忽略 z 的正负号。查表可知,正态曲线在均值与z2.08之间所含面积是0.4812。由于总面积的一半是0.5,因P(X143)可以由下面计算求得 P(X143)0.5P(0Z2.08)0.50.4812 1.88 这说明,X的取值小于或等于143的概率大约是2。由于即将讨论的正态检验几乎都要涉及概率分布的尾端,所以此例说明的是一个非常普遍的问题。,六、中心极限定理与正态检验,一旦统计的学习进入到推论统计,我们就必须同时与三种不同的分布概念打交道,即总体分布、样本分布、抽样分布。为了不产生混淆,视分布不同,将统计指标的符号加以区别是完全
41、必要的。对那些反映标志值集中趋势和离中趋势的综合指标,尤其对均值和标准差(或方差)。,抽样分布特指样本统计量作为随机变量的概率分布。用数学语言来说,抽样分布是运用数理统计的方法,把具体概率赋予样本的所有可能结果的一种理论分布。,在一个总体中可以产生无数个样本,所以样本统计量(比如均值)必定是随机变量。这样就提出一个问题:如果样本统计量作为随机变量,它的概率分布是什么样呢?,我们知道,概率论中用来阐明大量随机现象平均结果的稳定性的定理,是著名的大数定理。其具体内容是:频率稳定于概率,平均值稳定于期望值。但是,大量随机现象的稳定性不仅表现在平均结果上,同时也表现在分布上,这就是中心极限定理所要阐明
42、的内容。显然,推论统计需要有一座能够架通抽样调查和抽样分布的桥梁。中心极限定理告诉我们:如果从任何一个具有均值和方差2的总体(可以具有任何分布形式)中重复抽取容量为n的随机样本,那么当n变得很大时,样本均值的抽样分布接近正态,并具有均值和方差。,(2)由于抽样分布的标准差要比总体标准差小,并且,所以如右图所示,样本容量越大,抽样分布的峰态愈陡峭,由样本结果来推断总体参数的可靠性也随之提高。,无疑,中心极限定理大大拓展了正态分布的适用面,同时我们得到了以下重要信息:(1)虽然样本的均值可能和总体均值有差别,但我们可期望这些将聚集在的周围。因此均值抽样分布的算术平均数能和总体的均值很好地重合,这就
43、是为什么总体均值和抽样分布的均值用同一个来表示的缘故。,统计检验应用正态分布和二项分布有两点区别:抽样分布在这里是连续的而非离散的,否定域的大小可以和显著性水平的要求精确地一致起来。计算检验统计量不再像在应用二项分布时那样,可以不劳而获了。很显然,为了能使用现成的正态分布表,关键是要从样本资料中计算出在N(0,1)形式下的统计量Z,再根据Z是否落在否定城内而对被检验假设的取舍作出决定。在上一节我们曾引出。Z 的这种形式适用于N(,2)的总体,但并不适用于取正态的抽样分布。正如我们反复强调的那样,统计检验单纯依靠样本自身是得不出结果的,必须首先在一系列假设的基础上求出抽样分布。如果这些假设实际上
44、正确,那么抽样分布将告诉我们得到一个给定的的可能性是多少。在抽样分布中,随机变量的取值是每个,均值是,标准差是。因此 Z 如果作为检验统计量,应该用替换X,用 替换,不动,因而有。,例 一位研究者试图检验某一社会调查所运用的抽样程序,该项调查是由一些缺乏经验的访问员进行的。研究者怀疑属于干部和知识分子的家庭抽得过多。过去的统计资料表明,该街区的家庭收入是7500元,标准差是1500元;此次调查共抽取100个家庭,样本平均收入是7900元。问:该研究人员是否有理由怀疑该样本有偏估?(选用=0.05),现在我们来看中心极限定理在假设检验中的应用。虽然不必每一次都明写出来,但本章前面所述的检验程序的
45、每一步都不能缺少。把从样本调查中得到的检验统计量与假设的总体均值作比较,我们很快发现了正态分布的重要的实用价值。,1已知,对总体均值的检验,实际上是要检验“随机抽样”这个零假设,例 一位研究者试图检验某一社会调查所运用的抽样程序,该项调查是由一些缺乏经验的访问员进行的。研究者怀疑属于干部和知识分子的家庭抽得过多。过去的统计资料表明,该街区的家庭收入是7500元,标准差是1500元;此次调查共抽取100个家庭,样本平均收入是7900元。问:该研究人员是否有理由怀疑该样本有偏估?(选用=0.05),第五节 总体均值和成数的单样本检验,1已知,对总体均值的检验,实际上是要检验“随机抽样”这个零假设,
46、解 根据题意,可做如下假设,并做单侧检验 因=0.05,查表得Z 0.05=1.65,故否定域为根据中心极限定理,检验统计量计算得 检验统计量Z的计算表明,样本均值比总体均值大267个标准差(),超过了显著性水平规定的临界值,调查者应该否定“随机抽样”的零假设。也就是说,由于抽样在程序上不合要求,这项社会调查有必要重新组织。,中心极限定理实际解决了大样本均值的检验问题。假定样本比较大(n50,这在社会调查中一般都能得到满足),样本均值的抽样分布就与总体分布无关,而服从正态分布。当H0成立时,样本均值的观察值比较集中地分布在总体均值周围;当H0不成立时,将对有明显偏离的趋势。因而,我们可以在选定
47、的显著性水平上,通过计算检验统计量Z,对零假设进行检定。注:当未知时,只要样本量很大,就可用S来代替。但对于小样本,Z检验就要用 t 检验来替代了,而且还必须严格限于正态总体。,解 根据题意,可作如下的假设,并做双侧检验 H0:2330元 H1:2330元因0.05,查正态分布表得Z/21.96,故否定域|Z|1.96 计算检验统计量 Z 1.20196 所以,不能认为该单位人均月收入不是2330元,即不能认为该统计报表有误。五、正态分布与标准正态分布,例 某单位统计报表显示,人均月收入为2330元,为了验证该统计报表的正确性,作了共81人的抽样调查,样本人均月收入为2350元,标准差为150
48、元,问能否说明该统计报表显示的人均 收入的数字有误(取显著性水平0.05)。,此乃“总体均值”零假设的检验,七、点估计与区间估计 在推论统计中,相对于假设检验,参数估计要容易理解得多。所谓参数估计,即由样本的指标数值推断总体的相应的指标数值,它包括点估计和区间估计。例如,某高校大一60名男生如果是一个随机产生的样本,那么我们肯定是在做抽样调查,即这个样本是从该校全部大一男生这个总体中通过随机抽样产生的。这样一来,那一组调查来的身高数据以及通过这一组数据计算出来的平均身高等就对总体有很好的代表性。换句话说,我们计算出这60个男生的平均身高是168.5厘米,那么根据大数定理我们可以用这个统计量来估
49、计全校大一男生的平均身高。这体现出了抽样调查的基本意义。,不过,这一参数估计只是点估计。所谓点估计,就是根据样本数据算出一个单一的估计值,用来估计总体的参数值。点估计很方便,但当我们要关心这一估计的可靠性时,问题就出来了。也就是说,我们根据样本均值是不可能肯定该校大一男生的平均身高就是168.5厘米的。这样一来,区间估计的重要性就显现出来了。所谓区间估计,就是计算抽样平均误差,指出估计的可信程度,进而在点估计的基础上,确定总体参数的所在范围或区间。很显然,如果我们在168.5厘米上下加减一个(比如0.5厘米),现在估计全校大一男生的平均身高在168 169厘米之间,那么估计到的把握就会一下子提
50、高许多。,一、有关区间估计的几个概念1.置信区间:区间估计是求所谓置信区间的方法。置信区间就是我们为了增加参数被估计到的信心而在点估计两边设置的估计区间。2.显著性水平:用置信区间来估计的不可靠程度。,区间估计的任务是,在点估计值的两侧设置一个区间,使得总体参数被估计到的概率大大增加。可靠性和精确性(即信度和效度)在区间估计中是相互矛盾的两个方面。,3.置信度(水平):用置信区间估计的可靠性(把握度)4.抽样平均误差 与概率度 Z 抽样平均误差:样本均值抽样分布的标准差。反映在参数周围抽样平均值的平均变异程度。越大,样本均值越分散。概率度:Z在参数估计中被称为概率度,其大小由 决定.,显著性水