《《统计基础知识》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《统计基础知识》PPT课件.ppt(141页珍藏版)》请在三一办公上搜索。
1、第2章 统计基础知识,学习目标 知识目标:系统复习概率论与数理统计基础知识,为计量经济学的学习打下基础。技能目标:通过本章复习,能以有效地方式获得、整理和分析受到随机性影响的数据,并以这些数据为依据,建立有效地数学模型,去揭示所研究问题的统计规律性。能力目标:本章先后阐述了数据特征数以及统计学中的参数估计、假设检验和经济指数,通过学习本章知识,能构建概率统计基本知识框架,理解相关概念,为计量经济学知识的学习做好知识储备。,第2章 统计基础知识,2.1 数据特征数 2.2 总体特征数的点估计与区间估计 2.3 参数估计 2.4 假设检验 2.5 经济指数,2.1 数据特征数,2.1.1 数理统计
2、的基本概念2.1.2 画图2.1.3 算数平均数2.1.4 几何平均数2.1.5 中位数2.1.6 极差,2.1.7 方差2.1.8 标准差2.1.9 偏度2.1.10 峰度2.1.11 协方差2.1.12 相关系数,2.1.1 数理统计的基本概念,总体:在数理统计中,常把被考察对象的某一个(或多个)指标的全体称为总体(或母体)。个体:总体中的每一个单元称为个体。总体容量:总体中所含个体的个数。样本:我们把从总体中抽取的部分样品称为样本。,样本容量:样本中所含个体的个数称为样本容量,一般用n表示。特征数:用于描述一组数据(总体或样本)特征的数值称为特征数。事件:在随机试验中,可能出现也可能不出
3、现,而在大量重复试验中具有某种规律性的事件叫做随机事件,简称事件。,概率:如果在n次试验中(或n个观察值中),事件A出现了m次,假定试验的次数n足够多,那么事件A发生的概率P(A)就等于m/n。,随机变量:在设=为随机试验的样本空间,对于每一个样本点,有一个实数X=X()与之相对应,这样,就得到一个定义在上的单值实函数 X=X(),且对任何一个实数x,|X=X()x,是随机事件,称 X()为随机变量。,累计求和算子:对于T个观测值,x1,x2,xT,累计求和可以简化地表示为,其中()称为累计求和算子,用大写希腊字表示。的下标t=1和上标T表示xt从x1累计加至xT。,累计求和算子的运算规则有以
4、下几个方面:(1)观测值倍数的累加和等于观测值累加和的倍数。,式中,k是常数,xt是观测值。(2)两组观测值相应求和(或差)的累加和等于它们分别求累加和后再相加(或相减)。,(3)T个常数k求和等于该常数k与T的乘积。,式中,k是常数。(4)用双下标表示的TT个观测值的累加和可以用双重累加和符号表示为,(5)两组观测值相应求和的双重累加和等于它们各自双重累加和的和。,(6)两组不同单下标观测值积的双重累计求和等于它们各自累计求和的乘积。,2.1.2 画图,直方图 直方图分频数直方图和频率直方图两类。直方图用横轴表示观测值,并把横轴分成若干个区间(每个区间的宽度称为组距);用纵轴表示落在相应区间
5、内的观测值频数(个数)或频率,并用矩形(长方形)表示组频数或组频率。,画直方图的步骤是先依据原始数据大小排序,然后制作分组数据频数(频率)分布表,然后按频数(频率)分布表画图。,例2-1 20个新生儿体重值(克)数据见表2-1,画20个新生儿体重值的频数(频率)直方图。,表2-1 20个新生儿体重值分组数据频数(频率)分布,首先把这20个新生儿的体重值按从小到大顺序排列。把观测值的取值范围按22502500,2500 2750,27503000,3000 3250,,32503500,35003750,37504000分成7组。,记录这20个观测值分别落在这7个组内频数(个数)。结果分别是1,
6、2,2,8,3,3,1。用总观测值个数20除每个组频数,得组频率值分别是0.05,0.10,0.10,0.40,0.15,0.15,0.05。用上面的结果制成频数(频率)分布表(见表2-2)。,表2-2 20个新生儿体重值分组数据频数(频率)分布,以组距为一条边,以频数(频率)值为另一条边,画矩形(长方形)构成的图就是直方图。,图 2-1 频数分布直方图 图2-2频率分布直方图,注意:(1)频数、频率直方图所展示的数据分布特征是一样的,只不过前者的纵轴表示的是频数、后者纵轴表示的是频率。,(2)当观测值正巧等于组边界值时,注意不要在相邻两组中重复记录频数。(3)同样一组数据由于分组数不同,因此
7、所画频数、频率直方图的特征会不一样。(4)很多专用软件都具有画直方图的功能,非常方便。用EViews软件画直方图的步骤是:打开单数据窗口,点击View/descriptive Statistics&Tests/Histogram and Stats功能。,折线图 折线图:把观测点按序号或时间顺序用直线连接起来的图形。对于截面数据,横轴表示观察值的序号,纵轴表示观测值。对于时间序列数据,横轴表示时间,纵轴表示观测值。时间序列折线图也称时间序列图。,图2-3是1976至1995年中国基本建设投资额变化时间序列图,通过这张图可以清晰地看到在该期间中国基本建设投资额一直处于上升的大趋势中。,图2-3
8、1976至1995年基本建设投资额变化时间序列图,用Eviews软件画折线图的步骤:打开数据窗口,点击View/Graph功能。在随后打开的Graph Options(画图选择)窗口中的Specific(图类设定)选项中选Line&Symbol(折线图),点击确定键。,散点图 散点图分平面(二维)散点图和空间(三维)散点图。散点图:用两个变量的成对观测值画出的观测点图。通过散点图可以分析两个变量之间是否存在某种关系。如果存在关系,那么这种关系是线性的,还是非线性的。,图2-4 1978-2000年GDP与CONS散点图,图2-4给出的是1978-2000年中国GDP(国内生产总值)与CONS(
9、居民消费支出)数据的散点图。通过散点图可以看出GDP高的年份,CONS也更高,GDP与CONS呈线性关系,为建立线性回归模型提供依据。,用Eviews软件画折线图的步骤:打开数据窗口,点击View/Graph功能。在随后打开的Graph Options(画图选择)窗口中的Specific(图类设定)选项中选Scatter(散点图),点击确定键。Quick,Eviews 5,2.1.3 算数平均数,按不分组数据和分组数据两种情况介绍算术平均数。对于样本,算术平均数简称为平均数;对于总体则称为期望或均值。对于不分组数据,均值和算术平均数分别定义如下。,均值:一组数据,如果是总体,用x1,x2,xN
10、表示,容量为N,则均值定义为,(),式中,表示均值,x表示观测值,N表示总体容量。,算术平均数:一组数据,如果是样本,x1,x2,xn,容量为n,则算术平均数 定义为,(),式中,表示算术平均数,表示观测值,n表示样本容量。,算术平均数的性质:(1)观测值的和等于其平均数与观测值个数的乘积。,(),(2)一组观测值与其算术平均数的离差之和等于零,即,(),(3)一组观测值x1,x2,xn与某一定值A的离差平方和 的值以 时为最小。,这些性质对总体均值也适用。,用Eviews软件求算术平均数的操作:打开数据窗口,点击View键,选Descriptive Statistics/histogram
11、and Stats功能。计算结果中的mean就是算术平均数的值。如果输入数据是总体数据,则计算结果是的mean就是均值的值。,2.1.4 几何平均数,几何平均数定义:一组环比数据r1,r2,rk,个数(或称容量)为k,则几何平均数,(),例2-2 中国人口自然增长环比数据见表2-3。按式()计算,即20002004年期间中国人口自然增长年平均环比值是1.006 32,年平均增长率为6.32。,表2-3 中国人口自然增长环比数据,资料来源:中国统计年鉴2005,几何平均数有以下性质:(1)k个环比数据相乘等于k个几何平均数相乘,即,(2)对于环比数据,几何平均数 有代表性。若r0期观测值为x0,
12、则k个 与x0相乘等于k个环比数据 与x0相乘,即,2.1.5 中位数,中位数的定义(不分组数据情形):一组n个观测值,按数值大小排列,x1,x2,xn。处于中央位置的观测值称为中位数用Md表示。,(),中位数的性质:(1)当观测值出现重复的现象不多时,中位数意味着比它小的观测值个数有一半,比它大的观测值个数也有一半。(2)一组数据xi与某一定值A的绝对离差之和 以A=Md 时取值最小(证明略),即 取最小值。(3)用中位数评价一组数据时,不易受离群值影响。,注意:(1)中位数是观测值(在横轴上)的特征数,而不是指观测值的频数,初学者容易混淆。(2)求中位数之前,应先将观测值按大小顺序排列。,
13、用Eviews软件求中位数的操作:打开数据窗口,点击View键,选Descriptive Statistics/histogram and Stats功能。计算结果中的median就是中位数的值。,2.1.6 极差,极差定义:设一组数据为x1,x2,xn,则极差R定义为,(),式()中,xmax,xmin分别表示该组数据中的极大值和极小值。极差也称全距。极差表示一组数据的最大取值范围。,Eviews软件求极差的操作:打开数据组窗口。点击View键,选Descriptive Statistics/histogram and Stats功能。用得到的极大值与极小值相减。,运用极差评价一组数据分散程
14、度的优点是计算简便,缺点是极差没有考虑到一组数据处于中间位置的各观测值得分布情况。见图2-5,两组数据的极差相等,但数据分布并不一样。,图2-5 极差相同的两组数据,2.1.7 方差,方差分总体方差和样本方差。总体方差:对于不分组数据x1,x2,xN,总体方差定义是,(),式中,2表示总体方差,表示总体均值,N表示总体容量。,总体方差定义的是一组数据对其均值的平均离差平方和。方差考察的是一组数据的平均离散程度。,样本方差:对于不分组数据x1,x2,xn,样本方差的定义是,(),式中,s2表示样本方差,表示样本均值,n表示样本容量。,Eviews软件求方差的操作:Eviews计算的是样本方差。打
15、开数据组窗口,点击View,选Covariances功能。处于主对角线上的元素是方差。或者选Descriptive Statistics/histogram and Stats功能。计算结果中Std.Dev(标准差)的平方就是方差的值。当n=N时,则数据x1,x2,xn就是总体数据。根据总体方差、样本方差的定义,知:总体方差为,其中s2是样本方差。,2.1.8 标准差,总体标准差:,(),式中,表示总体标准差,xi表示观测值,表示总体均值,N表示总体容量。,样本标准差定义:,(),式中,s表示样本标准差,xi表示观测值,表示样本均值,n表示样本容量。,标准差考察的也是一组数据的平均离散程度,而
16、且测量单位与观测值的测量单位相同。Eviews软件求样本标准差的操作:打开数据组窗口,点击View,选Descriptive Statistics/histogram and Stats功能,Std.Dev.就是样本标准差的值。,偏度,总体偏度:对于单峰分布数据,总体峰度的定义是,(),式中,S表示总体偏度,xi表示观测值,表示xi的均值,表示xi的总体标准差,N表示总体容量。,偏度S是xi的3阶矩。由公式知,若分布是以对称的,则偏度为0,所以若xi服从正态分布或t分布,则偏度为0;若分布式右偏倚的,如2分布,则偏度S0;若分布式左偏倚的,则偏度S0。,样本偏度:对于单峰分布数据,样本偏度的定
17、义是,(),式中,表示样本偏度,xi表示观测值,表示样本平均数,表示样本标准差的估计值,n表示样本容量。,样本偏度 是对总体偏度S的有偏估计。偏度描述观测值(数据)分布的不对称程度。,Eviews软件求样本偏度的操作:打开数据组窗口,点击View,选Descriptive Statistics/histogram and Stats功能,Skewness就是偏度值。,2.1.10 峰度,当一组数据的分布为对称态时,峰值的高低、尾部的薄厚也是一个值得关注的特征。总体峰度:对于单峰分布数据,总体峰度定义是,(),式中,K表示总体偏度,xi 表示观测值,表示xi的均值,表示xi的总体标准差,N表示总
18、体容量。,峰度是xi的4阶矩。峰度K用来描述数据分布在尾部的厚薄程度。可以证明,峰度值为3。如果一个分布的两侧尾部比正态分布的两侧尾部“厚”,则该分布的峰度值K3,反之则K3。,样本峰度:对于单峰分布数据,样本峰度的定义是,(),式中,表示样本峰度也称样本峭度,xi表示观测值,表示样本平均数,表示样本标准差的估计值,n表示样本容量。,样本峰度是总体峰度的有偏估计。,Eviews软件求样本峰度的操作:打开数据组窗口,点击View,选Descriptive Statistics/histogram and Stats功能,Kurtosis对应的就是峰度值。,2.1.11 协方差,总体协方差:设有一
19、组成对数据,xi,yi,i=1,2,N,则总体协方差定义是,(),式中,Cov表示总体协方差,xi,yi表示观测值,x,y分别表示xi,yi的均值,N表示总体容量。,样本协方差:设有一组成对数据,xi,yi,i=1,2,n,则样本协方差定义是,(),式中,表示样本协方差,是对总体协方差的估计。xi,yi 表示观测值,分别表示xi,yi的样本平均数,n表示总体容量。,Eviews软件求样本协方差的操作:打开数据组窗口,点击View,选Covariances功能。非主对角线上的数值是样本相应两个变量的协方差。,2.1.12 相关系数,相关分析是研究两组或多组数据间相互关系的最基本方法。从相关分析中
20、引出的相关系数是一个重要的特征数。,(1)相关的定义与分类 相关:指两个或两个以上变量(两组或两组以上数据)间相关关系的程度或强度。相关按强度分为4类:完全相关;高度相关(强相关);弱相关;零相关。,完全相关意味着两个变量存在函数关系。如Y=2X,Y与X为完全相关关系(如图2-6)。高度相关意味着两个变量(两组数据)间存在近似线性函数关系。如我国家庭收入与支出的关系,相关性非常强(如图2-7)。,图 2-6 完全相关 图2-7 高度相关,弱相关意味着两个变量(两组数据)间有关系但不明显。如近年来我国耕地面积与农作物产量之间的关系属于弱相关关系(见图2-8)。零相关意味着两个变量(两组数据)间不
21、存在任何关系。如一个班级中学生的学习成绩与年龄的关系属于零相关关系(见图2-9)。,图 2-8 弱相关 图2-9 零相关,相关按变量个数可以分为简单相关和复相关。简单相关是指两个变量间的相关。两个变量间的相关又可以分为线性相关(见图2-7)和非线性相关(见图2-10);按符号可分为正相关、负相关、零相关,分别见图2-7、图2-11和图2-9。,图 2-10 非线性相关 图2-11 负相关,复相关(或称多重相关、偏相关)是指三个或三个以上变量间的相关。,(2)简单线性相关度量 相关系数是反映两个变量间相互的直线关系,并可以判断两个变量的密切程度。用简单线性相关系数,简称相关系数,可以衡量两个变量
22、间的线性相关程度。,总体简单线性相关系数用表示,样本相关系数用r表示。总体相关系数的统计定义是,(),式中,N是总体容量,xi,yi是变量的观测值,x,y 是变量的均值。,样本相关系数r的定义是,(),式中,分别表示xi,yi的均值,n表示总体容量。样本相关系数r是对总体相关系数的估计。,(3)相关系数性质;,即表示两个变量严格服从线性相关;,表示两个变量完全不存在线性关系。,(4)线性相关系数的局限性 线性相关系数只适用于考察变量间的线性相关关系。变量不相关与变量相互独立在概念上是不同的。,相关系数的计算是一个数学过程。所以在计算相关系数的同时,还要强调对实际问题的分析与理解。,一般来说,两
23、个变量相关时,可能属于以下情形之一:a)两个变量属于单向因果关系。b)两个变量属于双向因果关系。c)隐含因素同时影响两个变量变化。d)两个变量属于虚假相关。,Eviews软件求相关系数的操作:打开数据窗口。点击View,选Correlations功能。,2.2 总体特征数的点估计与区间估计,2.2.1 抽样的基本概念 几何统计量的抽样分布,2.2.1 抽样的基本概念,为研究某个经济问题,需要收集数据。收集数据的方式有两种,一种是做全面调查,一种是做抽样调查。全面调查就是把研究对象的全部逐一进行调查而获得全部信息,全面调查也称普查。抽样调查就是调查研究对象的一部分,通常是一小部分,而通过这一小部
24、分推断研究对象的总体信息。,取得样本的过程叫做统计抽样,简称抽样。样本存在两重性:(1)样本特征在某种程度是反映了总体特征;(2)样本又不能完全精确地反映总体特征。要想让样本最大限度地反映总体特征,就必须从两个方面努力:一是抽样方法,即解决怎样抽样(包括方式和容量)才能更合理地反映出总体特征的问题;二是统计推断,即利用样本如何对总体的特征数进行科学的推断。,2.2.2 几何统计量的抽样分布,统计量:样本X1,X2,Xn的函数f(X1,X2,Xn)称为统计量。统计量的分布称作抽样分布。,样本平均数 的期望与方差分别是:,其中、2是总体均值和方差。,若样本用X1,X2,.,Xn表示,则样本平均数
25、与样本方差S2 的计算公式是:,因为样本中的每个个体Xi也是总体中的个体,所以必有XiN(,2),i=1,2,.,n。根据正态分布性质,有结论,(),把 标准化,,已知总体X服从正态分布,均值为,方差为2。,(1)统计量 的抽样分布,已知总体X不服从正态分布,中心极限定理:如果一个随机变量的均值是E(Xi),方差是Var(Xi)=2,则随着样本容量n的增大,样本平均数 的抽样分布渐进服从均值为方差为2/n的正态分布。,在总体X不服从正态分布的条件下,实际中当样本容量 时,依据中心极限定理可以认为,样本平均数 近似服从正态分布。把 标准化为,(),Z渐进服从N(0,1)分布。,(2)统计量 的抽
26、样分布,定理2-1 若U1,U2,.,Un是相互独立都是服从N(0,1)分布的随机变量,则,(),服从自由度为n的2分布。,推论2-1 设X1,X2,.,Xn是取自正态分布总体 的样本。则,(),推论2-2 设X1,X2,.,Xn 是取自正态分布总体 的样本。则,(),(3)统计量 的抽样分布,定理2-2 设两个随机变量X与Y相互独立,且,(),,则,推论2-3 设X1,X2,.,Xn是取自正态分布总体 的样本。则,(),服从自由度为n的t分布。,推论2-4 设X1,X2,.,Xn是取自正态分布总体 的样本。则,(),服从自由度为n-1的t分布。,推论2-5 设 是分别取自正态分布总体 的样本
27、且相互独立,则,(),服从自由度为n1+n2-2的t分布。其中S12,S22分别是两个样本样本方差。n1、n2分别表示总体X和Y的样本容量。,(4)统计量F的抽样分布定理2-3 设两个随机变量X和Y相互独立,且,则有,(),其中F(n1,n2)表示第一自由度为n1,第二自由度为n2的F分布。,推论2-5 设,且X与Y独立,其样本分别是 分别是这两个样本的均值,S12和S22分别是这两个样本的样本方差,则统计量,(),服从第1自由度为n1-1,第2自由度为n2-1的F分布。,推论2-6 设,且X与Y独立,其样本分别是,则统计量,(),服从第1自由度为n1,第2自由度为n2的F分布。,2.3 参数
28、估计,参数的点估计 区间估计,2.3.1 参数的点估计,设总体X的分布类型 已知,是待估参数,从该总体中抽取样本X1,X2,.,Xn,由样本提供的信息对未知参数进行估计,一般是建立适当的统计量,当样本观测值为x1,x2,.,xn时,以 作为的估计值,这种用统计量来估计总体的未知参数的方法称为参数的点估计法。,构造估计量的方法很多:矩估计法,极大似然法,最小二乘法。这三种方法是建立在不同估计原则下的,对于同一个样本,利用这三种方法进行估计,可能得到不同的结果,然而,由于各种原则都具备一定的合理性,所以这三种方法都经常应用。,矩估计法 基本思想:以样本矩作为相应的总体矩的估计量,以样本矩的函数作为
29、相应的总体矩函数的估计量。,设总体的分布函数中含有k个未知参数,假定总体的k阶矩EXk存在,则总体的阶l矩 是 的函数。用样本的l阶矩作为总体的l阶矩的估计,则得到k个方程,解此方程组得到的 的解 分别称为 的矩估计量,相应的观察值 称为 的矩估计值。,极大似然估计法 基本思想:若一试验有n个可能结果A1,A2,.,An,现做一试验,若事件Ai发生了,则认为事件Ai在这n个可能结果中出现的概率最大。极大似然估计就是在一次抽样中,若得到观测值x1,.,xn则选取 作为的估计值。使得当 时,样本出现的概率最大。,(1)当X是离散型随机变量时 设,则似然函数为解方程,即可得参数的极大似然函数估计值
30、相应的极大似然估计量为,极大似然估计法的具体解法,(2)当X是连续型随机变量时 设概率密度为,则似然函数解方程,即可得参数的极大似然函数估计值 相应的极大似然估计量为,(3)多个参数情况时当总体含有k个参数时,似然函数为多元函数,取得似然函数达到最大值的点 分别作为未知参数 的估计值。,最小二乘法:已知一组样本观测值(xi,yi)(i=1,2,.,n),要求样本回归函数尽可能好的拟合这组值,即样本回归线上的点 与真实观测点yi的“总体误差”尽可能的小,或者说被解释变量的估计值与观测值应该在总体上最为接近。最小二乘法给出的判断标准是:二者之差的平方和 最小,即在给定样本观察值之下,选择出未知参数
31、,使得yi与 之差的平方和最小。,对于总体参数,通常有若干估计方法。比如对总体均值,采用以下三种估计方法。(1)只从总体中抽取一个样本值,即用x1估计。(2)在样本x1,x2,.,xn,(n2)中取最大值和最小值的平均值,估计。(3)用容量大于2的样本的平均数 估计。,评价估计量优劣的标准,下面介绍5个评价标准:无偏性,有效性,一致性,渐进无偏性,渐进有效性。这5个评价标准在推断统计和计量经济分析中经常用到。,(1)无偏性:对于总体参数,若有估计量 满足,(),则称 为的无偏估计量。具有无偏性。无偏性的意义是:虽然在一次抽样中,但当进行一系列的抽样时,的值在周围摆动,,且,即无系统偏差(见图2
32、-12)。当不满足无偏性,会有什么后果呢?若,将会产生正偏差(见图2-13),若,将会产生负偏差(见图2-14)。,图2-12 无偏估计 图2-13 有偏估计 图2-14 有偏估计,(2)有效性 若有,则相对 来说,是的有效估计量。是比 更有效的估计量(见图2-15)。,图2-15 估计量的有效性示意图,在众多无偏估计量中,称具有最小方差的估计量为最佳无偏估计量。,(3)一致性 当给定任意小正值,有,(),当,估计量 依概率收敛于总体均值。则称 为的一致估计量,具有一致性。,可以证明样本平均数,样本方差S2分别是总体均值和总体方差2的一致估计量,但样本中位数Md不是总体均值的一致估计量。由定义
33、可知,一致性只在样本容量n很大时才起作用。只具有一致性的估计量在小样本条件下,估计效果不一定好。,(4)渐进无偏性 用T1T2Tn表示连续递增样本容量,设在每个样本容量Ti下重复抽样,则每个Xi都应有自己的均值EXi与方差VarXi。利用递增容量的样本可以求得随机变量序列。当n趋于无穷时,这些分布收敛于某一分布。则称该分布为渐进分布或极限分布。,2.3.2 参数的区间估计,2.4 假设检验,假设检验基本思想2.4.2 两类错误2.4.3 假设检验的具体步骤,置信区间估计与假设检验是统计推断的两种不同表述。置信区间估计是给定置信度通过样本估计总体特征数所在的区间范围;假设检验则是先假定总体特征数
34、的位置,然后通过样本检验这种假设(命题)是否成立。,2.4.1 假设检验基本思想,假设检验是依据小概率事件在一次试验中是几乎不可能发生的,进一步讲,要检验某假设H0,先假设H0正确,在此假设下构造某一事件A,它在H0为正确的条件下的概率很小,例如P(A|H0)=(=0.05),现在进行一次实验,如果事件A发生了,也就是说小概率事件在一次试验中居然发生了,这与小概率事件原理相矛盾,这表明“假定H0为正确”是错误的,因而拒绝H0;反之,如果小概率事件A没有出现,我们就没有理由拒绝H0。,2.4.2 两类错误,由于进行统计检验依据的是一组样本,因而假设检验的结果依赖于所得到样本的代表性,得出的结论是
35、相对的或有条件的。假设检验出现的错误的可能性大小具有统计规律性。,从主观上讲,我们总希望经过假设检验,能做出正确的判断,即若H0确实为真,则接受H0;若H0确实为假,则拒绝H0。,但在客观上,我们是根据样本所确定的统计量之值来做出推断的,由于样本的随机性,在推断时就不免要犯错误,因为当H0正确时,小概率事件也有可能发生而非绝对不发生,这时我们却错误的否定了H0,这种“弃真”的错误,称之为第一类错误;由上所述犯第一类错误的概率为P(拒绝H0|H0为真)=。还有可能犯“纳伪”的错误,称之为第二类错误。就是当H0不真时,我们却接受了H0,犯第二类错误的概率为P(接受H0|H0不真)=。,在应用工作中
36、,我们需要尽可能地降低发生错误的概率,或者尽可能降低做出错误选择的代价,要同时降低犯两类错误的概率,最有效的方法是改善样本资料的信息含量,这包括在可能的条件下增大样本的容量、在收集资料时注意保证解释变量有足够大的变异、正确设定模型以提高其解释能力(即降低2)等。,2.4.3 假设检验的具体步骤,当检验统计量W取某区域C中的值时,我们拒绝原假设H0,则称区域C为H0关于统计量W的拒绝域。拒绝域的边界点称为临界点(或临界值)。当检验统计量W取某区域C中的值时,我们接受原假设H0,则称区域C为关于W的接受域。,假设检验的主要步骤:(1)提出假设:提出原假设H0与备择假设H1;(2)构造统计量:选择检
37、验统计量并确定其分布;(3)确定拒绝域:在给定的显著性水平下,确定H0关于统计量的拒绝域;(4)计算:算出样本点对应的检验统计量的值;(5)判断:若统计量的值落在拒绝域内,则拒绝H0,否则接受H0。我们将单正态总体参数检验问题汇总如表2-5。,表2-5单正态总体参数检验表,2.5 经济指数,指数的定义和分类2.5.2 指数的计算 指数基期的选择算数平均数2.5.4 国内外主要指数介绍,2.5.1 指数的定义和分类,(1)指数定义 指数:测量一个变量对一个特定变量的相对比率。令有观察序列Y1,Y2,.,YT若选Yj为特定变量(基期变量),则第i期指数(Ii)的计算公式是,(),式()是用百分数形
38、式表示的指数值。,(2)指数作用 指数的作用主要体现在两方面。反映研究对象的变化方向和变化程度。因为指数是无量纲的百分数,所以以式(2.5.1)定义的指数为例,通过大于或小于100可知变化方向;通过比100大多少、小多少可知变化程度。连续编制的指数序列可以放映事物发展变化的趋势,这特别适用于有所联系而性质又不相同的数列之间的变动特征比较,解决了这种不可比的困难。,(3)指数分类 按研究对象中所包含品种的个数分类,指数可分为单一指数和综合指数。单一指数只考查一种商品的一个特征;而综合指数测量多种商品的综合特征。综合指数又分为简单综合指数和加权综合指数。按基准点分类,指数可分为定基指数和环比指数。
39、定基指数是以固定的时期为基期计算的指数;环比指数则是逐次以上一时期为基期计算的指数。若按性质划分,指数可以分为价格指数和数量指数。,2.5.2 指数的计算,(1)单一指数的计算 单一指数:建立在一个时间序列或者一种商品基础之上的指数称做单一指数。基期应选择变量变化比较稳定的时期,若没有合适的基期,可选取若干年观测值的平均数为基期值。基期的指数值永远是100(用百分数表示的值数),或者1(用比值表示的值数)。,(2)简单综合指数的计算 简单综合指数:由若干时间序列或若干种商品的直接加总计算出的指数称为简单综合指数。简单综合指数分为简单综合价格指数和简单综合数量指数。简单综合价格指数的计算公式是,
40、(),式中,Pi0表示基期商品价格,Pit表示报告期(t期)商品价格,m表示商品的种类数。,简单综合数量指数计算公式是,(),式中,Qi0表示基期商品消费数量,Qit表示报告期(t期)商品消费数量,m表示商品的种类数。,(3)加权综合指数的计算 加权综合指数:建立在多个时间序列或多种商品的加权和随时间相对变动的指数称为加权综合指数。加权综合指数分为加权综合价格指数和加权综合数量指数两类。以加权综合价格指数为例,其计算公式是,(),式中,Pi0表示基期商品价格,Pit表示报告期(t期)商品价格,Qi表示第i种商品在某一时期的销售量,m表示商品的种类数。,同理,加权综合数量指数的计算公式是,(),
41、式中,Qi0表示基期商品数量,Qit表示报告期(t期)商品数量,Qi表示第i种商品在某一时期的销价格,m表示商品的种类数。,以式()为例,如果把数量权数Qi固定在基期或者报告期(t期),那么就会得到两种重要的加权综合指数,拉氏指数(Laspeyres index)和派氏(Paasche index)。拉氏指数可分为拉氏价格指数和拉氏数量指数;派氏指数可分为派氏价格指数和派氏数量指数。,拉氏、派氏价格指数的计算 拉氏价格指数是以基期销售量(或产值)为权数求加权数综合价格指数。计算公式如下:,(),式中,Pi0表示基期商品价格,Pit表示报告期(t期)商品价格,Qi0表示基期的销售量,m表示商品的
42、种类数。,派氏价格指数是以报告期销售量(或产值)为权数求加权综合价格指数。计算价格如下:,(),式中,Pi0表示基期商品价格,Pit表示报告期(t期)商品价格,Qit表示报告期的销售量,m表示商品的种类数。,拉氏、派氏数量指数的计算 拉氏数量指数是以基期价格为权数求综合数量指数。,(),式中,Qi0表示基期商品数量,Qit表示报告期(t期)商品数量,Pi0表示第i种商品在基期的销价格,m表示商品的种类数。,派氏数量指数是以报告期价格为权数求综合数量指数。,(),式中,Qi0表示基期商品数量,Qit表示报告期(t期)商品数量,Pit表示第i种商品在报告期的销价格,m表示商品的种类数。,(4)加权
43、平均价格指数的计算 加权平均指数包括加权平均价格指数和加权平均数量指数。加权平均价格指数的计算 若单种商品的价格指数为Pit/Pi0,则m种商品的价格加权平均指数为,(),式中,Pi0表示基期商品价格,Pit表示报告期(t期)商品价格,wi为权数,m表示商品的种类数。,加权平均数量指数的计算 若单种商品的数量指数为Qit/Qi0,则m种商品的数量加权平均指数为,,(),式中,Qi0表示基期商品销售量,Qit表示报告期(t期)商品销售量,wi为权数,m表示商品的种类数。,2.5.3 指数基期的选择算数平均数,在指数序列所涉及的时间范围内,任何一个时点都可以选作基期,基期的选择应考虑以下因素:基期
44、应选择比较稳定的时期。从而使指数序列更具有可比性。有时需要用两年或更多的年作为基期。这时作为基期的这些年的指数的平均值应为100。基期不宜离报告期太远。,国内外主要指数介绍,(1)商品零售价格指数 我国的商品零售价格指数(Retail Price Index)是指反映一定时期内商品零售价格变动趋势和变动程度的相对数。零售物价的调整变动直接影响到城乡居民的生活支出和国家的财政收入,影响居民购买力和市场供需平衡,影响消费与积累的比例。因此,该指数可以从一个侧面对上述经济活动进行观察和分析。,商品零售价格指数为食品、饮料烟酒、服装鞋帽、纺织品、中西药品、化妆品、书报杂志、文化体育用品、日用品、家用电
45、器、首饰、燃料、建筑装潢材料、机电产品14个大类,500种商品的加权算术平均价格指数。,(),权数直接影响指数的可靠性,因此每年要根据军民家庭收支调查的资料调整一次权数。,(2)居民消费价格指数 居民消费价格指数(Consumer Price Index),亦称消费者物价指数,英文缩写为CPI,是反映居民生活有关的产品及劳务价格变动趋势和程度的相对数。通常用居民消费指数作为观察通货膨胀水平的重要指标。一般说当CPI的增幅大于3%时,称之为通货膨胀;而当CPI的增幅大于5%时,称之为严重的通货膨胀。,消费者物价指数首先由美国劳工部编制。公式为,(),上述公式是变形的派氏价格指数。其特点是数量权数
46、的基期与价格基期不同。数量权数的基期是t期(Qt),价格的基期是0期(P0)。,(3)香港恒生指数 香港恒生指数(Hang Seng Idenx)是香港股票市场上历史最悠久、影响最大的股票价格指数,由香港恒生银行于1969年11月24日开始发布。恒生股票价格指数以从香港500多家上市公司中挑选出来的33家有代表性且经济实力雄厚的大公司股票为成分股,其中包括4种金融业股票、6种公用事业股票、9种房地产业股票和14种其他工商业(包括航空和酒店)股票进行计算。,(),式中,Pit表示当日样本股票的收盘价,Pi0表示基期样本股票的收盘价,Qi0表示基期样本股票的发行股数。,恒生指数的计算公式是,(4)
47、上证综指 上证综指的全称是上海证券交易所综合股价指数,由上海证券交易所编制。它以上海证券交易所挂牌的全部股票为计算范围,以基期发行量为权数的加权综合股价指数。该指数从1990年12月19日起计算,基期为100点。,上证综合指数的计算公式是,(),式中,Pit表示当日样本股票的收盘价,Pi0表示基期样本股票的收盘价,Qi0表示基期样本股票的发行股数。,(5)深圳成指 深圳成指的全称是深圳证券交易所成分股价指数,是深圳证券交易所的主要股指。它是按一定标准选出40家有代表性的上市公司作为成分股,用成分股的可流通股的可流通数作为权数,采用综合法进行编制而成的股价指标。该指数从1995年5月1日起计算,
48、基期为1000点。,(),式中,Pit表示当日样本股票的收盘价,Pi0表示基期样本股票的收盘价,Qi0表示基期样本股票的发行股数。,深圳成指的计算公式是,(6)道琼斯指数 道琼斯指数,即道琼斯股票价格平均数,是世界上最有影响、使用范围最广的股票价格指数。它以在纽约证券交易所挂牌上市的一部分有代表性的公司股票作为编制对象,由4种股价平均指数构成,它们是:以30家著名的工业公司股票为编制对象的道琼斯工业股价平均指数;以20家著名的交通运输业公司股票为编制对象的道琼斯运输业股价平均指数;以6家著名的公用事业公司股票为编制对象的道琼斯公用事业股价平均指数;,以上述三种股价平均数所涉及的56家公司股票为编制对象的道琼斯指数股价综合平均指数。在4种道琼斯股价指数中,以道琼斯工业股价平均指数(Dow Jones Industrial Average)最为著名。它被大众传媒广泛地报道,并作为道琼斯指数的代表加以引用。,道琼斯指数是算术平均股价指数。其计算公式是:股票价格平均数=入选股票的价格之和/入选股票的数量,即,(),该指数目的在于反映美国股票市场的总体走势,涵盖金融、科技、娱乐、零售等多个行业。,