《计量经济学第二讲-计量经济分析的统计学基础.ppt》由会员分享,可在线阅读,更多相关《计量经济学第二讲-计量经济分析的统计学基础.ppt(109页珍藏版)》请在三一办公上搜索。
1、Friday,7 March 2008,CUFE,傅 强经济学博士经济社会仿真实验室主任电话:8610-62288971二八年三月七日,第二讲计量经济分析的统计学基础,计量经济学,Friday,7 March 2008,CUFE,计量经济分析的统计学基础,本章是对计量经济学所用到的统计学概念和方法作一概括性的回顾,这些概念和方法对理解本书后面的内容是至关重要的。,Friday,7 March 2008,CUFE,概率的概念:一枚硬币有正、反两面,在抛之前出现正面还是反面的结果是无法确知的,但却可以依据硬币的物理特征为可能出现的结果指定一个概率。如一枚完好的硬币,它的正面和反面都有同等机会出现,
2、从而出现正面或反面的概率是2种情况中的一种,所以是1/2。,第一节、概率和概率分布,数学概率和统计概率:数学概率:不靠试验而从理论上求得的概率。统计概率:从多次试验得到的概率。统计概率与数学概率相近的是大数法则。,Friday,7 March 2008,CUFE,一、概率的概念,随机试验和事件:随机试验是导致至少两种可能结果的过程,并且在此过程中将出现何种结果是不确定的。样本空间或总体:一个随机试验的所有可能结果的集合。样本点:样本空间的每个成员。事件:样本空间的子集。互不相容或互斥事件:两个事件中一个事件的发生排除另一个事件的发生。完备事件:若干个事件包罗了一个试验的所有可能的结果。,Fri
3、day,7 March 2008,CUFE,一、概率的概念,总体和样本:给定的一组观测值通常被视为是从某个更大的总体中抽取的一个样本。总体可以是有限的,也可以是无限的。有限总体可能很大,也可能很小。为计算方便,大总体有时可假定为无限总体。样本是总体的一部分。之所以需要抽取样本,是因为在有些情况下,当分析某个变量的特征时,涉及的总体容量太大,以至于不可能对整个总体进行检查;或者这样做耗费太大,因而只能使用观测样本。样本是总体的代表。假定样本能够反映要研究的总体特征,因此可以依据样本来推断总体。例如,为研究所有北京人的平均收入,很显然需要全体北京人(总体)的数据。可是,要收集每个人的收入是一件很困
4、难的事。在实践中,可以抽取一个由5000人组成的随即样本,然后计算这5000人的平均收入,作为北京人的真实平均收入的估计值。,Friday,7 March 2008,CUFE,一、概率的概念,Friday,7 March 2008,CUFE,一、概率的概念,概率的性质:0P(A)1对所有A成立。P(A)=0 表明事件A是不可能事件;P(A)=1 表明事件A是必然事件。一般情况下,概率值在01之间。,若A,B,C,是完备事件集,则P(A+B+C+)=1。其中:A+B+C的含义是A或B或C,等等。,若A,B,C,是互不相容事件,则P(A+B+C+)=P(A)+P(B)+P(C)+。,Friday,
5、7 March 2008,CUFE,二、随机变量与概率分布,随机变量:可以在一个特定的数集中按一定概率取值的变量。“A random variable is a variable that takes on alternative values,each with a probability less than or equal to 1.”Pindyck,R.S.et.Al.(1991,p.19),离散随机变量:只能取某些离散值。“A discrete random variable may take on only a specific number of real values”,Pin
6、dyck,R.S.et.Al.(1991,p.19)如:掷骰子所得点数(1,2,3,4,5,6)。,随机变量通常用大写字母X,Y,Z来表示,它们所取的值用小写字母x,y,z等表示。,连续随机变量:可以取一个有限(或无限)区间所有值。“A continuous random variable may take on any value on the real number line”,Pindyck,R.S.et.Al.(1991,p.19)如:零件的直径。,Friday,7 March 2008,CUFE,二、随机变量与概率分布,随机变量的概率分布和概率密度函数:一个随机变量的概率分布:是该随
7、机变量取给定值或属于一给定值集的概率所确定的函数。概率分布反映的是随机变量所有可能取值的概率的分配方式。一旦与所有可能结果相联系的概率被确定,则概率分布即完全被确定。“We can describe a random variable by examining the process which generates its values.This process,called a probability distribution,lists all possible outcomes and the probability that each will occur.”Pindyck,R.S.e
8、t.Al.(1991,p.19),Friday,7 March 2008,CUFE,二、随机变量与概率分布,Friday,7 March 2008,CUFE,二、随机变量与概率分布,连续随机变量的概率密度函数(PDF,probability density function):设X为连续随机变量,且满足下列条件:f(x)0 f(x)dx=1 f(x)dx=P(axb)则f(x)称为X的概率密度函数,其中P(axb)表示X位于区间(a,b之中的概率。,-,b,a,连续随机变量与离散随机变量不同,X取任何指定值的概率被认为是零,只有取某一范围(或区间)的值的概率值才有意义。,Friday,7 Ma
9、rch 2008,CUFE,三、概率分布的特征,概率分布常用两个概括性测度期望值(集中趋势测度)和方差(离散测度)来描述。,期望值(expected value):离散随机变量X的期望值,记作E(X),也叫做它的均值,记作x,定义为:xE(X)=p1X1+p2X2+pNXN=piXi 或xE(X)=xf(x)式中,pi=1,f(x)为X的概率分布函数。由上述定义不难看出,随机变量的期望值是其所有可能的值的加权平均,权数是这些值的概率。连续随机变量的期望值定义为:xE(X)=xf(x)dx 它与离散随机变量期望值的唯一区别是用积分号代替求和号。,N,i=1,x,-,Friday,7 March
10、2008,CUFE,三、概率分布的特征,期望的性质(properties of the expectations operator):若b为常数,则E(b)b;设X为随机变量,a和b为常数,则 E(aX+b)=aE(X)+b;设X为随机变量,a为常数,则E(aX)2=a2E(X2);若X和Y为独立随机变量,则 E(XY)=E(X)E(Y)。,Friday,7 March 2008,CUFE,三、概率分布的特征,方差(variance):一随机变量的方差通常用来度量该随机变量诸值对其均值的离散趋势。(The variance of a random variable provides a mea
11、sure of the spread,or dispersion,around the mean.)设X为一随机变量,且E(X)=,则X的方差,记作2,定义为:Var(X)=2=E(X-)2。2的正平方根称为X的标准差。方差和标准差都是用来描述随机变量诸值的分散程度。方差可用下式计算:若X为离散随机变量,则:Var(X)2=piXi-E(X)2;或Var(X)2=(X-)2f(x)。若X为连续随机变量,则:Var(X)2=(X-)2f(x)dx。,x,-,N,i=1,Friday,7 March 2008,CUFE,三、概率分布的特征,方差的性质(properties of the varia
12、nce):Var(X)E(X-)2=E(X2)-2;常数的方差为0;若a和b为常数,则Var(aX+b)=a2Var(X);若X和Y为独立随机变量,则 Var(X+Y)=Var(X)+Var(Y)。,Friday,7 March 2008,CUFE,三、概率分布的特征,联合概率是由对应于两随机变量发生的所有可能结果的一组概率来描述的。所有这些概率均为非负,且加总为1。,Friday,7 March 2008,CUFE,三、概率分布的特征,若X和Y为独立随机变量,则Cov(X,Y)=0。注:两随机变量的协方差可能为0,但彼此并不独立。,所有观测值假定拥有同一概率(1/5)。在这种情况下,E(X)
13、=0,E(Y)=2,且Cov(X,Y)=Xi(Yi-2)=0。但显然X和Y并不独立。实际上,Y=X2。,5,i=1,Friday,7 March 2008,CUFE,三、概率分布的特征,相关系数(correlation coefficient):两随机变量X和Y的总体相关系数xy定义为:xy,相关系数与变量单位无关,是度量两变量之间线性关系强度的测度,其值在1和1之间,即11。,Cov(X,Y)Cov(X,Y),Var(X)Var(Y)xy,_,0 xy1,-1xy0,xy=0,Friday,7 March 2008,CUFE,三、概率分布的特征,相关变量的方差设X和Y是两随机变量,则:Var
14、(X+Y)=Var(X)+Var(Y)+2Cov(X,Y);Var(X-Y)=Var(X)+Var(Y)-2Cov(X,Y)。,证明:,Friday,7 March 2008,CUFE,四、样本均值、方差、协方差和相关系数,所谓无偏估计量是指待估计参数的估计量的期望值等于参数本身。,样本方差(sample variance)和标准差(sample standard deviation)随机变量X的方差及其标准差的一个无偏估计量定义为样本方差:样本标准差:,Friday,7 March 2008,CUFE,四、样本均值、方差、协方差和相关系数,Pindyck,R.S.and D.L.Rubinf
15、eld(1998),Econometric Models and Economic Forecasts 4th ed.,pp.24-5:“Why do we divide by N-1(rather than N)to get an unbiased estimate of the sample variance?an intuitive answer can be based on the concept of degrees of freedom.Our sample is known to contain N data points.However,in computing the sa
16、mple variance a necessary first step was the computation of the sample mean.This places one constraint upon the N data points,that the N observations sum to N times the computed mean.This leaves N-1 unconstrained observations with which to estimate the sample variance.”,Friday,7 March 2008,CUFE,四、样本
17、均值、方差、协方差和相关系数,样本协方差(sample covariance)测量X和Y的观测值共变(一起变动)程度的一个测度,定义为:,样本相关系数(sample correlation coefficient)更为常用,定义为:式中:Sxy为X和Y的协方差;Sx和Sy分别为X和Y的标准差。,Friday,7 March 2008,CUFE,五、几个重要的理论概率分布,二项分布(Binomial Distribution)普哇松分布(Poisson Distribution)正态分布(Normal Distribution)2分布(2 Distribution)t分布或学生分布(t Dist
18、ribution or Student Distribution)F分布(F Distribution),Friday,7 March 2008,CUFE,五、几个重要的理论概率分布,二项分布(Binomial Distribution)若离散随机变量X取值0,1,n,并存在数p(0p1),使:P(X=k)=Cnkpk(1-p)n-k;k=0,1,n 则称X服从二项分布,此时有:E(X)=np;Var(X)=np(1-p)。,Friday,7 March 2008,CUFE,二项分布(Binomial Distribution),举例:柏努利试验:抛硬币n次,每次试验具有如下特征。每次试验出现
19、的结果是不确定的;每次试验有互相排斥的两种可能结果(H和T);每次试验与其他任何试验无关;正反两面出现的概率,P(H)=和P(T)=1-,在历次试验中保持不变。,Daniel Bernoulli(1700-1782,瑞士物理学家,数学家),X=出现正面的次数,p(X=2)=32(1-)。现考虑抛n次硬币出现k次正面的情形:HHH TTT 有概率(1-)(1-)(1-)=k(1-)n-k。,K,n-K,K,n-K,列出所有可能的次序(即组合)比如:当n=3,k=2时,,Friday,7 March 2008,CUFE,五、几个重要的理论概率分布,普哇松分布(Poisson Distributio
20、n)若离散随机变量X取值0,1,2,,并存在数(0),使:P(X=k)=e-;k=0,1,2,则称X服从普哇松分布,此时有:E(X)=;Var(X)=。,k,k!,Simon-Denis Poisson(1781-1840),法国数学家,Friday,7 March 2008,CUFE,普哇松分布(Poisson Distribution),举例:大连港区1979年载货500吨以上船只共到达1271艘(不包括定期到达的船舶),到达统计分布表列于下表上。首先根据原始资料做出船舶到达的分布表,然后按照统计学方法确定其符合于那种理论分布,并估计它的参数。,表2:船舶到达分布表,Friday,7 Ma
21、rch 2008,CUFE,图4:到达数经验分布,普哇松分布(Poisson Distribution),Friday,7 March 2008,CUFE,平均到达率()=3.48(艘/天)这种分布为泊哇松分布(推导略)。平均间隔1/3.48天有一艘船到达。,普哇松分布(Poisson Distribution),到达总数,总天数,1271,365,Friday,7 March 2008,CUFE,泊哇松分布的故事他怎么啦?,Friday,7 March 2008,CUFE,十九世纪时,巴特开惠茨根据普鲁士骑兵队的统计报告,对十个骑兵连中的骑兵在二十年中被马踢死的记录作了分析。这样,他的观察数
22、值有10*20=200个(每年对每个连队作一个记录),他作了一个表,列出死亡人数的分布情况。问题:你也能列个表吗?,泊哇松分布的故事,Friday,7 March 2008,CUFE,从这个表里可以看出,死亡事件共 0*109+1*65+2*22+3*3+4*1=122(人次)。平均每连队每年死亡人次为=Ex=122/200=0.61可见,被马踢死的概率很小啊!为单位时间内的平均死亡人数。,泊哇松分布的故事,Friday,7 March 2008,CUFE,再依据POISSON PROCESS计算其频率:P(X=k)=e-;k=0,1,2,P(X=0)=e-0.61=0.544P(X=1)=0
23、.61e-0.61=0.331P(X=2)=0.612e-0.61/2!=0.101P(X=3)=0.613e-0.61/3!=0.021P(X=4)=0.614e-0.61/4!=0.003简直太相似了!,k,k!,泊哇松分布的故事,Friday,7 March 2008,CUFE,五、几个重要的理论概率分布,正态分布(Normal Distribution)若一个连续随机变量X的概率密度函数为:(0);-X+则称X服从正态分布,并记为XN(,2),此时有:、e是常数。,Friday,7 March 2008,CUFE,正态分布的性质(Properties of the Normal)关于其
24、均值()的对称性,正态分布(Nominal),正态分布(Normal Distribution),Lower Spec Limit,Upper Spec Limit,对称钟型,X,-3,-2,-,2,3,Friday,7 March 2008,CUFE,正态分布的性质(Properties of the Normal)正态曲线下的面积:大约68的面积位于之间,大约95的面积位于2之间,大约99.7的面积位于3之间。,95.46%,68.26%,正态分布(Nominal),正态分布(Normal Distribution),Lower Spec Limit,Upper Spec Limit,99
25、.74%,X,-3,-2,-,2,3,34%,34%,14%,14%,2%,2%,Friday,7 March 2008,CUFE,Mean,2 Parts per Billion,Cp(Process Capability Index)=2,Lower Specification Limit,Upper Specification Limit,Six Sigma Is Virtual Perfection,Defects,Defects,99.9999998%,Friday,7 March 2008,CUFE,正态分布的性质(Properties of the Normal)正态分布完全被它
26、的两个参数和所描述,且正态分布曲线的拐点(points of inflexion)在X。X可以取任意实数值,且当X时,f(X)趋近于X轴。,正态分布(Normal Distribution),1=2=1 2,1,2,X,-1,+1,-2,+2,Friday,7 March 2008,CUFE,将正态变量X转换成标准正态变量Z正态分布变量的线性函数亦服从正态分布。设XN(,2)如果Y=a+bX,则YN(a+b,b22)令我们有ZN(0,1),这表明z服从均值为0,方差为1的正态分布;亦称标准正态分布。,正态分布的性质,Friday,7 March 2008,CUFE,将正态变量X转换成标准正态变
27、量Z,X,0,Z,1,f(X),f(Z),X1,X2,Z1,Z2,其中:且,,-3,-2,-1,1,2,3,Friday,7 March 2008,CUFE,Friday,7 March 2008,CUFE,Friday,7 March 2008,CUFE,正态随机变量的线性组合设X1N(1,12),X2N(2,22),XnN(n,n2)且Cov(Xi,Xj)=i,j=0;i,j则:其中:,,正态分布的性质,Friday,7 March 2008,CUFE,Friday,7 March 2008,CUFE,Friday,7 March 2008,CUFE,五、几个重要的理论概率分布,2分布(2
28、 Distribution)若Z1,Z2,Zk为k个独立的标准正态变量,则它们的平方和:服从K个自由度的2分布。其中自由度(df)的含义是Zi2中独立变量的数目。2变量用2(k)或k2表示,其中k为自由度数。,Friday,7 March 2008,CUFE,2分布(2 Distribution)2分布的图形如下图所示。,Friday,7 March 2008,CUFE,2分布的性质2分布起于原点,向右偏斜。偏斜度依赖于df值的大小。随着df增大,该分布的对称性随之增大。当df非常大时,2分布接近正态分布。2分布的均值为k,方差为2k,其中k为自由度。若Z1和Z2是自由度分别为k1和k2的变量
29、,则它们的和Z1Z2为dfk1k2的2变量。,2分布(2 Distribution),Friday,7 March 2008,CUFE,Friday,7 March 2008,CUFE,五、几个重要的理论概率分布,t分布或学生分布(The t Distribution or Student Distribution)实际中,随机变量的方差往往是不知道的。当方差未知时做假设检验(hypotheses test)必然要用到t分布的概念。若Z1是一个标准正态变量,Z1N(0,1),Z2为K个自由度的2变量,Z22(k),则:服从K个自由度的t分布,t分布亦称为学生分布,用t(K)或tK表示。t分布或
30、许是实际工作中使用频率最高的分布。,Friday,7 March 2008,CUFE,五、几个重要的理论概率分布,t分布的性质(Properties of the t Distribution)t分布与正态分布一样是对称的,但比正态分布要平一些。df值充分大时,t分布近似于正态分布。df时,t分布以标准正态分布N(0,1)为极限。,Friday,7 March 2008,CUFE,五、几个重要的理论概率分布,F分布(The F Distribution)有时候,我们需要做包含两个或两个以上回归参数的联合假设检验(joint hypotheses test),这时就要用到F分布。如:检验需求函数
31、中截矩()和斜率()是否均为0,还是其中一个,或另一个,或两者均不为0。若Z1和Z2是独立分布的自由度分别为K1和K2的2变量,则:服从自由度为K1和K2的F分布,用F(K1,K2)或FK,K 表示。K1为分子自由度(或要估测参数的数量),K2为分母自由度(或自由度)。,1 2,Friday,7 March 2008,CUFE,五、几个重要的理论概率分布,F分布的性质(Properties of the F Distribution)与2分布一样,F分布也是向右偏斜,取值范围由0到正无穷。当K1和K2增大时,F分布趋向正态分布。,F分布密度曲线:,F(10,20),F(50,50),F(100
32、,100),Friday,7 March 2008,CUFE,五、几个重要的理论概率分布,F分布的性质(Properties of the F Distribution)F分布变量的均值为(K22),其方差为,K24。,F分布可用于检验两正态分布随机变量的方差是否相等。,K2,K2-2,Friday,7 March 2008,CUFE,计量经济分析的统计学基础,Friday,7 March 2008,CUFE,统计推断的一般问题,第二节、统计推断,随机抽样:从总体中随机抽取样本的过程。随机样本:如果一个样本是以这样一种方式抽取的 它与具有同样容量为N的其他任一样本被选取的概率相同。抽取随机样本
33、的基本理由是:与其他任何选取方式相比,这种样本更可能反映取样总体的特征。,统计推断的两个分支假设检验:判断手中的样本是否可能取自具有确定参数的某类总体,即从样本信息来检验关于总体参数的假设。参数估计:给定样本,作出总体诸参数可能值的推断,即如何从样本值估计总体参数。统计推断的这两个分支,即假设检验和参数估计,是紧密相关的。,Friday,7 March 2008,CUFE,(1)单纯随机抽样法(Simple random sampling),常用方法:A、抽签法;B、乱数表法(random table),Friday,7 March 2008,CUFE,A、抽签法,抽签法:常用一个骰子,这个骰
34、子必须是从0-9的数字均具有同等的概率,一个立体正10面体的骰子,可以满足需要。例如:要从1000个样本中选出10个样本,则把这个骰子转动3次,以最先得到的数字为百位,第2次为十位,第3次为个位,组成一个数,反复转动骰子,可得到一组数据,即为样本的序号。,Friday,7 March 2008,CUFE,B、乱数表法乱数表是从骰子之投掷得出来的数字列出的一张表。乱数表(部分)1 13 21 96 10 43 46 00 95 62 09 45 43 87 40 08 002 12 84 54 72 35 75 88 47 75 20 21 27 73 48 33 693 57 38 76 05
35、 12 35 29 61 10 48 02 65 25 40 61 544 25 18 75 82 11 89 13 90 53 66 56 26 38 89 04 795 10 88 94 70 76 54 45 07 71 24 53 48 10 01 51 99.49 25 67 87 71 50 46 84 98 62 41 85 51 29 07 12 3550 50 51 45 14 61 58 79 12 88 21 09 02 60 91 20 80,Friday,7 March 2008,CUFE,(2)分层随机抽样法(Stratified random sampling),
36、分层比例抽样法:按分层后各层母体数量的多少作比例而抽出样本数。牛曼(Neyman)分层抽样法:按各层的变异数的大小,而调整各层的样本数目,以提高样本的依赖程度。戴明(Deming)分层抽样法:当各层样本的调查费用有显著的差异时,在不十分影响依赖度的前提下,而调整各层的样本数目,使调查费用减至最低。多次分层抽样法:于母体分层之后,对某些层再作一次或两次的分层,然后再用随机抽样法抽样。,Friday,7 March 2008,CUFE,分层抽样法可以按性别或职业分层;按单位规模大小分层;按消费者所得分层,按年龄分层。,Friday,7 March 2008,CUFE,(3)分群随机抽样法(Clus
37、ter sampling),又称两面三刀段式分群抽样法。适用于:界质乱度高的母体。因为母体的异质性很高,而且乱度很大,便不能订立标准分层,只能依其他外观的或地域的来划分成几个群。案例:拟从某市抽出1000名样本,但无法取得市民名册,所有资料只有小区、办事处的名称和数目。假定该市共有200个单位的小区、办事处,每一个单位约有20名居民,因此可以小区、办事处为单位,从200个小区、办事处中随机抽出50个,并将所抽出的小区、办事处中的全体居民作为样本,如此可抽出1000名样本。,Friday,7 March 2008,CUFE,(4)系统抽样法(Systematic random sampling)
38、,又称“等距抽样法”。系统抽样法介于机率抽样法和非机率抽样法之间。其第一种样本可以依立意抽样法抽取;亦可用随机方式抽取。抽样流程:抽样前,须将母体的每一个单位编号,先计算样本区间(即N/m,N表示母体的数目,m表示样本的大小),如果样本区间为分数,可四舍五入化为整数。然后从1到N/m号中随机抽出一个号码作为第一个样本单位,将第一个样本单位的号码加样本区间即得第二个样本单位,依此类推,直到样本数抽够为止。,Friday,7 March 2008,CUFE,此法适用于常规调查。例如母体样本有10000个,样本的大小决定为200个,则样本区间为10000/200=50,假如从1到50中我们随机抽出了
39、7,则样本单位的号码,依次为7,57,107,157,207.直到样本达到200个为止。问题:如果从1到50中我们随机抽出了16呢?,Friday,7 March 2008,CUFE,(5)任意抽样法(Convenience sampling),任意抽样法是随调查者之方便所选取的样本,属于非机率抽样。母体的标志是“同质”时,可用此法,一般市场调查多用此法。例如街头作访问调查(看到谁就访问谁)。优点:使用方便,最省钱。缺点:抽样偏差极大,结果极不可靠;通常不应利用一个任意样本估计母体参数的数值,因为一个母体中“任意”单位极可能和其他“不任意”的单位有显著的不同。,Friday,7 March 2
40、008,CUFE,(6)判断抽样法(Judgement sampling),“立意抽样法”:系专家的判断而决定所选的样本。由法国社会经济学家黎伯莱(Leplay)所创造的一种抽样方法。设计调查必须对母体的有关特征具有相当的了解。使用这种抽样法应极力避免挑选极端的类型,而选取“多数型”或“平均型”的样本为调查研究的对象,以期透过对典型样本的研究而了解母体的状态。适用于母体的构成单位极不相同而样本数很小的情况。在编制物价指数时,有关产品项目的选择及样本地区的决定等常采用此法。,Friday,7 March 2008,CUFE,优点:由于判断抽样法系依照调查人的需要选定样本,较能适合特殊的需要,回收
41、率也较高。缺点:如果主观判断偏差,则判断抽样极易发生抽样偏误。,Friday,7 March 2008,CUFE,(9)配额抽样法(quota sampling),此法适用于一般小的市场调查。执行步骤:A、选择“控制特征”作为细分母体的标准;B、将母体按“控制特征”细分,使分成数个子母体。C、决定各子母体样本的大小,通常系将总样子数按各子母体在母体中所占的比例分配;D、选择样本单位:各子母体样本数决定后,即可为每一个调查员指派“配额”要他在某个子母体中访问一定数额的样本。,Friday,7 March 2008,CUFE,抽样分布,第二节、统计推断,Friday,7 March 2008,CU
42、FE,抽样分布,第二节、统计推断,Friday,7 March 2008,CUFE,均值的抽样分布,第二节、统计推断,定理:若XN(,2),则对于从X的总体中取出的容量为N的样本的均值,在重复抽样的情况下,有也就是说,样本均值 的抽样分布是均值为,方差为2/N的正态分布。,标准误差(standard deviation):在实际中,没有理由假定随机变量概率分布的方差(variance)或标准差(standard deviation)都是已知的。在它们均未知的情况下,对于标准差的估计量通常称为标准误差(standard error)。,Friday,7 March 2008,CUFE,均值的抽样
43、分布,第二节、统计推断,中心极限定理:若 为从一均值为,标准差为的非正态总体中取出N个独立观测值的随机样本的均值,则只要N充分大,的抽样分布近似于均值为,标准差为 的正态分布。,中心极限定理将正态总体均值的抽样分布的定理推广到非正态分布的一般情形。实际上,对于N30,就可以得到相当满意的近似。但一般来说,原总体对正态分布的偏离越大,样本也应当越大。,Friday,7 March 2008,CUFE,均值的抽样分布,第二节、统计推断,Central Limit Theorem:As the sample size is increased,the sampling distribution of
44、 the mean approaches the normal distribution in form regardless of the form of the population distribution of the individual measurements.For practical purposes,the sampling distribution of the mean can be assumed to be approximately normal whenever the sample size is n30.(Kazmier,L.J.(1988),pp.129-
45、130.),Friday,7 March 2008,CUFE,计量经济分析的统计学基础,Friday,7 March 2008,CUFE,第三节、参数估计,参数估计:由样本数据来估计未知的总体参数的方法。参数估计和假设检验是统计推断的两个重要内容。估计问题可分为两类:点估计和区间估计。,点估计:估计量和估计值:设X为一随机变量,其概率密度函数为f(x,),其中为该分布的参数。假定,不失一般性,已知概率密度函数(PDF)的形式是t分布或正态分布,但不知道的值。为估计的值,从已知分布中抽取一个容量为N的随机样本,然后导出样本值的一个函数(公式):使得我们可以用该公式提供的真值的估计值。称为总体参数
46、的估计量(Estimator),该估计量所取的一个具体值称为的一个估计值(Estimate)。显然,是告诉我们如何估计真值的一种规则或一个公式;是样本数据的函数,是一个随机变量。,这样得到的估计量称为点估计量,因为它仅提供的单个(点)估计值。,Friday,7 March 2008,CUFE,第三节、参数估计,点估计量的统计性质(Properties of Point Estimators)估计量是基础,是计算估计值的公式。估计量和估计值相比,估计量更重要。“好”的估计量通常会产生比较接近总体参数真值的估计值,而与具体的样本无关。,估计量的统计性质可分为两类:小样本性质和大样本性质(渐近性质)
47、,(1)小样本性质:无偏性(Unbiasedness)有效性(Efficiency)最佳线性无偏性(The Best Linear Unbiasedness),Friday,7 March 2008,CUFE,点估计量的统计性质(Properties of Point Estimators),第三节、参数估计,(1)小样本性质无偏性(Unbiasedness):如果E()=,则 为的无偏估计量;反之,则估计量是有偏估计量。,从图2-5中可以看出:从无偏分布中抽取的一个估计值比起从那些不以总体真值为中心的分布中抽取的估计值有更大可能靠近总体真值。,Friday,7 March 2008,CUFE
48、,点估计量的统计性质(Properties of Point Estimators),第三节、参数估计,(1)小样本性质无偏性举例:(1)如E()=,是的一个无偏估计量。,Friday,7 March 2008,CUFE,点估计量的统计性质(Properties of Point Estimators),第三节、参数估计,(1)小样本性质有效性(Efficiency):考虑两个由容量为N的同一样本计算而来的无偏估计量 和如果有:;或,则称 为有效估计量,或者说 比 更有效。,显然,在一个参数的各种估计量之间进行选择时,我们希望选择既无偏又有效的估计量。若在的所有估计量中,我们能够找到一个具有最
49、小方差的估计量,则称之为的最佳估计量。,Friday,7 March 2008,CUFE,点估计量的统计性质(Properties of Point Estimators),第三节、参数估计,(1)小样本性质有效性举例:如;。即:,比m约60更有效。,Friday,7 March 2008,CUFE,点估计量的统计性质(Properties of Point Estimators),第三节、参数估计,(1)小样本性质最佳线性无偏性(the best linear unbiasedness):线性估计量(linear estimator):是指估计量 是诸样本观测值的一个线性函数。最佳线性无偏估
50、计量(BLUE:the best linear unbiased estimator):是指 是线性的、无偏的,并且它在的所有线性无偏估计量中具有最小方差。,Friday,7 March 2008,CUFE,第三节、参数估计,点估计量的统计性质(Properties of Point Estimators),(2)大样本性质:有时,一个估计量在小样本情况下不满足某些小样本性质,但随着样本容量N的无限增大,该估计量就会有一些令人满意的统计性质,这些性质称为大样本性质或渐近性质。,渐近无偏性(Asymptotic Unbiasedness),一致性(Consistency),Friday,7 Ma