统计推断.ppt_三一办公31ppt.com

资源描述

《统计推断.ppt》由会员分享，可在线阅读，更多相关《统计推断.ppt（36页珍藏版）》请在三一办公上搜索。

1、1,统计推断,从数据得到对现实世界的结论的过程,2,估计,总体代表我们所关心的那部分世界。而在利用样本中的信息来对总体进行推断之前人们往往对代表总体的变量假定了分布族。(描述数据时不用假定)比如假定人们的身高属于正态分布族；在抽样调查时假定了二项分布族等等(这些假定可能有风险!)。这些模型基本上是根据“经验”来假定的，仅仅是对现实世界的一个近似。,3,估计,在假定了总体分布族之后，进一步对总体的认识就是要在这个分布族中选择一个适合于我们问题的成员由于分布族成员是由参数确定的，如果参数能够估计，对总体的具体分布就知道得差不多了。,4,估计量是用来估计的统计量,我们知道，统计量是样本的不包含未知参

2、数的函数。样本均值、样本标准差都是统计量。由于样本是随机的，统计量也是随机变量。用于估计总体参数的统计量称为估计量；样本均值和标准差都是总体均值和标准差的常用估计量。,5,点估计和区间估计,点估计(point estimation)就是用估计量的实现值来近似相应的总体参数。区间估计(interval estimation)是包括估计量在内（有时是以估计量为中心）的一个区间；被认为很可能包含总体参数。点估计给出一个数字，用起来很方便；而区间估计给出一个区间，说起来留有余地；不象点估计那么绝对。无偏估计(大样本性质),6,区间估计,注意置信区间的论述是由区间和置信度两部分组成。置信区间是对参数给出

3、的一个范围置信度为其可信程度(大样本意义)有些新闻媒体报道一些调查结果只给出百分比和误差（即置信区间），比如“收视率为53%3%”;不给出置信度，也不给出被调查的人数这是不负责的表现。,7,区间估计,降低置信度可以使置信区间变窄（显得“精确”），有误导读者之嫌。如果给出被调查的人数，则内行可以由此推算出置信度，反之亦然。,8,一个描述性例子,一个有10000个人回答的调查显示，同意某种观点的人的比例为70%（有7000人同意），可以算出总体中同意该观点的比例的95%置信区间为（0.691，0.709）；另一个调查声称有70%的比例反对该种观点，还说总体中反对该观点的置信区间也是(0.691，0

4、.709)。,9,一个描述性例子,实际上，第二个调查隐瞒了置信度（等价于隐瞒了样本量）。如果第二个调查仅仅调查了50个人，有35个人反对该观点。根据后面的公式可以算出，第二个调查的置信区间的置信度仅有11%。,10,区间估计的意义,置信度的概念大量重复抽样时的一个渐近概念。类似于“我们目前得到的区间（比如上面的75%3%）以概率0.95覆盖真正的比例p”的说法是错误的。实际上应该说“重复类似的抽样所得到的大量区间中有大约95%的覆盖真实比例(其值可能永远未知)。,11,区间估计的意义,这里的区间（72%，78%）是固定的，而总体比例p也是固定的值。因此只有两种可能：或者该区间包含总体比例，或

5、者不包含；这当中没有任何概率可言。至于区间（72%，78%）是否覆盖真实比例，除非一个不漏地调查所有的人，否则永远也无法知道。,12,假设检验,在假设检验中，一般要设立一个原假设；而设立该假设的动机主要是企图利用人们掌握的反映现实世界的数据来找出假设和现实的矛盾，从而否定这个假设。,13,假设检验,在多数统计教科书中（除了理论探讨之外）,假设检验都是以否定原假设为目标。如否定不了，那就说明证据不足，无法否定原假设。但这不能说明原假设正确。很多教科书在这个问题上不适当地用“接受原假设”的说法，犯了明显的低级逻辑错误。,14,假设检验的过程和逻辑,首先要提出一个原假设，比如某正态总体的均值等于5（

6、m=5）。这种原假设也称为零假设（null hypothesis），记为H0与此同时必须提出对立假设，比如总体均值大于5（m5）。对立假设又称为备选假设或备择假设（alternative hypothesis）记为记为H1或Ha,15,假设检验的过程和逻辑,根据零假设（不是备选假设！），我们可以得到该检验统计量的分布；然后再看这个统计量的数据实现值（realization）属不属于小概率事件。也就是说把数据代入检验统计量，看其值是否落入零假设下的小概率范畴如果的确是小概率事件，那么我们就有可能拒绝零假设，否则我们说没有足够证据拒绝零假设。,16,假设检验的过程和逻辑,注意：零假设和备选假设在我

7、们涉及的假设检验中并不对称。检验统计量的分布是从零假设导出的,因此,如果有矛盾,当然就不利于零假设了。不发生矛盾也不说明备选假有问题。,17,假设检验的过程和逻辑,检验统计量在零假设下,等于这个样本的数据实现值或在备选假设方向上更加极端值的概率称为p-值（p-value）。显然得到很小p-值意味着小概率事件发生了。如果小概率事件发生，是相信零假设，还是相信数据呢？当然是相信数据。于是就拒绝零假设。但事件概率小并不意味着不会发生，仅仅发生的概率很小罢了。拒绝正确零假设的错误常被称为第一类错误（type I error）。,18,假设检验的过程和逻辑,不仅有第一类错误，还有第二类错误；那是备选假设

8、正确时反而说零假设正确的错误，称为第二类错误（type II error）。如要“接受零假设”就必须给出第二类错误的概率.但对于目前面对的问题,无法计算它.,19,假设检验的过程和逻辑,零假设和备选假设哪一个正确，这是确定性的，没有概率可言。而可能犯错误的是人。涉及假设检验的犯错误的概率就是犯第一类错误的概率和犯第二类错误的概率。负责的态度是无论做出什么决策，都应该给出犯错误的概率。,20,假设检验的过程和逻辑,到底p-值是多小才能够拒绝零假设呢？也就是说，需要有什么是小概率的标准。这要看具体应用的需要。但在一般的统计书和软件中，使用最多的标准是在零假设下（或零假设正确时）抽样所得的数据拒绝零

9、假设的概率应小于0.05（也可能是0.01，0.005，0.001等等）。,21,假设检验的过程和逻辑,这种事先规定的概率称为显著性水平(significant level)，用字母a来表示。当p-值小于或等于a时，就拒绝零假设。所以，a是所允许的犯第一类错误概率的最大值。当p-值小于或等于a时，我们说这个检验是显著的(significant)。,22,假设检验的过程和逻辑,归纳起来，假设检验的逻辑步骤为：第一:写出零假设和备选假设；第二:确定检验统计量；第三:确定显著性水平a；第四:根据数据计算检验统计量的实现值；第五:根据这个实现值计算p-值；第六:进行判断：如果p-值小于或等于a，就拒绝

10、零假设，这时犯错误的概率最多为a；如果p-值大于a，就不拒绝零假设，因为证据不足。,23,假设检验的过程和逻辑,实际上，计算机软件仅仅给出p-值，而不给出a。这有很多方便之处。比如a=0.05，而假定我们得到的p-值等于0.001。这时我们如果如果采用p-值作为新的显著性水平，即a=0.001，于是可以说，我们拒绝零假设，显著性水平为0.001。拒绝零假设时犯错误的概率实际只是千分之一而不是百分之五。在这个意义上，p-值又称为观测的显著性水平（observed significant level）。在统计软件输出p-值的位置，有的用“p-value”，有的用significant的缩写“Sig

11、”就是这个道理。,24,假设检验的例子,汽车厂商声称其发动机排放标准的一个指标平均低于20个单位。在抽查了10台发动机之后，得到下面的排放数据：17.0、21.7、17.9、22.9、20.7、22.4、17.3、21.8、24.2、25.4。该样本均值为21.13。究竟能否由此认为该指标均值超过20？这次我们的假设检验问题就是,25,假设检验的例子,检验统计量为（为什么用这个？）我们可以发现p-值为0.1243，因此，我们没有证据否定零假设(如果显著性水平小于它)。,26,27,两个变量的均值比较,两个学校高中学生的身高均值比较(hight21.sav).H0:m1=m2=H1:m1m2,2

12、8,SPSS输出,P值0.001/2=0.0005,29,为什么不能“接受零假设”,其实可以，比如下面两种情况：1.备选假设也是单点分布，这时可以负责地算出犯第二类错误的概率。2.贝叶斯检验情况（这是一种决策观点）但在经典统计中的绝大多数情况都不可以。,30,从一个例子看“接受零假设”,（数据 rice.sav）一个大米加工厂卖给一个超市一批标明10kg重的大米。而该超市怀疑该厂家缺斤短两，对10包大米进行了称重，得到下面结果（单位：千克）9.93 9.83 9.76 9.95 10.07 9.89 10.03 9.97 9.89 9.87这里假定打包的大米重量服从正态分布。由于发生分歧，于是

13、各方同意用这个数据进行关于大米重量均值m的t检验；以厂家所说的平均重量为10kg作为零假设，而以超市怀疑的份量不足10kg作为备选假设：,31,1.超市的检验,于是，超市、加工厂老板和该老板的律师都进行了检验。结果是：超市用全部数据进行t检验，得到拒绝零假设的结论。他们根据计算得到：样本均值为9.92kg，而p-值为0.0106。因此超市认为，对于显著性水平a=0.05，应该拒绝零假设。,32,2.加工厂老板的检验,大米加工厂老板只用2个数据，得到“接受零假设”的结论。大米加工厂老板也懂些统计，他只取了上面样本的头两个个数目9.93和9.83进行同样的t检验。通过对这两个数进行计算得到：样本均

14、值为9.88kg,而p-值为0.1257.虽然样本均值不如超市检验的大,但p-值大大增加。加工厂老板于是下了结论：对于水平a0.05，“接受零假设”，即加工厂的大米平均重量的确为10kg。,33,3.加工厂老板律师的检验,大米加工厂老板的律师用了全部数据，但不同的检验方法，得到“接受零假设”的结论。大米加工厂老板的律师说可以用全部数据。他利对于连续变量比例的检验，也就是关于中位数的符号检验（注意对于正态分布，对中位数的检验等价于对均值的检验）。根据计算，得到该检验的p-值为0.0547。所以这个律师说在显著性水平a=0.05时，应该“接受零假设”。还说，“既然三个检验中有两个都接受零假设，就应

15、该接受。”,34,如何评价？,加工厂老板实际上减少了作为证据的数据，因此只得到“证据不足，无法拒绝零假设”的结论。但加工厂老板利用一些错误的统计教科书的说法，把“证据不足以拒绝零假设”改成“接受零假设”了。而且，从样本中仅选择某些数目（等于销毁证据）违背统计道德。律师虽然用了全部数据，但用了不同的方法。他也只能够说“在这个检验方法下，证据不足以拒绝零假设”而不能说“接受零假设”。另外，律师对超市用更有效的检验方法得到的“拒绝零假设”的结论视而不见，这也违背了统计原理。对于同一个检验问题，可能有多种检验方法。但只要有一个拒绝，就应该拒绝。那些不能拒绝的检验方法是能力不足。用统计术语来说，是势（p

16、ower）不足，或者效率（efficiency）低。,35,关于例6.7的总结,在已经得到样本的情况下，随意舍取一些数目是违背统计原理和统计道德的。这相当于篡改或毁灭证据。由于证据不足而不能拒绝零假设绝对不能说成“接受零假设”。如果一定要说，请给出你接受零假设所可能犯第二类错误的概率（这是无法算出的）。这是加工厂老板和律师所犯的错误。例中律师的检验和超市所做的检验都针对同样的检验问题，但由于超市的检验方法比律师的检验更强大（或更强势，more powerful，更有效率，more efficient），所以超市拒绝了零假设，而律师的检验则不能拒绝。如果有针对同一检验问题的许多检验方法，那么，只要有一个拒绝，就必须拒绝。绝对不能“少数服从多数”，也不能“视而不见”。,36,以关于均值的t检验为例；实际上，只要零假设的均值和样本均值的确不一样，那么根据检验统计量的公式可以看出，如果样本量不断增大，就必然会拒绝零假设。当然，对于效率较低的检验，要拒绝零假设所需要的样本量较大。,

展开阅读全文