非参数统计讲义一-绪论.ppt

资源描述

《非参数统计讲义一-绪论.ppt》由会员分享，可在线阅读，更多相关《非参数统计讲义一-绪论.ppt（86页珍藏版）》请在三一办公上搜索。

1、非参数统计,教学要求,本课程的目的是使学生认识到非参数统计方法是统计中最常用的推断方法之一，理解非参数统计方法和参数统计方法的区别，理解非参数统计的基本概念，掌握非参数统计的基本理论和计算，能应用统计软件和非参数统计方法分析解决实际问题。,统计是分析数据信息的科学这个定义决定了统计的命运：,和数学不同,统计不能欣赏自己,它不为实际服务就没有存在必要统计必须为各个领域服务统计必须和数据打交道因此,统计必须和计算机结合,非参数统计产生的背景问题,学生请假与星期几有关吗？股票涨跌与星期几有关吗？夫妻的审美观有差异吗？广告的播出时间与电脑销量有关吗？婴儿出生数白天与晚上有明显差异吗,用实例说明非参数统

2、计方法和参数统计方法的区别，使学生认识到学习非参数统计方法的必要性。,第一讲非参数统计概论,参数统计与非参数统计的比较,经典统计的多数检验都假定了总体的背景分布。分布由参数决定的，期望与方差总体的分布形式或分布族往往是给定的或者是假定了的，所不知道的仅仅是一些参数得知或它们的范围。人们的主要任务就是对一些参数，比如均值和方差（或标准差）进行估计或检验。,非参数统计,非参数统计方法（Nonparametric Statistical method)对总体的概率分布假定以及测量尺度的要求即使有也很少的统计方法。当能够得到分类数据和顺序数据时可以使用的方法。也称为无分布方法（Distributi

3、on-free Statistics methods),也称自由分布统计学。表示无需对总体概率分布做出假定。,因常按大小或出现先后次序排列资料进行分析，故又称次序统计学（Order Statistics),什么是非参数检验？,不假定了总体的具体背景分布形式。这些检验多根据数据观测值的相对大小建立检验统计量，然后找到在零假设下这些统计量的分布。看这些统计量的数据实现是否在零假设下属于小概率事件。这种和数据本身的总体分布无关的检验称为非参数检验。,非参数检验有什么优越性？,在总体分布未知时，如果还假定总体有诸如正态分布那样的已知分布，在进行统计推断就可能产生错误甚至灾难。非参数检验总是比传统检验

4、安全。但是在总体分布形式已知时，非参数检验就不如传统方法效率高。但非参数统计在总体分布未知时效率要比假定了错误总体分布时的传统方法要高，有时要高很多。,哪个好？,选择飞机与选择用参数与非参数方法的思路相同。大型飞机很好，但对机场的要求很高。参数统计对数据要求很高。小型飞机不一定舒适，但起降时对机场的要求很低。同理非参数统计对数据要求较低。,统计方法的选择：用参数统计方法与非参数统计方法1、考虑对总体的假定。对总体有假定时用参数，已具备使用参数统计方法时一般不用非参数统计。2、数据的度量尺度。定距与定比可以用参数。,非参数统计方法的应用条件：1、用于分析定类数据2、用于分析定序数据3、用于分析定

5、距、定比数据时总体分布未做假定。,参数统计（Parametric Statistical method)有两个特点：1、以推断某特定参数为对象。如总体均值，总体比例P，总体方差，两个总体殚值的差等。2、常需要假定总体的分布是已知的，有的要假设总体是服从正态分布的，才能作出推断。,数据的四种尺度：定类、定序、定距、定比,对定类和定序的只能用非参数统计分析方法,非参数检验的特点1、非参数统计方法应用广泛。2、它对资料的要求易于得到满足。3、当总体分布有具体形式未知，而且样本容量很小时，无法用参数统计方法，只能用非参数方法。4、大多数非参数统计方法简单、直观、易于掌握和应用。5、总体分布形式已知时

6、，非参数统计的方法的检验功效不如假定总体已知的各种参数统计方法。,6、非参数统计方法所推断的通常不是总体参数7、其通常按大小或出现先后顺序排列的资料进行分析。8、通常以中位数代表分布的中心，以极差代表离散程度。,非参数统计的主要内容,Matrix of Nonparametric Statistics,非参数统计的历史非参数统计的形成主要归功于20世纪40年代50年代化学家F.Wilcoxon等人的工作。Wilcoxon于1945年提出两样本秩和检验，1947年Mann和Whitney二人将结果推广到两组样本量不等的一般情况；Pitman于1948年回答了非参数统计方法相对于参数方法来说的相对

7、效率方面的问题；,60年代中后期，Cox和Ferguson最早将非参数方法应用于生存分析。70年代到80年代，非参数统计借助计算机技术和大量计算获得更稳健的估计和预测，以以及 F.Hampel为代表的统计学家从计算技术的实现角度，为衡量估计量的稳定性提出了新准则。,90年代有关非参数统计的研究和应用主要集中在非参数回归和非参数密度估计领域，其中较有代表性的人物是Silverman和J.Fan。非参数统计分为广义的和狭义的两种狭义的非参数统计主要研究假设检验，本课程研究狭义的。广义的非参数统计只要不考虑总体的分布的统计分析方法,但是在总体分布形式已知时，非参数检验就不如传统方法效率高。这是因为非

8、参数方法利用的信息要少些。往往在传统方法可以拒绝零假设的情况，非参数检验无法拒绝。但非参数统计在总体未知时效率要比传统方法要高，有时要高很多。是否用非参数统计方法，要根据对总体分布的了解程度来确定。,因为非参数统计方法不利用关于总体分布的知识，所以，就是在对总体的任何知识都没有的情况下，它也能很容易而又很可靠地获得结论。这时非参数方法往往优于参数方法，并且非参数检验总是比传统检验安全。,数据的秩,秩（rank）利用秩的大小进行推断就避免了不知道背景分布的困难。这也是大多数非参数检验的优点。多数非参数检验明显地或隐含地利用了秩的性质；但也有一些非参数方法没有涉及秩的性质。,非参数检验中秩是最常使

9、用的概念。什么是一个数据的秩呢？一般来说，秩就是该数据按照升幂排列之后，每个观测值的位置。,秩（rank）,非参数检验中秩是最常使用的概念。什么是一个数据的秩呢？一般来说，秩就是该数据按照升幂排列之后，每个观测值的位置。例如我们有下面数据,这下面一行（记为Ri）就是上面一行数据Xi的秩。,数据输入SPSS,例题：某学院本科三年级有9个专业组成，统计每个专业学生每月消费数据如下，用SPSS求消费数据的秩和顺序统计量的现值：300 230 208 580 690 200 263 215 520,2.有结数据的秩设样本X1，X2，XN 取自总体X的简单随机抽样，将数据排序后,相同的数据点组成一个“结

10、”，称重复数据的个数为结长。例1：3.8 3.2 1.2 1.2 3.4 3.2 3.2解：结长为3。,统计推断：假设检验,假设检验：假设检验是指我们可以对某一参数的假定值进行先验判断或预期，然后利用小概率原理对其进行检验，得到接受或拒绝原假设的结论。,小概率原理：我们认为小概率事件由于发生的可能性很小，在一次试验中它几乎是不会发生的。如果发生了，说明我们的假设有问题，所以我们将拒绝原来的假设。,参数统计的假设检验,如：检验正态分布的均值是否相等H0：u1=u2;H1:u1u2检验均值是否等于零H0：u=0;H1:u0,例85 用自动装袋机装葡萄糖，每袋标准重500克，每隔一定时间需检查机器工

11、作是否正常.现抽得10袋，测得其重量为（单位：克）495，510，505，498，503，492，502,512,497,506,假定重量服从正态分布，问机器是否正常？,解由于2未知，所以用T检验法,提出假设,所以应接受H0，可以认为，机器工作正常.,对,拒绝域,P值，由T0.9733，df=9,可得（EXCEL函数=TDIST(0.9733,9,2),假定甲、乙两机床截下的长度方差相等，问长度的期望值是否一样？,例88从两台切断机所截下的坯料（长度按正态分布）中，分别抽取个和个产品，测得长度如下（单位：mm）：,甲：150，145，152，155，148，151，152，148,乙：152

12、，150，148，152，150，150，148，151，148,设甲床截下的长度为X；乙床截下,的长度为Y，由假定知21=22=2,检验假设,解,对,查表得,拒绝域为,所以应接受,参数方法,定义：样本被视为从分布族的某个参数族抽取出来的总体的代表，而未知的仅仅是总体分布具体的参数值，推断问题就转化为对分布族的若干个未知参数的估计问题，用样本对这些参数做出估计或者进行某种形式的假设检验，这类推断方法称为参数方法。比如：（1）研究保险公司的索赔请求数时，可能假定索赔请求数来自泊松分布P(a);（2）研究化肥对农作物产量的影响效果时，平均意义之下，每测量单元（可能是）产量服从正态分布N(a,b).

13、,假设检验的基本概念,若对参数有所了解,但有猜测怀疑,需要证实之时,用假设检验的方法来处理,（2未知）,（2未知）,一个典型的参数检验过程,1.总体参数Example:Population Mean2.假定数据的形态为 Whole Numbers or Fractions Example:Height in Inches(72,60.5,54.7)3.有很强的假定Example:正态分布4.例子:Z Test,t Test,2 Test,一个例子：,对两组学生进行语法测试，如何比较两组学生的成绩是否存在差异？,假设检验的基本思想,.因此我们拒绝假设=50,样本均值,m,=50,抽样分布,H0

14、,单边备择单边备择双边备择,零假设(原假设)与备择假设：,例：,假设检验的方法1.置信区间法,置信区间提供了在某一置信度(例如95)下真实参数值的取值范围。如果零假设中的值未落入该区间，也就是说小概率事件发生了，我们认为小概率事件由于发生的可能性很小，在一次试验中它几乎是不会发生的。如果发生了，说明我们的假设有问题，所以我们将拒绝该零假设。,概念：接受域（置信区间）、拒绝域、临界值,第一类错误和第二类错误：一个偏离,由小概率原理我们可以看出，我们的这种判断是有可能犯错误的。我们把可能犯的错误分为两类：第一类错误和第二类错误。第一类错误：零假设是正确的，却做出拒绝零假设的判断，此为弃真错误。第二

15、类错误：零假设是错误的，却做出接受零假设的判断，此为取伪错误。,假设检验不可能完全避免这两类错误，我们只能想办法使犯错误的概率尽量减小。,1-置信水平，也称显著性水平,犯第一类错误的概率=犯弃真错误的概率犯第二类错误的概率=犯取伪错误的概率,两类错误,假设检验存在着接受错误的假设和拒绝正确假设的可能性.,假设检验的各种可能结果,1-a,1-,H0:无罪,假设检验中的两类错误（决策结果）,假设检验就好像一场审判过程,统计检验过程,错误和错误的关系,2.显著性检验显著性检验：在给定显著性水平下，为考察样本值的显著性而进行的假设检验。检验是统计显著的：能够拒绝零假设，即观察到的样本值落入拒绝域。

16、检验是统计不显著的：不能够拒绝零假设，即观察到的样本值落入接受域。,确定显著性水平,求临界值.,在假设检验中,认为零假设代表的事件概率很大,备择假设代表的对立事件概率很小.,根据实际推断原理(小概率原理),规定一个界限,当某事件的概率,就认为该事件是实际不可能事件.,显著性水平.,如果在一次检验中,备择假设代表的小概率事件居然发生了,就有理由怀疑零假设的正确性.,这就是假设检验的基本原理.,显著水平的选择与P值,P值（概率值）也称为统计量的精确显著性水平。它可定义为拒绝零假设的最小的显著性水平。一般规律：P值越小，越能拒绝零假设。某一点对应的p值指的是以该值为临界点确定的拒绝域的概率。,统计

17、检验的步骤总结：第一步：表述零假设H0和备择假设H1；第二步：选择检验统计量；第三步：确定检验统计量的概率分布；第四步：选择显著性水平，即犯第一类错误的概率；第五步：选择置信区间法或显著检验方法。,置信区间法：根据检验统计量的概率分布，建立一个置信区间(也即接受域），如果该区间包括零假设值，则接受零假设，否则拒绝零假设。显著检验法：在零假设下，得到相关统计量，并根据相应的概率分布及事先给定的显著性水平计算相应的接受域（拒绝域），根据计算得到的值是否落入接受域（拒绝域）来决定是否接受（拒绝）零假设。如果不想事先选择显著性水平，则可依据该统计量的p值进行判断。计算该统计量取某一特殊值的概率。如果这

18、一概率值较小，则拒绝零假设，否则，接受零假设。,什么是 P 值？（P-Value）,是一个概率值如果我们假设原假设为真，P-值是观测到的样本均值不同于(实测值的概率左侧检验时，P-值为曲线上方小于等于检验统计量部分的面积右侧检验时，P-值为曲线上方大于等于检验统计量部分的面积被称为观察到的(或实测的)显著性水平H0 能被拒绝的的最小值,利用 P 值进行决策,单侧检验若p-值,不能拒绝 H0若p-值,拒绝 H0双侧检验若p-值/2,不能拒绝 H0若p-值/2,拒绝 H0,双尾 Z 检验(P-值计算实例),【例】欣欣儿童食品厂生产的盒装儿童食品每盒的标准重量为368克。现从某天生产的一批食品中随机抽取25盒进行检查，测得每盒的平均重量为x=372.5克。企业规定每盒重量的标准差为15克。确定P-值。,双尾 Z 检验(P-值计算结果),双尾 Z 检验(P-值计算结果),双尾 Z 检验(P-值计算结果),双尾 Z 检验(P-值计算结果),双尾 Z 检验(P-值计算结果),双尾 Z 检验(P-值计算结果),双尾 Z 检验(P-值计算结果),

展开阅读全文