《四大分部、假设检验、方差分析、一元回归分析ppt课件.pptx》由会员分享,可在线阅读,更多相关《四大分部、假设检验、方差分析、一元回归分析ppt课件.pptx(47页珍藏版)》请在三一办公上搜索。
1、数理统计理论及应用,二、假设检验,三、方差分析,四、一元线性回归,一、数理统计中四大分布,一、数理统计中四大分布,1.正态分布,1、一个年级中,成绩的分布。2、抛掷一枚硬币1000次,正面朝上的概率。3、历史100年中,每年降雨量的值的分布。4、一个大学中男生的身高分布。,1.1、定义: 若随机变量 x 的概率密度函数可以表示为: 的形式,则称x服从正态分布,记为 x N(,2),其中,x,(1)正态曲线(normal curve)在横轴上方,均值为 处最高。(2)正态分布以均数为中心,左右对称。(3)正态分布有2个参数,即均数 和标准差。 是位置参数,当 固定不变时, 越大,曲线沿横轴越向右
2、移动;反之, 越小,则曲线沿横轴越向左移动。 是形状参数(亦称变异度参数),当 固定不变时, 越大,曲线越平阔; 越小,曲线越尖峭。通常用N( , 2)表示均数为 ,方差为 的正态分布。,1.2、正态分布的特征:, 不变, 发生变化, 不变, 发生变化,(4)正态分布在 处各有一个拐点。,(5)正态曲线下的面积有一定规律。, , +,凸,凹,凹,x,a,b,(一)正态曲线下面积的计算: 右图1中阴影部分(-,x)的面积称为正态分 布的分布函数,记为: 右图2中阴影部分(代表任意区间)的面积,理论上 可以如下计算:,(二)标准正态分布下的面积:,若 则 服从标准正态分布,x N(,2),二项分布
3、的正态逼近,对于一个二项分布,当实验的次数足够多时,其概率密度函数逼近于正态分布的概率密度函数。,1.2.卡方分布,定义:设随机变量 独立服从标准正态分布N(0,1), 则变量 所服从的分布就是自由度为n的 分布,称 ,卡方分布的密函数如下:,卡方分布性质:(1)数字特征,若 则 (2)可加性,若 且 两变量独立,则有,(3),1.3. T分布,定义:设 , ,且变量X,Y相互独立,则有变量 服从的分布是自由度为n的 T分布,根据定义可推得密度公式为:,T分布性质:(1) 当自由度 正无穷时, , 也就是说,当n充分大时,T分布近似于标准正态分布。但若n较小,两种分布差别较大。(2)数字特征:
4、若 ,n2 则 自由度为1的t -分布也称为柯西(Cauchy)分布,此时期望方差都不存在。,记法:记t -分布 的 -上侧分位数为对于较大的自由度n(譬如n60),可用正态分布近似代表T分布来简化计算,1.4. F分布,定义:设 且X与Y独立,则有变量 服从自由度为(n1,n2)的F分布, 记作: ,其密度函数为:,F分布性质:(1) 若 ,则(2) 分布的 上侧分位数记作 ,具体有:(3)由 , 可推出:,二、假设检验,一、假设检验的基本问题,存在问题:由于我们对用户画像是基于用户的交易记录和习惯做出的性 别判断, 所以用户标签数据可能存在倾斜,这样会存在用画像数据性别比例代替用户 总体性
5、别比例可能存在偏差,怎么办?具体问题2:如果到市场上去买鸡蛋,商家声称坏鸡蛋的比例是1%,市场监督员检测了五个鸡蛋,有一个环鸡蛋, 那么商家说的话是否可信?,事先对总体参数作某种假设(均值、方差、比率),然后利用样本信息来判断假设是否成立的过程称为假设检验。具体问题1:想看一下当前美团用户画像中女性用户所占比例是否能代表总体用户的性别比例?,1.1.假设的陈述统计假设:对总体参数具体数值所做的陈述,称为假设(统计假设)。假设检验:分为两步:先对总体参数提出某种假设 - 然后利用样本信息判断假设是否成立,这个过程称假设检验过程。原假设H0:一般情况下把研究者想要收集证据予以反对的假设成为原假设(
6、一般用H0表示)被择假设H1 : 将研究者想收集证据来支持的假设称为被择假设(一般用H1表示)两类检验:双尾检验(被择假无特定的方向性,一般体现在被择假设中有 “” ) 单尾检验(被择假设有特定的方向性,含有符号 “” 或 “”的假设),假设的基本形式如下:,1.2.假设检验的思维逻辑:1)反证法2)小概率实验在一次观察或实验中几乎不可能发生。如果在一次实验中小概率实验发生了,那我们就拒绝原假设,否则就接受原假设。,P,P,1.3、假设检验的步骤,值(观测到的显著性水平):若原假设H0是正确的,对H0所规定的总体作随机抽样,计算等于或大于现有样本统计量值的概率。,两种判别方法:1、利用统计量做
7、出决策:给定的显著性水平,查表可以查到统计量的临界值,将计算的统计量临界值对比,即可做出最终决策。2、根据计算的P值与显著性水平的关系决策:给定的显著性水平,若p则拒绝原假设。,2)根据问题确定单双侧检验。2)建立假设H0,H1。,1)为第一类错误概率,通常取0.05、0.1,根据需求调节2)在H0成立的条件下,由样本已知信息构造统计量。根据研究目的,设计的类型、样本的数量选择合适统计量。,1.4.两类错误的显著性水平,第一类错误:当原假设为真的时候,我们又拒绝了原假设,称为弃真错误,通常记为第二类错误:当原假设是错误的时候,检验的结果没能拒绝原假设,称为取伪错误,取,分别犯两类错误的情况是什
8、么?两种错误的关系?,无论何种情况下都不可能避免不犯两类错误。当样本容量不变时候,减小就会使增大, 减小会增大,所以要让和同时减小的唯一办法就是增大样本的容量;实际问题是:增加样本容量会受到很多限制因素,所以会在两类错误中选择一个权衡。譬如说:如果犯第一类错误的概率比第二类错误严重,就将犯第一类错误的概率设置的低一点,反之亦然。,检验统计量:根据样本数据计算得到的,并对原假设和被择假设做出决策的样本统计量(统计量中不含未知参数)检验统计量的作用如下图:,二、几种单总体参数的检验,2.1.总体均值检验检验中的几个问题:总体均值的检验中,采取何种检验统计量取决于所抽取的样本的多少(统计上吧大于30
9、个样本称为大样本,小于30的样本称为小样本),此外还需要区分总体是否服从正态分布,总体方差是否已知等情况。具体问题:美团商户中销售的某种(标准是容量225ml,标准差为5ml)灌装饮料被消费者投诉装量不标准的问题,为此公司决定对该类饮料的装量进行调研来确定公司售卖的饮料是否存在此类问题。对此调研人员随机从商城中抽取了400罐进行检验,测得每罐的平均容量为255.8ml,这里取显著性水平=0.05,来检验商城的饮料是否符合标准。1、建立假设:此时关心的问题是装量是否符合标准,具体到问题就是总体的瓶装量是否为225ml 所以建立假设:2、确定检验水平:给出显著水平=0.053、确定并计算检验统计量
10、: (若H0成立,样本均值服从 )4.确定P值和Z值的大小:p=0.000342, 5、决策:,1.96所以拒绝原假设H0,说明饮料装量的规格确实不符合标准。,总体均值的检验规则(正态,小样本,方差已知),总体均值的检验规则(正态,方差未知,小样本情形),在小样本的情况下统计量的选择主要看方差是否已知。,其他情况下检验统计量的选择:,主要是看在大样本的条件下,看总体的方差是否已知,总体方差已知则用总体方差,总体未知就用样本方差代替。,总体均值的检验规则(大样本情况),2.2、总体比率检验,类似于检验公司男女性别比例是否等于画像数据中用户比率的检验问题,这类问题就是比率检验,方法和步骤与总体均值
11、类似,不同点是统计量的差异。,总体比率的检验统计量,设,二项分布的正态近似:,注:试用的条件是,np5且nq5,所以对比率的检验可构造检验统计量,问题:通过对公司用户画像数据进行性别分类,发现男性用户占42%,女性用户占到了58%,那么这个结果是否可信?调研:为验证此比例数据是否可用,通过数据库随机挑选1000位用户ID,再通过电话访问确定该用户的性别。发现有473人是男性,527是女性用户,取显著性水平=0.05验证此比例数据能否代表公司用户比例。,一、建立假设:公司数据显示男性占比42%,因此提出原假设和备择假设如下,二、计算统计量:根据调研结果,计算p=473/1000=47.3%,检验
12、统计量为,三、统计决策:根据显著性水平=0.05,查标准正态分布表的临界值 ,则拒绝原假设H0,说明公司画像数据不能代替公司全部用户的性别比例。,2.3、总体方差的检验,生产生活中仅仅保持样本的均值维持在一定水平是不够的,并不意味着整个过程都能正常运转,方差的大小是否适度也是需要考虑和控制的问题,以此避免过程中出现的偏差比较大的情况发生。目的:检验一个总体的方差或标准差,使用卡方统计量。前提:总体服从正态分布,总体方差的检验统计量,检验统计量都是一样的,针对不同问题类型,选择不同的检验类型。,样本方差,假设的总体方差,问题:啤酒生产企业采用自动生产线灌装啤酒,每瓶的装填量为640ml,但由于受
13、某些不可控因素的影响,每瓶的装填量会有差异。此时,不仅每瓶的平均装填量很重要,装填量的方差同样很重要。如果方差很大,会出现装填量太多或太少的情况,这样要么生产企业不划算,要么消费者不满意。假定生产标准规定每瓶装填量的标准差不应超过和不应低于4ml。企业质检部门抽取了10瓶啤酒进行检验,得到的样本标准差为s=3.8ml。试以0.10的显著性水平检验装填量的标准差是否符合要求?,一、建立建设: H0 : 2 = 42 H1 : 2 42 = 0.10 df = 10 - 1 = 9,二、计算统计量:,三、做出决策:,三、几种双总体参数的检验,3.1、两总体均值的检验,正态总体方差已知或者大样本情形
14、,正态,方差未知,小样本情形,假定条件:1)两对比总体相互独立。2)两总体服从正态分布图。3)若不是正态分布,两者都是大样本也可用正态分布近似,3.2、两总体比率的对比检验,两个总体比率之差的检验规则,假定条件:np5,nq5,样本比率可用正态分布来近似(大样本),3.3、两总体比率的对比检验,两个总体方差比较的检验规则,假定条件:两个独立样本,且服从正态分布,三、方差分析,一、方差分析的问题引入,具体问题:公司各个BG都会受到消费者的投诉,这里想看下不同BG被投诉次数之间是否有明显的区别。问题分析:问题转化为分类型自变量对数值型的因变量是否有显著的差异。,1.1.方差分析的几个概念方差分析:
15、检验多个总体均值是否相等的统计方法,称为方差分析。因素:方差分析中所要检验的对象称作因素(上述问题中的BG就是因素)水平:因素的不同表现称为水平(到餐、到综、外卖、酒旅),1.2.方差分析思想归根结底,方差分析的思想就是把方差的来源拆分成不同来源,看分类型的变量对方差的影响程度。随机误差:在到餐BG中,我们随机抽取了七各月的投诉次数,由于这个过程中抽取的随机性造成的误差称为随机误差;来自水平内部的数据误差为组内误差(SSE),系统误差:由于不同BG的本身特性影响造成的误差称为系统误差; 来自不同水平之间的误差为组间误差(SSA),如果不同BG对投诉的次数无影响,那么组间的误差只有随机误差,而没
16、有系统误差。这是组间误差与组内误差经过平均后的值(均方误差或方差)应该接近,比值应该接近1;若不同BG对投诉次数有影响,那么组间误差中除了包含随机误差外还包含系统误差,这时组间误差平均后的均值就会大于组内误差平均后的均值,他们之间的比值就会大于1;当这个比例大到某种程度就认为不同的BG在投诉次数之间存在着显著差异。,1.3. 方差分析的基本假定1)每个总体都应该服从正态分布2)各个总体的方差西格玛2应该相同,也就是各组的样本数据是从具有相同方差的正态总体中抽取的3)观测值独立,也就是说不同BG下抽中的投诉次数与其他BG下抽中的投诉次数之间没有关系,2.1. 分析步骤1)提出假设:假设不同BG被
17、投诉的次数之间无差异当选择原假设或被择假设情况下的解释?2)构造检验统计量:,组内均方(服从自由度n-k的卡方分布),=478.7,二、方差分析,通过总平方和(SST)、组间平方和(SSA)、组内平方和(SSE)的计算方式知;SST的自由度为n-1,其中n为全部样本的数量;SSA的自由度为k-1,其中k为因素水平的个数,这里指4个BG;SSE的自由度为n-k, 总样本个数-BG个数由于主要是比较组间均方和组内均方之间的差异,所以通常计算SSA的均方和SSE的均方值所以构造检验统计量:3)统计决策:,组间均方(服从自由度n-1的卡方分布),根据给定的显著性水平,在F分布表中查找分子自由度df1=
18、k-1,分母自由度df2=n-k相应的临界值,若 则拒绝原假设H0,即 不成立,表明 之间存在显著差异,也就是说不同的BG对投诉次数是有显著影响的(这种情况与p等价)。,若 则不拒绝原假设H0,没有足够的证据表明 之间存在显著差异,也就是说,还不能认为所检验的因素(BG)B对观测值(投诉次数)有显著影响的(这种情况与p等价)。,上述结果只验证了部门对业务的投诉次数有影响,但具体哪两个部门之间的投诉次数有差异还需进一步的检验。,2.2. 方差分析中的多重比较多重比较法有多种,介绍下Fisher提出的最小显著差异法(LSD)第1步:提出假设 第2部:计算检验统计量 第3部:计算LSD, 其计算公式
19、为 为t分布的临界值,通过t分布表查得,自由度为(n-k),这里的k是因素中水平的个数,MSE为组内的均方值,ni, nj分别为第i组和第j组的样本容量。第4步:根据显著性水平做出决策,如果 LSD,则拒绝H0; 如果 158, 所以拒绝原假设,即外卖和酒旅的服务对投诉的次数有显著的差异。,四、一元回归分析,一、变量间的关系,相关关系:变量间存在的不确定的数量关系。譬如,用户数与交易额、工资与消费水平、子女和父母的身高等不确定的关系函数关系:变量间存在的确定的数量关系。譬如,正方形的面积和边长、某种产品的销售额与销售量关系。变量之间相关关系的描述:1、可以通过散点图直观描述(不能从量上判别变量
20、之间关系的强弱),2、相关系数判别:相关系数:根据样本(总体)数据计算的度量两个变量之间线性关系强度的统计量。,一家商业银行在各地区设有分行,主要业务是基础设施建设,国家重点项目建设,固定资产投资项目贷款,近年来贷款额平稳增长,但不良贷款额也有较大增长,为弄清不良贷款额形成的原因,给出了一下几个可能的变量及对应的数值。,各变量与不良贷款额之间的关系,相关系数的解释(线性相关系数/pearson相关系数):1)取值范围:2)r的对称性3)r的大小与与x,y的原点及尺度无关4)虽有关系度量,但不一定有因果关系 可通过样本和统计量检验几个变量之间是否存在显著的相关性。回归分析的必要性?相关分析目的:
21、测量变量之间的关系强度回归分析目的:考察变量之间的数量关系,通过数学表达式确定一个或几个变量的变化对其他特定变量的影响程度。具体解决的问题:确定出变量之间的数学关系式,对这些关系式的可信程度进行统计检验,并从众多变量中找出主要的影响变量,利用有效的回归方程进行预测目的,并给出估计或预测的可靠程度。,二、一元线性回归,2.1.一元线性回归中几个概念,回归模型:描述因变量y如何依赖于自变量x和误差项的方程 ,为回归模型。 其中 反映了由x变化引起的y的线性变化; 称为误差项的随机变量,反映了除x和y之间线性关系之外 的随机因素对y的影响,是不能由x解释的部分;0、1称为模型的参数。,误差项应满足的
22、假设:1)误差项 是一个期望值为0的随机变量,所以有 。 2)对于所有x的值, 的方差 都相同,意味着对于特定x值y值的方差也为 3)误差是一个服从正态分布,且独立的随机变量,即,回归方程:描述因变量y的期望如何依赖于自变量x的方程 称为回归方程,或称为一元直线回归方程。,估计的回归方程:根据样本数据求出回归方程的估计 两个估计系数的含义?参数的估计:最小二乘法,2.2.实例应用现在想探究一下贷款对贷款余额的影响,将不良贷款作为因变量y,将贷款余额作为自变量x,建立模型通过最小二乘法,估计模型的参数值,得出,估计的回归方程为 意义解释。,2.3.模型的评价判定系数:回归平方和占总平方和的比例;
23、测量了回归直线对数据的拟合程度。,总平方和:回归平方和:残差平方和:,估计的标准误差:用来说明真实数据与估计的数据的真实差异程度,用均方误差平方根来表示。模型的显著性检验:1)线性关系检验:检验自变量x与因变量y之间的关系是否显著,或者说是变量之间能否用线性模型 来表示,用回归平方和(SSR)和残差平方和(SSE)构造检验统计量: 2)回归系数检验: 主要检验自变量对因变量的影响是否显著,一元回归中,若1=0,则回归线是一条水平直线, 则证明自变量对因变量无影响,表明y不能依赖于自变量x,即两者无线性关系,若1!=0也不能说明变 量之间存在线性关系,要看这种关系是否有统计意义上的显著性,回归系数的检验就是检验系数1是 否等于0。,构造检验统计量: 所以这里拒绝1=0的原假设。线性关系检验与回归系数检验的关系:F检验是检验总体回归关系的显著性,而t检验是检验回归系数的显著性。,在模型中有一个点的标准化残差特别高,可以单独的可以下这个数据出现异常的原因。,1)误差项 是一个期望值为0的随机变量。 2)对于所有x的值,方差 都相同。 3)误差是一个服从正态分布,且独立的随机变量 即,残差分析:,Q-Q图显示,误差项基本服从正态分布,