《Unit4分析 4.9 相关回归.ppt》由会员分享,可在线阅读,更多相关《Unit4分析 4.9 相关回归.ppt(52页珍藏版)》请在三一办公上搜索。
1、分析(Analyze)阶段,相关回归(Correlation&Regression),Define,Measure,Analyze,Improve,Control,Step 8-Data 分析,Step 9-Vital Few X的选定,Multi Vari Central limit Hypothesis testing Confidence interval ANOVA,T-test Chi-square Correlation,regression,Step 7-Data 收集,路径位置,目的,定义并计算相关系数 讨论相关性及因果关系 绘制并分析拟合直线图介绍回归分析的基本知识使用回归分
2、析技术建立数学预测模型,X和Y数据类型研究,Y 是什么?_ 数据类型?_,X 是什么?_ 数据类型?_,你将使用哪种工具?_,设计小组想了解引擎寿命与车辆重量有无关系,分析路线图(单一 X:单一 Y),X Data,离散,连续,Y Data,离散,连续,Chi-Square,Logistic Regression,T test/ANOVAMeans/Medians Tests,Regression,相关(Correlation):是什么?,“相关”为什么如此重要?你是否经历过测量某些产品合格后送给顾客,但他们 告诉你你的产品不符合规格?在奥运会滑冰比赛上,你认为两个裁判成绩的相关性 有多高?,
3、这两张图有何不同?,“+”相关的强度与趋向,“-”负相关的强度与趋向,相关系数(r)的确认,有几种方法可以决定 r 值相关研究拟合直线图回归分析让我们一一探讨各个方法,打开文件 Correlation.MPJ 中的工作表 Correlation Example依据产品特性,确定 Customer 与 Supplier 之间的相关性,相关性分析,既然我们使用统计检验方法,则“假设”需被检验!Ho:没有相关存在 Ha:有相关存在若p值大于 0.05,即接受 Ho,亦即 X 与Y 之间没有相关存在;若p值小于0.05,则 Ho 被拒绝且 Ha 将被接受,亦即有相关存在,相关性分析,结果:Correl
4、ation Example相关:Supplier,Customer Supplier 和 Customer 的 Pearson 相关系数=0.834 P值=0.000,结果显示在对话窗中注意,我们得到相关系数及P值你对 Supplier 和 Customer 之间的关系有何见解?,相关性分析,r 应该多大?,依样本大小,若所得的相关系数比表中的值大,则可视为“重要”或统计显著,r 应该多大?,勿需担心此表,Minitab 可以帮助我们在“相关”程序中选取 显示 p 值 选项,Minitab 将会显示是否显著寻找比 0.05 小的 p-值,在1930 1936 年间,曾有人跟踪德国城镇 Olde
5、nburg 的人口与鹳鸟数量之间的关系结果如下(人口以千为单位),显然,鹳鸟送来了婴儿!?,相关举例,相关(Correlation)直线倾向(正或负)斜率:直线角度其测量值为 r,回归(Regression)回归预测方程其测量值为 R2残差分析线性,二次或三次拟合,最佳拟合直线,相关与回归,回归的定义/术语,回归分析 是一种用于分析变量间相关性的统计工具。在统计课程中通常被称为:“计算最佳拟合直线”本课程将讨论简单回归分析,其探讨对象为单一连续Y 与单一连续X的关系下列术语可经常交换使用:回归方程式*回归线 预测方程式 预测线 模型,回归,分析路线图,规划分析內容,收集数据,利用 Minita
6、b 绘制 拟合直线图,评估 R2和 P 值的显著性,评估残差,制订决策,分析路线图,范例:brake.mtw,进行21次速度测试,你对此数据有何看法?,拟合直线图,我也想对相关性进行检验,并观察线性关系和数据点的之间的拟合性使用 Fitted Line Plot 选项来看此关系,提供视觉化图表和方程式,拟合直线图,Minitab:输出结果,Y=182.807+.476288x该线性方程为Y=m(x)+bm=直线斜率b=截距该方程给我们一个对能力的估计值注意 R2=.695稍后将作详细讨论,一些基础知识回顾,Y 截距,斜率,(,),Y,m,X,b,=,+,中学代数所学的方程式,在回归中,以 b0
7、 和 b1 表示,使用回归方程:內推法与外推法,Y=182.807+.476288 x,例:若速度测量值为 400,我们对刹车距离的合理估计值应该是多少?例:若速度测量值为 1000,我们对距离的合理估计值应该是多少?例:若速度测量值为 0,我们对距离的合理估计值应该是多少?,此拟合直线从何而来?,Minitab 将找出一条直线,使各点至该直线的距离为最小.,*,拟合线,实际数据点,实际点与直线的距离,输入变量(X),输出变量(Y),拟合直线图:预测带,置信区间 Confidence Interval:代表基于系数 b0 及 b1 的置信区间预测区间 Prediction Interval:给
8、定X,在单一测试中Y有95%的可能性会落在预测带内,拟合直线图:预测带,R2:其意义是什么?,R2 与P 值,有助于我们基于统计作决策。R2 被称为决定系数(coefficient of determination)R2 值代表“多少”输出变异总量可由回归模型所解释,其值介于 0 到 1(0%到 100%)之间。此值越高表示该模型的可信度越高,R2,100%,0%,R2:值大小应为多少?,视分析对象而定 就像安全系统或文件夹例如,排放废气系统实验的结果将送交交通部审查,你的数值应该“好”到什么程度?不同的课题决定不同的决策标准(通常为+60%)。我们必须认识到 R2 越高相关性就越强。,还记得
9、 ANOVA 及我们对 X 显著性的看法吗?,区分变异的来源,生产周期的所有变异,周间的变异,周內的变异,=,+,对CycleTim的方差分析来源 自由度 SS MS F PWeek 3 1032.48 344.16 299.38 0.000Error 96 110.36 1.15Total 99 1142.84,SS 或 Sum of the Squares 将数据的变异量化 通过计算 Epsilon2 值,来检验X 实际的显著性 此值告诉我们有多少总变异可被 X 所解释Epsilon 2=90.34%,SS for X1032.48SS Total1142.84,还记得 ANOVA 及我们
10、对 X 显著性的看法吗?,ANOVA 与回归有什么关系?,SSE(Sum of Squares due to the Error)目标:最小化此值,SST(Sum of Squares Total),SSR(Sum of Squares due to the Regression),总变异=群内变异+群间变异,解释时,请使用可靠的判断,理解R2,R-Squared.80 相关可能显著R-Squared.50 且.80 需要判断R-Squared.50 相关可能不显著,0,1,相关可能不显著,0.8,0.5,相关可能显著,需要判断,即:有多少比率的 Y 变异可归因于与 X 的关系,SpeedDi
11、stanceRESI1FITS1 336325-17.8392342.839,残差与拟合值:它们是什么?,拟合线,336,325,实际数据点,残留距离(-17.8392),理论点,SpeedDistanceRESI1FITS1336325-17.8392342.839418375-6.8948381.89535536715.1113351.889445385-9.7546394.75536537518.3484356.652455395-4.5175399.51739539524.0598370.940405365-10.7031375.7033463557.3979347.60.,Minit
12、ab:更多的输出结果,残差与拟合值,数据应该通过“Fat Pencil Test”(粗铅笔检测),残差分析,数据分布应趋近于正态曲线,数据应该受控,探讨异常点,数据应呈现无规则状,残差分析,为什么进行残差分析?,关键的回归假设基于残差(而不是原始数据)的属性。我们假设残差:与 X 无关稳定而且独立,不随时间变化是常量,不随预测的 Y 增加而增大是正态的(钟形的),平均值为 0,是否总是线性关系?,打开工作表 Multiwet.mtw执行 Fitted Line Plot 并假定 Y=WetPU 且 X=ol_ph,R2=27.2%是该关系的正确评估吗?,你可利用二次或三次方程,得到较合适的拟合
13、线 中学代数 y=3+4x+2x2在讨论温度或压力数据值时,常看到此关系,R2 值由 27%增加到 79%,多项式回归分析:wet_pu 与 ol_ph 回归方程为wet_pu=-11.42+8.405 ol_ph-1.113 ol_ph*2S=0.0911530 R-Sq=79.5%R-Sq(调整)=78.7%方差分析来源 自由度 SS MS F P回归 2 1.54843 0.774213 93.18 0.000误差 48 0.39883 0.008309合计 50 1.94725方差的序贯分析来源 自由度 SS F P线性 1 0.53021 18.33 0.000二次 1 1.0182
14、2 122.55 0.000,注意,在此我们检验多个假设我们如何计算 Epsilon2值?,小测验,1)下列哪组数据适于应用相关和回归分析?顾客类型与销售量顾客大小与利润 月与库存2)解释下页图表的意义A)Wet_pu 与sl_vi 之间有无关系B)其关系为正向还是负向?C)若sl_vi 为 47.3,预测 Wet_pu 的值为多少?3)是/非:若能确立 X 与 Y间的相关性,我就可以认为 Y 的变化是由 X 所引起的?,陈述因果关系应该小心,即使我们建立了 y 与 x 的相关性,但并不能代表 x 的变异将一定导致 y 的变异。其他潜在的变量,可能造成 x 与 y 的改变。,研究指出,医院规模
15、增加,病人死亡率亦显著提升。这么说来,我们应该避免去大型医院就诊吗?,回归问题探讨:X 丢失,回归问题探讨:研究范围过于狭窄,0 1 2 4 5 X=车龄,Y=售价,车辆价格,车龄,现在看来应该如何?,0 1 5 10 15 20 25 30 35 40 45 50,回归问题探讨:研究范围过于狭窄,给BB的提示,在某些合适的条件下,计数型数据亦能利用此工具达成良好成效。请试用R2值不需要是“完美的”_,回顾,定义并计算相关系数 讨论相关性及因果关系 绘制并分析拟合直线图介绍回归分析的基本知识使用回归分析技术建立数学预测模型评审回归分析的风险,所有模型都是错误的,但其中有一些是有用的。George Box,