多元回归分析导论课件.ppt

上传人:小飞机 文档编号:3787158 上传时间:2023-03-21 格式:PPT 页数:95 大小:1.35MB
返回 下载 相关 举报
多元回归分析导论课件.ppt_第1页
第1页 / 共95页
多元回归分析导论课件.ppt_第2页
第2页 / 共95页
多元回归分析导论课件.ppt_第3页
第3页 / 共95页
多元回归分析导论课件.ppt_第4页
第4页 / 共95页
多元回归分析导论课件.ppt_第5页
第5页 / 共95页
点击查看更多>>
资源描述

《多元回归分析导论课件.ppt》由会员分享,可在线阅读,更多相关《多元回归分析导论课件.ppt(95页珍藏版)》请在三一办公上搜索。

1、Ming-chi Chen,社會統計,Page.1,中級社會統計,第十三講複迴歸分析,Ming-chi Chen,社會統計,Page.2,複迴歸分析,前面我們學到只有一個自變項的簡單迴歸分析我們知道一個地區的人均病床數會影響到該地區的平均餘命我們也知道一個地區的人均教育支出會影響該地區的平均餘命但是如果教育支出相等的條件下,醫療資源的多寡會不會影響平均壽命?兩者孰輕孰重?控制的概念(在其他條件不變的情況下),Ming-chi Chen,社會統計,Page.3,複迴歸分析,研究兩個或兩個以上的IV對DV的影響的分析方式,稱為複迴歸分析(multiple regression analysis)又

2、稱多元迴歸分析迴歸方程式,Ming-chi Chen,社會統計,Page.4,多元迴歸Multiple Regression Models,統計成績與努力(所花時間)的關係如下:,觀念,Ming-chi Chen,社會統計,Page.5,多元迴歸Multiple Regression Models,兩者的迴歸線:,觀念,Ming-chi Chen,社會統計,Page.6,多元迴歸Multiple Regression Models,將學生對於數理科目的興趣納入考量發現:,觀念,x2=30,x2=20,x2=10,Ming-chi Chen,社會統計,Page.7,多元迴歸Multiple Re

3、gression Models,如果我們針對具有相同興趣水準的學生來考量努力與成績的關係,則可以分別用三個迴歸線來表達:,觀念,Ming-chi Chen,社會統計,Page.8,多元迴歸Multiple Regression Models,這三條線的斜率似乎沒有原本迴歸線來得大,表示努力與成績的關係有一部份是受到興趣的干擾(confounding):有興趣的學生通常花比較多的時間,觀念,Ming-chi Chen,社會統計,Page.9,多元迴歸Multiple Regression Models,此時利用多元迴歸比簡單迴歸可以算出三條簡單迴歸的平均斜率。,觀念,Ming-chi Chen,

4、社會統計,Page.10,多元迴歸Multiple Regression Models,多元迴歸用來分析一個以上自變數對於依變數的影響,可以看出其他變數不變(常數)的條件下,某一個變數對於依變數產生的淨影響為何?,觀念,Ming-chi Chen,社會統計,Page.11,Partial Derivative偏微分觀念,觀念,經濟學說我們對於某商品的需求量與價格及所得有關:,在所得不變的條件下,商品價格x1變動,對於需求量y有何影響?,Ming-chi Chen,社會統計,Page.12,Partial Derivative偏微分觀念,觀念,假設所得固定為100,,因為價格變動所造成的商品需求

5、變動可以表為:,帶入原來的函數:,Ming-chi Chen,社會統計,Page.13,Partial Derivative偏微分觀念,觀念,如果我們將x1切割成很小的單位,則每個極小單為的變動所造成的q變動為:,在x2不變(保持恆定)的情況下,x1的變動所造成y的變動,Ming-chi Chen,社會統計,Page.14,Partial Derivative偏微分觀念,觀念,X2所得,X1價格,y需求,三個以上的自變數在三度空間上無法表達。,二個自變數的多元迴歸分析在於設法找出最合適資料分佈的一個平面。,Ming-chi Chen,社會統計,Page.15,多元迴歸的參數推估,求多元迴歸x1

6、與x2的係數?,我們可以將所有的觀察值y視為x1與x2的線性函數加上誤差值e,多元迴歸的預測值可以表為:,Ming-chi Chen,社會統計,Page.16,The Normal Equation,觀念,X2所得,X1價格,y需求,求使e2最小的平面,Ming-chi Chen,社會統計,Page.17,The Normal Equation,觀念,求 Minimum Q?將(1)式分別對a,b1,b2做偏微分,再將所得之方程式設為零,然後求解聯立方程式即可求得最小值。,Ming-chi Chen,社會統計,Page.18,The Normal Equation,觀念,e總和為零,e與x1及

7、x2不相關(uncorrelated),Ming-chi Chen,社會統計,Page.19,Basic Rules for Differentiation,Rule 8:the chain rule,複習,Ming-chi Chen,社會統計,Page.20,Example of chain rule,複習,Ming-chi Chen,社會統計,Page.21,微分求迴歸係數,Ming-chi Chen,社會統計,Page.22,Ming-chi Chen,社會統計,Page.23,The Normal Equation,觀念,Ming-chi Chen,社會統計,Page.24,The N

8、ormal Equation,觀念,Sum,Average,Ming-chi Chen,社會統計,Page.25,The Normal Equation,觀念,Sum,Average,Ming-chi Chen,社會統計,Page.26,The Normal Equation,觀念,迴歸平面通過中心點:,Ming-chi Chen,社會統計,Page.27,Normal Equations in Reduced Form,觀念,若將所有變數都以離均值來表示,求b1,b2等於:,Ming-chi Chen,社會統計,Page.28,Normal Equations in Reduced Form

9、,觀念,解聯立方程式:,Ming-chi Chen,社會統計,Page.29,Normal Equations in Reduced Form,觀念,解聯立方程式:,Ming-chi Chen,社會統計,Page.30,觀念,Ming-chi Chen,社會統計,Page.31,一般化迴歸模型的假設條件,依變數Yi為隨機變數,自變數(Xi,i=1,k)為預先選定的變數。Zero Mean:E(ei)=0Homoscedasticity:e2 is the same for all value of independent variable.Normality:ei為常態分配No serial

10、correlation:E(eiej)=0,i jIndependent of ei and xij:E(eixij)=0,Ming-chi Chen,社會統計,Page.32,一般化迴歸模型的假設條件,No perfect multicollinearity:it is not possible to find a set of numbers c0,c1,ck such that,樣本數nk+1,在複迴歸模型若有k個自變數,則有k+1(包括截距)個迴歸參數,此時利用樣本來估計迴歸參數時,樣本數必須大於k+1個。,Ming-chi Chen,社會統計,Page.33,The General

11、Multiple Regression Model,b0,b1,bk are the least-squares estimates of 0,1,k that minimize the residual sum of squares:,The Gauss-Markov Theorem:If the basic assumptions hold:b0,b1,bk are the unbiased estimates of0,1,kb0,b1,bk have the minimum variances among the class of linear unbiased estimators,母

12、體迴歸線,樣本迴歸線,Ming-chi Chen,社會統計,Page.34,Estimated Standard Error of Regression,如同在簡單迴歸中,為了要做假設檢定,我們必須要估計e2。在簡單迴歸中,我們知道S2e=SSE/(n-2)為e2 的不偏估計式。同理,在複迴歸中,S2e=SSE/(n-(K+1)為e2 的不偏估計式。其中n為樣本數,(K+1)為所欲估計的未知數(即K個自變數加上一個常數項)。,Ming-chi Chen,社會統計,Page.35,Estimated Standard Error of Regression,SSE的一般性公式:,Ming-chi

13、 Chen,社會統計,Page.36,Partition of Total Sum of Squares,觀念,多元迴歸中,SST=SSR+SSE仍然成立,e與x1及x2不相關,Ming-chi Chen,社會統計,Page.37,Partition of Total Sum of Squares,觀念,SST=,SSE,+SSR,Ming-chi Chen,社會統計,Page.38,Sum of Square due to Regression,觀念,代入,以大寫字母來表示與平均值間的差異。,Ming-chi Chen,社會統計,Page.39,Sum of Square due to Re

14、gression,觀念,Ming-chi Chen,社會統計,Page.40,Coefficient of Determination R2,判定係數,用來衡量迴歸方程式的配合度或解釋力,Ming-chi Chen,社會統計,Page.41,Adjusted R square,如果樣本數小或自變項個數增加,會使自由度變小,因此判定係數R2 會高估。亦即在複迴歸模型中若不斷加入與模型無關的解釋變數時,R2會提高一些,不能代表迴歸模型的解釋能力。需要調整複判定係數(adjusted coefficient of multiple determination)主要調整的是自由度,Ming-chi C

15、hen,社會統計,Page.42,Adjusted R square,Ming-chi Chen,社會統計,Page.43,Adjusted R square,Ming-chi Chen,社會統計,Page.44,Adjusted R square,Ming-chi Chen,社會統計,Page.45,Measuring Goodness of fit,在複迴歸中,可利用檢定迴歸方程式中所有的自變數對於依變數Y是否有聯合的解釋能力:H0:迴歸方程式無解釋能力 0=1=2=K=0H1:迴歸方程式有解釋能力(不全為零),Ming-chi Chen,社會統計,Page.46,Measuring Go

16、odness of fit,Reject,Ming-chi Chen,社會統計,Page.47,Ming-chi Chen,社會統計,Page.48,部分迴歸係數的F檢定,檢定新增的IV對DV是否有影響設原複迴歸模型有k個IV,新增Q個IV,欲檢定新增的Q個IV是否對DV有影響,H0:k+1=k+2=k+Q=0H1:H0不為真,Ming-chi Chen,社會統計,Page.49,個別迴歸參數的檢定,由樣本估計出來的迴歸係數必須接受統計檢定,以了解母體參數的真實性質(從樣本得到這樣的係數,是否意味著母體參數不為零)。若母體迴歸變異數2已知,則利用Z分配進行檢定或區間估計。但如果2未知,用樣本變

17、異數S2Y|XZ(也就是Se2)來代替,進行t檢定。,Ming-chi Chen,社會統計,Page.50,樣本誤差值變異數Se2,Ming-chi Chen,社會統計,Page.51,二元迴歸係數的變異數,Ming-chi Chen,社會統計,Page.52,假設檢定,迴歸係數檢定所要檢定的假設,Ming-chi Chen,社會統計,Page.53,迴歸係數的t檢定,Ming-chi Chen,社會統計,Page.54,Stata複迴歸結果,=,=,=,/,/,/,Ming-chi Chen,社會統計,Page.55,Confidence Intervals and tests of hyp

18、otheses,每一個之95%信賴區間:,自變數個數,Ming-chi Chen,社會統計,Page.56,Stata複迴歸結果,Ming-chi Chen,社會統計,Page.57,複迴歸分析的統計預測:預測母體依變項的平均值信賴區間,Ming-chi Chen,社會統計,Page.58,複迴歸分析的統計預測:預測母體依變項的信賴區間,Ming-chi Chen,社會統計,Page.59,Stata求預測值,Ming-chi Chen,社會統計,Page.60,Stata求預測值,Ming-chi Chen,社會統計,Page.61,預測母體依變項平均值的信賴區間,在Stata裡用predi

19、ct 新變數名稱,stdp這個指令來求對應數值。,predict stderr,stdp,Ming-chi Chen,社會統計,Page.62,母體預測值平均E(Y|X)或y的95信賴區間,先求出t值,要知道自由度在31-328下,=0.05的t值。在Stata中,用invttail(28,.05/2)generate yhatll=yhat-stderr*invttail(28,.05/2)這是信賴下界generate yhatul=yhat+stderr*invttail(28,.05/2)這是信賴上界,Ming-chi Chen,社會統計,Ming-chi Chen,社會統計,Page.

20、63,Stata中求對應特定Xp預測母體值的標準差,Ming-chi Chen,社會統計,在Stata裡用predict 新變數名稱,stdf這個指令來求對應數值。這裡和前面略有不同。,predict stderrf,stdf,Ming-chi Chen,社會統計,Page.64,母體預測值Y-hat的95信賴區間,先求出t值,要知道自由度在31-328下,=0.05的t值。在Stata中,用invttail(28,.05/2)generate yhatllf=yhat-stderrf*invttail(28,.05/2)這是信賴下界Generate yhatulf=yhat+stderrf*

21、invttail(28,.05/2)這是信賴上界,Ming-chi Chen,社會統計,Ming-chi Chen,社會統計,Page.65,複迴歸模型中解釋變數的相對重要性,複迴歸模型中,各個IV的相對重要性國家在教育上的投入(0.0045)還是人口數目(0.00049)對中國各省市的平均餘命的影響比較重要?迴歸係數不能直接比較。因為單位不同。,Ming-chi Chen,社會統計,Page.66,複迴歸模型中解釋辨識的相對重要性,我們可以用標準差來把迴歸係數化成同樣單位標準化的迴歸係數又稱為beta-coefficientsIV變動一個標準差,DV變動的標準差數。,Ming-chi Che

22、n,社會統計,Page.67,Stata求標準化迴歸係數,Ming-chi Chen,社會統計,Page.68,Stata求標準化迴歸係數,哪一個IV影響比較大?,Ming-chi Chen,社會統計,Page.69,虛擬變數Dummy Variables,在迴歸方程式中,我們假設所有的變數皆為連續變數。如果遇到名目尺度變數,我們可以用虛擬變數來進行分析。虛擬變數(D)又稱為類別變數(categorical variables),通常以(0,1)來區別類別。如男性D=1,女性D=0,觀念,Ming-chi Chen,社會統計,Page.70,虛擬變數Dummy Variables,虛擬變數可以

23、用來比較下列效果:Temporal effect時間效果:戰時vs.平時,顛峰vs.非顛峰,假日vs.週間 Spatial effects地區效果:都市vs.鄉村Qaulitative variables質性變數:已婚vs.未婚,男性vs.女性,白人vs.非白人Broad groupings of qualitative variables化約變數。,觀念,Ming-chi Chen,社會統計,Page.71,虛擬變數Dummy Variables,Base case比較基底(或reference group參考組)當虛擬變數為0時的所有觀察值。因此虛擬變數的迴歸係數衡量比較基底與非比較基底兩

24、群樣本之間的差異。,觀念,Ming-chi Chen,社會統計,Page.72,虛擬變數Dummy Variables,觀念,Ming-chi Chen,社會統計,Page.73,虛擬變數Dummy Variables,觀念,當D=0時,,當D=1時,,Ming-chi Chen,社會統計,Page.74,虛擬變數Dummy Variables,Y,X,教育年數,家務時數,Ming-chi Chen,社會統計,Page.75,Stata與虛擬變數,打開85q1-family.dta依變項為j2,注意缺失值定義和每週家務工作168小時的轉換(112小時)在Stata裡產生虛擬變數以a1受訪者的性

25、別為例tab a1,gen(sex)這裡逗點之後的gen就是要求Stata從a1來產生一個名叫sex1(原本是a1=1男生)和sex2這兩個虛擬變數當然我們只需要用到sex1,而把女生當作對照組還有用婚姻狀態a5產生wed1(未婚)這個虛擬變數(把a5=3定義為缺失)我另外用eduy這個關於教育年數(小學及以下為6,初中9,高中12,大專及以上16)的連續變數。作法是generate eduy=6 if b1=1,Ming-chi Chen,社會統計,Page.76,Stata與虛擬變數,sex1=1為男生,sex1=0是對照組女生,Ming-chi Chen,社會統計,Page.77,Sta

26、ta與虛擬變數,Ming-chi Chen,社會統計,Page.78,虛擬變數的推論統計,包括男性這個虛擬變數在內的所有變數的迴歸係數都顯著,可以拒絕虛無假設(係數等於零),Ming-chi Chen,社會統計,Page.79,虛擬變數Dummy Variables,觀念,當男性=0時(女性),當男性=1時(男性),Ming-chi Chen,社會統計,Page.80,虛擬變數Dummy Variables,Ming-chi Chen,社會統計,Page.81,兩個虛擬變數的迴歸,Ming-chi Chen,社會統計,Page.82,兩個虛擬變數的迴歸,未婚男性,未婚女性,已婚男性,已婚女性,

27、Ming-chi Chen,社會統計,Page.83,兩個以上類別的虛擬變數,當所欲比較的類別超過兩個時,必須在迴歸方程式中加入K-1個虛擬變數,K為類別數。,Ming-chi Chen,社會統計,Page.84,兩個以上類別的虛擬變數,當所有的類別虛擬變數為0時,為比較基底組(參考組)的迴歸線。,Ming-chi Chen,社會統計,Page.85,族群虛擬變數的推論統計,族群的虛擬變數都未達顯著水準,可見得對家務時數沒有影響。,Ming-chi Chen,社會統計,Page.86,比較基底組的選擇,究竟哪一組當作比較基底最好沒有一定的答案,一般的選擇原則為:(1)最大人數組為基底。(2)不

28、要以其他類別為基底。(3)人數過少的組別不要當基底。(4)同質性最高的為基底,即標準差最小的組。,Ming-chi Chen,社會統計,Page.87,Interaction with dummy variable,另外一種常見的非線性關係稱為交互作用(interaction)。,在線性迴歸模型中,每一個自變數對於依變數的影響為固定的,每單位X1的變動,永遠造成B1單位Y的變動。但有時候x在不同情況下,可能對Y的影響大小並不同。,Ming-chi Chen,社會統計,Page.88,Interaction with dummy variable,所謂交互作用,指的是x1對y的影響,決定於x2的

29、數值。或者說在不同的x2水準下,x1對Y有不同的影響。現實世界中常有類似的交互作用出現:例如學歷對於收入的影響決定與個人的聰明才智(聰明人較能發揮學歷的效用)年資對於薪資的影響在公務員、醫生、農人等不同職業類別中並不相同。,Ming-chi Chen,社會統計,Page.89,Interaction with dummy variable,欲測試x1,x2是否存在交互作用,僅需將x1及x2兩變數相乘後放入模型中即可。,若x1,x2存在交互作用,則B3的統計檢定會顯著不同於零。,Ming-chi Chen,社會統計,Page.90,虛擬變數Dummy Variables+交叉,觀念,當D=0時,

30、,當D=1時,,Ming-chi Chen,社會統計,Page.91,虛擬變數Dummy Variables+交叉,產生交互作用項,到達顯著水準,Ming-chi Chen,社會統計,Page.92,男女不同的教育效果,Ming-chi Chen,社會統計,Page.93,男女不同的教育效果,斜率和截距都有所不同,Ming-chi Chen,社會統計,Page.94,Models involving polynomials,在迴歸方程式中,有時自變數以二次項(parabola)或三次項(cubic polynomial)的型態出現。,X,年資,收入,Ming-chi Chen,社會統計,Page.95,Models involving polynomials,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号