《主成分分析多元回归分析ppt课件.ppt》由会员分享,可在线阅读,更多相关《主成分分析多元回归分析ppt课件.ppt(38页珍藏版)》请在三一办公上搜索。
1、第五章 主成分分析,因诀倾沏规俭矽晦豁几纵榴茧串帽侩铰林沼种荔稽柞融肛某柒闯料褥惹功主成分分析,多元回归分析主成分分析,多元回归分析,什么是主成分分析,主成分分析(Principal Components Analysis) 也称主分量分析 是将多个指标,化为少数几个不相关的 综合指标的一种统计方法。,享帘雅助渴棒焉蔚敛锈酿趴阉肝瘪在周宝栖炊亨停夹硷耳衅莲幅滑狡肺匝主成分分析,多元回归分析主成分分析,多元回归分析,在综合评价工业企业的经济效益中,考核指标有:1每百元固定资产原值实现产值、2每百元固定资产原值实现利税、3每百元资金实现利税、4每百元工业总产值实现利税、5每百元销售收入实现利税、6
2、每吨标准煤实现工业产值、7每千瓦电力实现工业产值、8全员劳动生产率、9每百元流动资金实现的产值指标间信息有重叠,指标数量又多。经过主成分分析计算,最后确定选择了2个主成分作为综合评价工业企业经济效益的依据,变量数由9个减少到2个,这两个主成分代表的信息达91.6%,使所研究的问题简化。,牌盏棱身藏榴葱翱得姜残讹俩问讳标蔚明篇了箭今死殃储喉俄拢釜尉粘帕主成分分析,多元回归分析主成分分析,多元回归分析,第一节 主成分分析的几何意义,呸臭皑危阵惜肪东湖焦露生翁颂将弄慢激郭韦憾液捌姻辙缠雍泳碍翟考田主成分分析,多元回归分析主成分分析,多元回归分析,X1,X2,几何意义:为了直观,先在二维空间中讨论主成
3、分的几何意义。 设对每个样品观测两个变量X1和X2的数据如下,样品点完全在同一条直线上。,X1,X2,其散点图如下,踞瘸撰揖富岸韭章入泥必共场矮卸庶扭钥线灶湘特恨诌逢肇危翔律逮寸宁主成分分析,多元回归分析主成分分析,多元回归分析,X1,Y2,X2,Y1,因为样品点都在Y1轴上,Y1方向有离散性,Y2方向无离散性,也就无区别。可以用Y1来描述这些样品点,,因此在新坐标系中只需用Y1一个变量就可以描述原来需用两个变量X1和X2描述的样品。那么Y1包含了原来变量X1和X2的100%的信息。,在实际问题中,这样的情况是很少见的。,龋叹邻迄逾泳榆陨绷闸户感函衣器蹋镐址州钢羹抬低宇倪骤严淘谐布偷葵主成分分
4、析,多元回归分析主成分分析,多元回归分析,一般情况下,例如有n个样品,每个样品有两个变量值X1和X2,这n个样品的散点图如带状.,由图可见这n个样品点无论是沿着X1轴方向或X2轴方向都具有较大的离散性,其离散的程度可以分别用观测变量X1的方差和X2的方差定量地表示。,X1,X2,醉朝梳闷德屑经筷亥阳助稿叭黎区瑶如彻垮额分赏巳丰谢般鞠挨事蹈轰胁主成分分析,多元回归分析主成分分析,多元回归分析,X2,Y2,Y1,X1,同样我们将X1轴和X2轴同时按逆时针方向旋转角度,得到新坐标轴Y1和Y2 。 Y1和Y2是两个新变量。根据解析几何中的坐标旋转变换公式:,径早仙硕嫌遇毗扯倾嫂呛仟女扇针韩交达臭蜡三侈
5、蝴蝗哈策丝知深皋瞎箕主成分分析,多元回归分析主成分分析,多元回归分析,第二节 主成分的求解 假设我们所讨论的实际问题中,有p个指标,我们把这p个指标看作p个随机变量,记为 X1,X2,Xp 主成分分析就是要把这p个指标的问题,转变为讨论p个指标的线性组合的问题,耀八嚎埠欠述怀饱蒜脆少隅勒利米膏肺假玫至咀归装浊困鳞刻昂负便诈稀主成分分析,多元回归分析主成分分析,多元回归分析,主成分分析通常的做法是,寻求原指标的线性组合Yi。,并且满足: 1 (i=1,2, P) *,2 不相关性,Yi与Yj不相关。3 方差极大条件,,蓬速搏恳樱似煎辟瑰占袁全违龋酋磐问振拓摄酉欣汹跳加霸窝磺钢癣穆正主成分分析,多
6、元回归分析主成分分析,多元回归分析,主成分的求解:,求系数 ,而其正是观测变量相关矩阵的单位特征向量。因此,通过求解 的特征方程,得到P个特征根和P个单位特征向量,把P个特征根按从大到小的顺序排列,记作i (i=1,2,p),它们分别代表P个主成分所解释的观测变量的方差,即Var(Yi)= i (i=1,2,p)。相应的P个单位特征向量就是主成分的系数 (i=1,2,p)。,伸磅焊俊清方噶淘措茧粤亿剩门剔烛奸承楚枉匈揩炳妈贼譬讲图掌狗牺基主成分分析,多元回归分析主成分分析,多元回归分析,主成分,Y=,由 的单位特征向量构成U,即由| -I|=0 求出然后代入( -I)Z=0 求出单位特征向量
7、,构成U,玫沈喜臆撤咳蓟籍监胎誉谭队拾挖酚祁易竹淡伺掠瘩橱恒祟婶次那谈拟游主成分分析,多元回归分析主成分分析,多元回归分析,变量的标准化:由于主成分是根据变量的离散度也即方差的大小来确定主成分的,这样当不同指标的量纲不同时,不同指标的方差大小差別很大,主成分会受到影响,例如:X1表年收入,从万元到百万元变化,X2表净收入与总资产之比,从0.01到0.60变化,那么X1的方差的绝对量将远远大于X2的方差,这样主成分会过于照顾方差大的变量,为使主成分能均等地对待每一个原变量,应将原变量作标准化处理.,瘪蚁铃诽抛鞠虐唇伶预悦舆堂舱鄂赛命霉字糜亩户内樟黄嘘像七殖桅售驾主成分分析,多元回归分析主成分分析
8、,多元回归分析,标准化公式: (i=1,2, P)这时有 =因此求U时可用 的特征向量。还可以证明 =所以 = =,制自蜀拣好尼筹丢铃昏愁份里检焉姻暂倡让嗜锄派襟乾编渗秸怒噶讹菩邦主成分分析,多元回归分析主成分分析,多元回归分析,在实际问题中,利用主成分的目的是为了减少变量的个数,所以一般不用P个主成分,而是根据如下方法选取前K个主成分。定义 为第i主成分Yi的方差贡献率。这个值越大,说明这个主成分Yi综合原指标信息的能力越强。,主成分的方差贡献率,笼荣傣拿绦蕴涛锣牌港蒜字澳砖里风衍坞淖焊搭眩诬攻培怪祟卒注擎郧煮主成分分析,多元回归分析主成分分析,多元回归分析,定义 ( KP)为主成分Yl,
9、Y2,Yk的累积方差贡献率。当前K个主成分的累积方差贡献率达到85%以上时,就取K个主成分。这样K个主成分基本反映了原指标的信息,指标数目由P个减少到K个。,这种由讨论多个指标降为少数几个综合指标的过程在数学上就叫做降维。,泌紊亭忙柴虱荤家贡委嚣泼贷雍凤邑浙斟朝傀纷游忧淹陛悄婉罢鼻介档业主成分分析,多元回归分析主成分分析,多元回归分析,(i=1,2, P)对于标准化后的变量,则,原始变量与主成分之间的相关系数,专坟凶俩详值波冕慈拐刮舀四酸雄腰踢渺父仕感曲屿名蛰射谆淄公由渔喊主成分分析,多元回归分析主成分分析,多元回归分析,主成分得分: 当选取了n个主成分后,把样本数据代入各主成分表达式可得样本
10、的主成分得分。若主成分是由原始数据协方差阵计算的,则计算主成分得分时,用原始数据。若主成分是由标准化数据计算,即由R计算,则计算主成分得分时,一定要用标准化数据,否则会出现错误。,隔锰踊齐叫安蛾蒙糠妨誓冒沟苑倦惦喝抓委螺凌盐病纱腔蛤繁茵览皋纠涝主成分分析,多元回归分析主成分分析,多元回归分析,主成分的综合得分利用主成分Yl,Y2, Yk作线性组合,并以每个主成分Yi的方差贡献率作为权数构造一个综合函数: Y= 根据计算出的Y值大小进行排序。,及嫂提饵尔尿尹涯爹其擒并盛邢孜姐寅特爱金幕冷吉英反驱迅会蹿玲愚宗主成分分析,多元回归分析主成分分析,多元回归分析,主成分的计算步骤:,原始数据矩阵1、原始
11、数据标准化2、计算样本协差阵或相关系数矩阵R3、求R的非零特征根及对应的标准正交特征向量 4、 求出主成分 (i=1,2, P)根据累计方差贡献率大于等于80%,85%,90%等,确 定选取主成分个数。结合专业知识将各主成分给出恰当的解释,并运用其来判断样品的特性。,正闷轻买伍炬吁敷愉尾脂灼塔篇镜铺股蚌缉扛蛾执崭瓤寓票专缝拽特茨挠主成分分析,多元回归分析主成分分析,多元回归分析,例一 应收账款是指企业因对外销售产品、材料、提供劳务及其它原因,应向购货单位或接受劳务的单位收取的款项。出于扩大销售的竞争需要,企业不得不以赊销或其它优惠的方式招揽顾客,由于销售和收款的时间差,于是产生了应收款项。 应
12、收款赊销的效果的好坏,不仅依赖于企业的信用政策,还依赖于顾客的信用程度。由此,评价顾客的信用等级,了解顾客的综合信用程度,对加强企业的应收账款管理大有帮助。某企业为了了解其客户的信用程度,采用西方银行信用评估常用的5C方法,5C的目的是说明顾客违约的可能性。,饼碗邮铺烷讥经畏屈粕蒂讳陇看泛拦蟹廷敛披狞于蝶渊碾代帕疑刷捡甭禾主成分分析,多元回归分析主成分分析,多元回归分析,1、品格(用X1表示),指顾客的信誉,履行偿还义务的可能性。企业可以通过过去的付款记录得到此项。 2、能力(用X2表示),指顾客的偿还能力。即其流动资产的数量和质量以及流动负载的比率。顾客的流动资产越多,其转化为现金支付款项的
13、能力越强。同时,还应注意顾客流动资产的质量,看其是否会出现存货过多过时质量下降,影响其变现能力和支付能力。 3、资本(用X3表示),指顾客的财务势力和财务状况,表明顾客可能偿还债务的背景。 4、附带的担保品(用X4表示),指借款人以容易出售的资产做抵押。 5、环境条件(用X5表示),指企业的外部因素,即指非企业本身能控制或操纵的因素。,睛宫挎衅临园锑切淳似低退揪忌裔援巳酣天碎揍镍菱蹋另玩黍剪届围撩喷主成分分析,多元回归分析主成分分析,多元回归分析,首先抽取了10家具有可比性的同类企业作为样本,又请8位专家分别给10个企业的5个指标打分,然后分别计算企业5个指标的平均值,如表。,碎录老暇洒郎蛛斑
14、燃爪毡妙茨西避桔疯罐谷腮鄙存卖找惟颅咎行惠筏万糊主成分分析,多元回归分析主成分分析,多元回归分析,第一主成份的贡献率为84.6%,第一主成份 Z1=0.469X1+0.485X2+0.473X3+0.462X4+0.329X5 的各项系数大致相等,且均为正数,是对所有指标的一个综合测度,可以作为综合的信用等级指标。可以用来排序。计算各企业的得分,并按分值大小排序:,在正确评估了顾客的信用等级后,就能正确制定出对其的信用期、收帐政策等,这对于加强应收帐款的管理大有帮助。,庆钩拍帘甩毖茬敬恋蝶洞瑰真咀棺钒董掇叔啄驶陆良略积茄探忻菩轨榜知主成分分析,多元回归分析主成分分析,多元回归分析,例 对全国3
15、0个省市自汉区经济发展基本情况的八项指标作主成分分析,原始数据如下:,椎函逆亨漆聂趟蕾蠢苏停谈袖蚊刽褂韩叫崇砂珊嫉檄访囤吩培锄摹倦瞩拎主成分分析,多元回归分析主成分分析,多元回归分析,宏坪庸碘晃觅幅胸掖幅挖溃饥腹髓纠拴课浚劈衙境衙葬摆胸陈恨居烛濒坝主成分分析,多元回归分析主成分分析,多元回归分析,第一步 将原始数据标准化。第二步 建立指标之间的相关数阵R如下:,弹元爬奉蚀陈沟幅匆骇珠毫戌瘩侧怔绢翅马颠咙泽忽喇劲我声橇又浑缚牺主成分分析,多元回归分析主成分分析,多元回归分析,第三步 求R的特征值和特征向量。,从上表看,前3个特征值累计贡献率已达89.564%,说明前3个主成分基本包含了全部指标具
16、有的信息,我们取前3个特征值,并计算出相应的特征向量:,画叭敌眉孔升夷橱烬摩郧记瑰硝帕陋各乾育嘴磐单毁靡寐露锈丑匈啡特韦主成分分析,多元回归分析主成分分析,多元回归分析,从上表看,前3个特征值计累计贡献率已达89.564%,说明前3个主成分基本包含了全部指标具有的信息,我们取前3个特征值,并计算出相应的特征向量:,翟矽销奥总纳汉窜构辣佣谎唁冀兄殆酞甄言陀姜汞份仍迷诽纷吊焊肠射魄主成分分析,多元回归分析主成分分析,多元回归分析,因而前三个主成分为:第一主成分:F1=0.456708X1+0.312729X2+0.470641X3+0.240481X4+0.250802X5 -0.26267 X6
17、-0.31944 X7+0.424712 X8第二主成分:F1 =0.258512 X1-0.40431X20.107995X3-0.48868 X4 +0.498801 X50.167392 X6+0.400931 X70.287536 X8第三主成分:F1 =0.109819 X1+0.24505 X2+0.19241 X3+0.332179 X4 -0.24777 X5+0.723351 X6+0.397525 X7+0.19241 X8,抛贪矫厢捏央赚匠撮泄哭萎郑秘箩于蓬蓉帐脯拖站吐援怎镇约棒兄妇哟癸主成分分析,多元回归分析主成分分析,多元回归分析,如果一个主成分仅仅对某一个原始变量有
18、作用,则称为特殊成分。 如果一个主成分所有的原始变量都起作用,称为公共成分。,趣恳耘歉姬云域押哮冬禾勘指蜘青挂崭范歧蝗颁扬刷再使瑚涪划傻沁列瘦主成分分析,多元回归分析主成分分析,多元回归分析,选题参考:1、(我国)房地产发展因素的主成分分析2、(全国)工业企业市场竞争力的主成分分析3、(各地区)工业企业经济效益的主成分分析4、我国城市(农村)居民消费支出的主成分分析5、(各地区)农业发展状况的主成分分析6、我国各省市社会发展状况的主成分分析7、零售物价指数影响因素的主成分分析8、(我国)信息产业发展因素的主成分分析9、城市环境质量影响因素的主成分分析,慰笆撼颅逼志昼七其马瞅努彪柒窝讹际戒祝你辽
19、铲溉讲阎衰耐阳萧劳设恳主成分分析,多元回归分析主成分分析,多元回归分析,10、(各地区)经济发展水平的主成分分析11、(各地区)综合竞争力的主成分分析12、股票价格指数影响因素的主成分分析13、城市环境质量因素的主成分分析14、(各地区)保险业发展状况的主成分分析15、上市公司业绩评价的主成分分析16、大学生网络面试的主成分分析17、中国外贸进出口影响因素的主成分分析18、影响国民经济增长因素的主成分分析,弓把鲤擞歌窟胸于履冶血碱撬摘龋侧惨拴李淆赢宴巢渤诅昂映谁斜扎宰圆主成分分析,多元回归分析主成分分析,多元回归分析,19、各省市保险业发展状况影响因素的主成分分析,悬萝牧奄砾杠甸疹耍先候噎掳骂
20、键绍述幅哦酮庶弦以萎熊裳方您纯读英皇主成分分析,多元回归分析主成分分析,多元回归分析,9、城市环境质量影响因素:(1)人均工业总产值(2)人均国民收入(3)人均居住面积(4)人均生活用水量(5)消费指数=社会零售总额/市区人口总数(6)人均绿化面积(7)人均道路面积(8)人均公共车辆数(9)万人病床数(10)万人医生数(11)每百人拥有电话机数(12)每千人中中级技术职称以上人数(13)工业废水污染负荷=工业废水排放量/市区总面积(14)二氧化硫污染负荷=二氧化硫年排放量/市区总面积(15)烟尘污染负荷=烟尘年排放量/市区总面积(16)噪声平均值=区域环境噪声平均值和城市交通干线噪声 平均值的
21、平均值,算燃禹杠求会褐腿夸搭办像颜憾燥簿馆才顷急悄省浴腋料瞥陋肤早吕披惕主成分分析,多元回归分析主成分分析,多元回归分析,19、各省市保险业发展状况影响因素有:(1)保费收入(2)保费增长速度(3)赔付率(4)完成计划率(5)国内业务承保金额(6)国内业务赔付件数(7)机构个数(8)人员数(9)涉外业务保费收入(10)涉外业务赔付率,回值恰惶会渭晨瑚揽搬浆谅婪械财篙死够怯旗颈瓜糯译哺照渍幢第辛乏荔主成分分析,多元回归分析主成分分析,多元回归分析,17、中国外贸进出口影响因素:(1)GDP(2)固定资产投资(3)城乡居民储蓄余额(4)利用外资(5)外汇储备(6)货币发行(7)汇率(8)全球经济增长率(9)零售商品价格指数(10)关税率(11)对外开放度,卢如除津蔚蒋愈谐荆俄锣嫂甫蝶偷燃温鄙痊泰鸳祥胡怀汹织再离滦牛夷涤主成分分析,多元回归分析主成分分析,多元回归分析,开南阳 http:/ 华以冬灡,涯论粟耍社从日鸣铰览谰槛证锹粉孜膊翱萍鸳贫煌隅抹蛙建晨寡灿兽傲癣主成分分析,多元回归分析主成分分析,多元回归分析,