建模的二十种方法与应用汇总.doc

资源描述

《建模的二十种方法与应用汇总.doc》由会员分享，可在线阅读，更多相关《建模的二十种方法与应用汇总.doc（16页珍藏版）》请在三一办公上搜索。

1、一、统计学方法1.1 多元回归1、方法概述：在研究变量之间的相互影响关系模型时候，用到这类方法，具体地说：其可以定量地描述某一现象和某些因素之间的函数关系，将各变量的已知值带入回归方程可以求出因变量的估计值，从而可以进行预测等相关研究。2、分类分为两类：多元线性回归和非线性线性回归；其中非线性回归可以通过一定的变化转化为线性回归，比如：y=lnx 可以转化为 y=u u=lnx 来解决；所以这里主要说明多元线性回归应该注意的问题。3、注意事项在做回归的时候，一定要注意两件事：（1）回归方程的显著性检验（可以通过 sas 和 spss 来解决）（2）回归系数的显著性检验（可以通过 sas

2、和 spss 来解决）检验是很多学生在建模中不注意的地方，好的检验结果可以体现出你模型的优劣，是完整论文的体现，所以这点大家一定要注意。4、使用步骤：（1）根据已知条件的数据，通过预处理得出图像的大致趋势或者数据之间的大致关系；（2）选取适当的回归方程；（3）拟合回归参数；（4）回归方程显著性检验及回归系数显著性检验（5）进行后继研究（如：预测等）1.2 聚类分析1、方法概述该方法说的通俗一点就是，将 n个样本，通过适当的方法（选取方法很多，大家可以自行查找，可以在数据挖掘类的书籍中查找到，这里不再阐述）选取 m 聚类中心，通过研究各样本和各个聚类中心的距离 Xij，选择适当的聚类标准，通常利

3、用最小距离法（一个样本归于一个类也就意味着，该样本距离该类对应的中心距离最近）来聚类，从而可以得到聚类结果，如果利用sas 软件或者 spss 软件来做聚类分析，就可以得到相应的动态聚类图。这种模型的的特点是直观，容易理解。2、分类聚类有两种类型：（1） Q型聚类：即对样本聚类；（2） R型聚类：即对变量聚类；通常聚类中衡量标准的选取有两种：（1）相似系数法（2）距离法聚类方法：（1）最短距离法（2）最长距离法（3）中间距离法（4）重心法（5）类平均法（6）可变类平均法（7）可变法（8）利差平均和法在具体做题中，适当选区方法；3、注意事项在样本量比较大时，要得到聚类结果就显

4、得不是很容易，这时需要根据背景知识和相关的其他方法辅助处理。4、方法步骤（1）首先把每个样本自成一类；（2）选取适当的衡量标准，得到衡量矩阵，比如说：距离矩阵或相似性矩阵，找到矩阵中最小的元素，将该元素对应的两个类归为一类，（3）重新计算类间距离，得到衡量矩阵（4）重复第 2 步，直到只剩下一个类；补充：聚类分析是一种无监督的分类，下面将介绍有监督的分类。1.3 数据分类1、方法概述数据分类是一种典型的有监督的机器学习方法，其目的是从一组已知类别的数据中发现分类模型，以预测新数据的未知类别。这里需要说明的是：预测和分类是有区别的，预测是对数据的预测，而分类是类别的预测。2、分类方法：（1）神经

5、网路（2）决策树（这里不再阐述，有兴趣的同学，可以参考数据挖掘和数据仓库相关书籍）3、注意事项神经网路适用于下列情况的分类：（1）数据量比较小，缺少足够的样本建立数学模型；（2）数据的结构难以用传统的统计方法来描述（3）分类模型难以表示为传统的统计模型神经网路的优点：分类准确度高，并行分布处理能力强，对噪声数据有较强的鲁棒性和容错能力，能够充分逼近复杂的非线性关系，具备联想记忆的功能等。神经网路缺点：需要大量的参数，不能观察中间学习过程，输出结果较难解释，会影响到结果的可信度，需要较长的学习时间，当数据量较大的时候，学习速度会制约其应用。4、步骤（1）初始化全系数（2）输入训练样本（3）

6、计算实际输出值（4）计算实际输出值和期望输出值之间的误差（5）用误差去修改权系数（6）判断是否满足终止条件，如果满足终止，否则进入第二步1.4 判别分析1、概述其是基于已知类别的训练样本，对未知类别的样本判别的一种统计方法，也是一种有监督的学习方法，是分类的一个子方法！具体是：在研究已经过分类的样本基础上，根据某些判别分析方法建立判别式，然后对未知分类的样本进行分类！2、分类根据判别分析方法的不同，可分为下面几类：（1）距离判别法（2） Fisher 判别法（3） Bayes 判别法（4）逐步判别法关于这几类的方法的介绍，大家可以参考多元统计学，其中比较常用的是 bayes 判别法和逐步判

7、别法3、注意事项：判别分析主要针对的是有监督学习的分类问题。共有四种方法，这里重点注意其优缺点：（1）距离判别方法简单容易理解，但是它将总体等概率看待，没有差异性；（2） Bayes 判别法有效地解决了距离判别法的不足，即：其考虑了先验概率所以通常这种方法在实际中应用比较多！（3）在进行判别分析之前，应首先检验各类均值是不是有差异（因为判别分析要求给定的样本数据必须有明显的差异），如果检验后某两个总体的差异不明显，应将这两个总体合为一个总体，再由剩下的互不相同的总体重现建立判别分析函数。（4）这里说明下 Fisher 判别法和 bayes 判别法的使用要求：两者对总体的数据的分布要求不

8、同，具体的，Fishe要求对数据分布没有特殊要求，而 bayes则要求数据分布是多元正态分布，但实际中却没有这么严格！（5）可以利用 spss，sas 等软件来轻松实现4、方法步骤这里以 bayes 判别法为例讲述（1）计算各类中变量的均值 xj 及均值向量xh，各变量的总均值 xi 及均值向量x（2）计算类内协方差及其逆矩阵（3）计算 bayes 判别函数中，各个变量的系数及常数项并写出判别函数（4）计算类内协方差矩阵及各总协方差矩阵做多个变量的全体判别效果的检验（5）做各个变量的判别能力检验（6）判别样本应属于的类别1.5 主成分分析1、概述主成分分析是一种降维数的数学方法，

9、具体就是，通过降维技术奖多个变量化为少数几个主成分的统计分析方法。在建模中，主要用于降维，系统评估，回归分析，加权分析等等。2、分类（无）3、注意事项在应用主成分分析时候，应该注意：（1）综合指标彼此独立或者不想关（2）每个综合指标所反映的各个样本的总信息量等于对应特征向量的特征值。通常要选取的综合指标的特征值贡献率之和应为80%以上（3）其在应用上侧重于信息贡献影响力的综合评价（4）当主成分因子负荷的符号有正也有负的时候，综合评价的函数意义就不明确！4、方法步骤大家可以参考多元统计学这本书籍，在这里就不做阐述1.6 因子分析1、概述其是也是将变量总和为数量较少的几个因子，是降维的一种

10、数学技术！它和主成分分析的最大区别是：其是一种探索性分析方法，即：通过用最少个数的几个不可观察的变量来说明出现在可观察变量中的相关模型（有点类似于前面讲述的分类和聚类的区别）它提供了一种有效的利用数学模型来解释事物之间的关系，体现出数据挖掘的一点精神！他可以用来解决降维，系统评估，加权分析等方法。2、分类因子分析是R 型，即对变量研究3、注意事项（1）其不是对研究总体的变量的降维，而是根据原始变量信息构造新的变量，作为共同因子（2）它通过旋转可以使得因子变量具有可解释性（3）因子分析和主成分分析的区别和联系两者都是降维数学技术，前者是后者的推广和发展主成分分析只是一般的变量替换，其始终是基于原

11、始变量研究数据的模型规律；而因子分析则是通过挖掘出新的少数变量，来研究的一种方法，有点像数据挖掘中的关联关则发现！4、方法步骤（略）大家可以去论坛上下载相关电子资源，也可以参考多元统计学1.7 残差分析1、概述在实际问题中，由于观察人员的粗心或偶然因素的干扰。常会使我们所得到的数据不完全可靠, 即出现异常数据。有时即使通过相关系数或 F检验证实回归方程可靠，也不能排除数据存在上述问题。残差分析的目的就在于解决这一问题。所谓残差是指实际观察值与回归估计值的差。2、分类无3、应用（1）通过残差分析来排除异常数据（2）通过残差分析来检验模型的可靠性还有很多应用，大家在使用过程中据情况选取，灵活应用

12、！18 典型相关分析1、概述前面介绍的方法主要是一个变量和多个变量之间的关系，而典型相关分析研究的是多个变量和多个变量之间的关系，或者是一组变量和一组变量之间关系！其可以揭示两组变量之间的关系，从而供大家研究两个现象之间的关系，例如：蔬菜的产出水平和影响产出水平的变量之间的关系！2、分类多对多的变量关系研究！3、注意事项（1）其可以很好地解决组合相关性的问题（2）其还局限于两组变量的研究，而且要求这两组变量都是连续变量且需服从多元正态分布1.9 时间序列1、概述时间序列预测法是一种定量分析方法，它是在时间序列变量分析的基础上，运用一定的数学方法建立预测模型，使时间趋势向外延伸，从而预测未来市场

13、的发展变化趋势，确定变量预测值。其基本特点是：假定事物的过去趋势会延伸到未来；预测所依据的数据具有不规则性；撇开市场发展之间的因果关系。2、分类时间序列的变动形态一般分为四种：长期趋势变动，季节变动，循环变动，不规则变动。方法分类：（1）平均数预测（简单算术平均法，加权算术平均法，几何平均数法）（2）移动平均数预测（一次移动平均法，二次移动平均法）（3）指数平滑法预测（一次，二次，三次指数平滑法）（4）趋势法预测（分割平均法，最小二乘法，三点法）（5）季节变动法（简单平均法，季节比例法）3注意事项（1）季节变动法预测需要筹集至少三年以上的资料（2）移动平均法在短期预测中较准确，长期预

14、测中效果较差；（3）移动平均可以消除或减少时间序列数据受偶然性因素干扰而产生的随机变动影响。（4）一次移动平均法适用于具有明显线性趋势的时间序列数据的预测；一次移动平均法只能用来对下一期进行预测，不能用于长期预测，必须选择合理的移动跨期，跨期越大对预测的平滑影响也越大，移动平均数滞后于实际数据的偏差也越大。跨期太小则又不能有效消除偶然因素的影响。跨期取值可在 320 间选取。（5）二次移动平均法与一次移动平均法相比，其优点是大大减少了滞后偏差，使预测准确性提高；二次移动平均只适用于短期预测。而且只用于的情形。（6）最小二乘法即适用于直线趋势的预测，也适用于曲线趋势的预测。还有一些注意事项，这里

15、就不在意义罗列4方法步骤统计学的分析方法到这先告一段落！下面进入优化的方法介绍：二、优化方法1、概述在一系列的条件限制下，寻求最优方案，使得目标达到最优的问题统称为优化问题。解决这类问题的方法，自然就称之为优化方法，又成为数学规划！其是运筹学的一个重要分支！2、分类优化问题可以归结为优化模型，按照优化模型求解方法的不同，可以分为以下类别：（1）按照有无约束条件：无约束和约束最优化问题（2）按照决策变量是否取之连续分为：a) 数学规划或连续规划：LP,NLP,QPb) 离散优化或组合优化：IP（3）单目标规划和多目标规划（4）确定性规划和不确定性规划（5）目标规划，动态规划，非线性规

16、划，多目标规划等3、注意事项（1）约束优化问题可以转化为无约束优化问题来解决（2）多目标规划可以通过适当的方法转化为但目标规划来解决（3）非线性规划，在一定的条件下，可以近似为线性规划来解决（4）不确定性规划可以通过适当的技巧转化为确定性方法解决这些转化，大家可以参阅优秀论文，注意学取人家的经验，从而建立自己的能力提升！也可以参考相关优化书籍和运筹学书籍来学习，书上都有介绍！4、步骤简要概括（1）建立规划模型（2）选择方法（3）结果解释三、排队论1.概述在我们的生活中，经常会做和排队想关的事情，比如：银行等待取钱，医院挂号排队，理发排队等等，都会涉及到排队问题，并且2009 年国赛 B 题第五

17、小题就考了和排队论相关的问题。排队论是一门研究拥挤现象的学科，具体就是研究各种排队系统概率基础上，解决相应的排队系统的最优设计和最优控制问题（注意：其实解决排队最优设计和最优控制的问题）2、分类（1）泊松输入-指数服务排队模型（2）M/M/1 等待排队模型（3）M/M/S/inf 模型（2009 年 B 题的排队就是一个这种模型）3、注意事项（1）排队系统常见的优化问题在于A）确定最优服务率b)确定最佳服务台数量c）选择最为合适的服务规则d）确定上述几个量的最优组合（2）在使用时候，应该注意模型的选择，模型选择好后，注意顾客到达和服务时间分布的选择和检验4、步骤（略）四：智能算法的优化应用遗传

18、算法，蚁群算法，贪婪算法，模拟退火算法，回溯法，分支定界法，禁忌搜索算法，粒子群算法等启发式算法这类算法在实际中应谨慎使用，固然这类算法有其好处，但是其不确定远远大于其确定性，所以大家在比赛中慎重使用，最好使用成熟的算法！五、微分建模1、使用背景介绍我们通常会在研究一些问题时候，涉及到某些变量的变化率或导数，这样所得到的变量之间的关系就是微分方程模型，其反映的是变量之间的间接关系，通过求解方程，就可以得到直接关系！2、分类按照求解方法的不同分为：精确求解，求数值解，定性分析方法3、注意事项（1）微分方程的集中建立方法：A、根据规律建立方程B、微元法C、模拟近似（2）几种常见的微分方程模型：人口

19、增长模型，传染病模型，捕鱼模型等4、步骤（略）六、差分方程1、使用背景的介绍它是研究离散变量的变化规律，具体就是：根据实际的规律性质，平衡关系等，建立离散变量所满足的平很关系式，从而建立差分方程模型。通过求出和分析解，研究方程解的性质，比如，平稳性，渐进性，振动性，周期性等等2、分类几个重要的差分方程模型：商业贷款，离散形式的人口模型，汽车租赁，动物养殖问题等经典模型，大家可以参考，然后对差分方程模型有个全面的认识七、图论由于图论设计的内容比较多，系统庞杂，而且模型比较灵活，所以在这里不做介绍，大家可以自行研究。八、其他方法介绍灰色系统主要用来解决少数据的预测问题；层次分析法主要用来解决综合

20、分析类的问题；模糊数学可以用来做模糊综合评判，模糊聚类分析和模糊线性规划；蒙特卡洛方法主要是一种计算机仿真方法，通常在排队论问题使用；神经网路可以用来分类，预测，建立模型等等；还有一些其他的方法，这里就不一一介绍了。九、主成分分析法一）、主成分分析法介绍：主成分分析（principal components analysis，PCA）又称：主分量分析，主成分回归分析法。旨在利用降维的思想，把多指标转化为少数几个综合指标。它是一个线性变换。这个变换把数据变换到一个新的坐标系统中，使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上，第二大方差在第二个坐标(第二主成分)上，依次类推。主成分

21、分析经常用减少数据集的维数，同时保持数据集的对方差贡献最大的特征。这是通过保留低阶主成分，忽略高阶主成分做到的。这样低阶成分往往能够保留住数据的最重要方面。但是，这也不是一定的，要视具体应用而定。二）、主成分分析法的基本思想：在实证问题研究中，为了全面、系统地分析问题，我们必须考虑众多影响因素。这些涉及的因素一般称为指标，在多元统计分析中也称为变量。因为每个变量都在不同程度上反映了所研究问题的某些信息，并且指标之间彼此有一定的相关性，因而所得的统计数据反映的信息在一定程度上有重叠。在用统计方法研究多变量问题时，变量太多会增加计算量和增加分析问题的复杂性，人们希望在进行定量分析的过程中，涉及

22、的变量较少，得到的信息量较多。主成分分析正是适应这一要求产生的，是解决这类题的理想工具。同样，在科普效果评估的过程中也存在着这样的问题。科普效果是很难具体量化的。在实际评估工作中，我们常常会选用几个有代表性的综合指标，采用打分的方法来进行评估，故综合指标的选取是个重点和难点。如上所述，主成分分析法正是解决这一问题的理想工具。因为评估所涉及的众多变量之间既然有一定的相关性，就必然存在着起支配作用的因素。根据这一点，通过对原始变量相关矩阵内部结构的关系研究，找出影响科普效果某一要素的几个综合指标，使综合指标为原来变量的线性拟合。这样，综合指标不仅保留了原始变量的主要信息，且彼此间不相关，又比

23、原始变量具有某些更优越的性质，就使我们在研究复杂的科普效果评估问题时，容易抓住主要矛盾。上述想法可进一步概述为：设某科普效果评估要素涉及个指标，这指标构成的维随机向量为。对作正交变换，令，其中为正交阵，的各分量是不相关的，使得的各分量在某个评估要素中的作用容易解释，这就使得我们有可能从主分量中选择主要成分，削除对这一要素影响微弱的部分，通过对主分量的重点分析，达到对原始变量进行分析的目的。的各分量是原始变量线性组合，不同的分量表示原始变量之间不同的影响关系。由于这些基本关系很可能与特定的作用过程相联系，主成分分析使我们能从错综复杂的科普评估要素的众多指标中，找出一些主要成分，以便有效

24、地利用大量统计数据，进行科普效果评估分析，使我们在研究科普效果评估问题中，可能得到深层次的一些启发，把科普效果评估研究引向深入。例如，在对科普产品开发和利用这一要素的评估中，涉及科普创作人数百万人、科普作品发行量百万人、科普产业化（科普示范基地数百万人）等多项指标。经过主成分分析计算，最后确定个或个主成分作为综合评价科普产品利用和开发的综合指标，变量数减少，并达到一定的可信度，就容易进行科普效果的评估。三）、主成分分析法的数学模型：其中：为第 j个指标对应于第个主成分的初始因子载荷，为第 l个主成分对应的特征值根据主成分表达式得出综合得分模型：四）、主成分分析法的基本原理：主成分分析法是

25、一种降维的统计方法，它借助于一个正交变换，将其分量相关的原随机向量转化成其分量不相关的新随机向量，这在代数上表现为将原随机向量的协方差阵变换成对角形阵，在几何上表现为将原坐标系变换成新的正交坐标系，使之指向样本点散布最开的p 个正交方向，然后对多维变量系统进行降维处理，使之能以一个较高的精度转换成低维变量系统，再通过构造适当的价值函数，进一步把低维系统转化成一维系统。五）、主成分分析法的作用：概括起来说，主成分分析主要由以下几个方面的作用。 1主成分分析能降低所研究的数据空间的维数。即用研究m维的Y空间代替p维的X空间(mp)，而低维的Y空间代替高维的x空间所损失的信息很少。即：使只有一个主

26、成分Yl(即 m1)时，这个Yl仍是使用全部X变量(p个)得到的。例如要计算Yl的均值也得使用全部x的均值。在所选的前m个主成分中，如果某个Xi的系数全部近似于零的话，就可以把这个Xi删除，这也是一种删除多余变量的方法。 2有时可通过因子负荷aij的结论，弄清X变量间的某些关系。 3多维数据的一种图形表示方法。我们知道当维数大于3时便不能画出几何图形，多元统计研究的问题大都多于3个变量。要把研究的问题用图形表示出来是不可能的。然而，经过主成分分析后，我们可以选取前两个主成分或其中某两个主成分，根据主成分的得分，画出n个样品在二维平面上的分布况，由图形可直观地看出各样品在主分量中的地位，进而还可

27、以对样本进行分类处理，可以由图形发现远离大多数样本点的离群点。 4由主成分分析法构造回归模型。即把各主成分作为新自变量代替原来自变量x做回归分析。 5用主成分分析筛选回归变量。回归变量的选择有着重的实际意义，为了使模型本身易于做结构分析、控制和预报，好从原始变量所构成的子集合中选择最佳变量，构成最佳变量集合。用主成分分析筛选变量，可以用较少的计算量来选择量，获得选择最佳变量子集合的效果。六）、主成分分析法的计算步骤：1、原始指标数据的标准化采集p 维随机向量x = (x1,X2,.,Up)T)n 个样品xi = (xi1,xi2,.,dip)T ，I=1,2,n， np，构造样本阵，对样本阵元

28、进行如下标准化变换：其中，得标准化阵Z。 2、对标准化阵Z 求相关系数矩阵其中, 。 3、解样本相关矩阵R 的特征方程得p 个特征根,确定主成分按确定m 值，使信息的利用率达85%以上，对每个job, j=1,2,.,m, 解方程组Rib = job得单位特征向量。 4、将标准化后的指标变量转换为主成分 U1称为第一主成分,U2 称为第二主成分,Up 称为第p 主成分。 5 、对m 个主成分进行综合评价对m 个主成分进行加权求和，即得最终评价值，权数为每个主成分的方差贡献率。PS另一种易于理解的步骤：1、数据标准化;2、求相关系数矩阵;3、一系列正交变换，使非对角线上的数置0，加到

29、主对角上;得特征根xi（即相应那个主成分引起变异的方差),并按照从大到小的顺序把特征根排列;4、求各个特征根对应的特征向量;用下式计算每个特征根的贡献率Vi;VI=xi/(x1+x2+.)5、根据特征根及其特征向量解释主成分物理意义七）、主成分分析法的案例：参见：基于主成分分析的力量结构指标的权重的计算、基于主成分析的江苏省地方高校创新力研究十、因子分析法一）因子分析法介绍：主成分分析通过线性组合将原变量综合成几个主成分，用较少的综合指标来代替原来较多的指标(变量)。在多变量分析中，某些变量间往往存在相关性。是什么原因使变量间有关联呢？是否存在不能直接观测到的、但影响可观测变量变化的公共因子？

30、因子分析法(Factor Analysis)就是寻找这些公共因子的模型分析方法，它是在主成分的基础上构筑若干意义较为明确的公因子，以它们为框架分解原变量，以此考察原变量间的联系与区别。例：随着年龄的增长，儿童的身高、体重会随着变化，具有一定的相关性，身高和体重之间为何会有相关性呢？因为存在着一个同时支配或影响着身高与体重的生长因子。那么，我们能否通过对多个变量的相关系数矩阵的研究，找出同时影响或支配所有变量的共性因子呢？因子分析就是从大量的数据中“由表及里”、“去粗取精”，寻找影响或支配变量的多变量统计方法。因此，可以说因子分析是主成分分析的推广，也是一种把多个变量化为少数几个综合变量的多变量

31、分析方法，其目的是用有限个不可观测的隐变量来解释原始变量之间的相关关系。因子分析主要用于：1、减少分析变量个数；2、通过对变量间相关关系探测，将原始变量进行分类。即将相关性高的变量分为一组，用共性因子代替该组变量。二）、因子分析法的基本模型：因子分析法是从研究变量内部相关的依赖关系出发，把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法。它的基本思想是将观测变量进行分类，将相关性较高，即联系比较紧密的分在同一类中，而不同类变量之间的相关性则较低，那么每一类变量实际上就代表了一个基本结构，即公共因子。对于所研究的问题就是试图用最少个数的不可测的所谓公共因子的线性函数与特殊

32、因子之和来描述原来观测的每一分量。因子分析模型描述如下：1、X=(x1，x2，xp)是可观测随机向量，均值向量E(X)=0，协方差阵Cov(X)=，且协方差阵与相关矩阵R相等（只要将变量标准化即可实现）。2、F=(F1，F2，Fm)（mp）是不可测的向量，其均值向量E(F)=0，协方差矩阵Cov(F)=I，即向量的各分量是相互独立的。3、e=(e1，e2，ep)与F相互独立，且E(e)=0，e的协方差阵是对角阵，即各分量e之间是相互独立的，则模型：x1=a11F1+a12F2+a1mFm+e1x2=a21F1+a22F2+a2mFm+e2xp=ap1F1+ap2F2+apmFm+ep称为因子分

33、析模型，由于该模型是针对变量进行的，各因子又是正交的，所以也称为R型正交因子模型。其矩阵形式为：x=AF+e其中：x=，A=，F=，e=这里（1）mp；（2）Cov(F，e)=0，即F和e是不相关的；（3）D(F)=Im，即F1，F2，Fm不相关且方差均为1；（4）D(e)=，即e1，e2，ep不相关，且方差不同。我们把F称为X的公共因子或潜因子，矩阵A称为因子载荷矩阵，e称为X的特殊因子。A=(aij)，aij为因子载荷。数学上可以证明，因子载荷aij就是第i变量与第j因子的相关系数，反映了第i变量在第j因子上的重要性。三）、模型的统计意义：模型中F1，F2，Fm叫做主因子或公共因子，它们是

34、在各个原观测变量的表达式中都共同出现的因子，是相互独立的不可观测的理论变量。公共因子的含义，必须结合具体问题的实际意义而定。e1，e2，ep叫做特殊因子，是向量x的分量xi(i=1，2，p)所特有的因子，各特殊因子之间以及特殊因子与所有公共因子之间都是相互独立的。模型中载荷矩阵A中的元素(aij)是为因子载荷。因子载荷aij是xi与Fj的协方差，也是xi与Fj的相关系数，它表示xi依赖Fj的程度。可将aij看作第i个变量在第j公共因子上的权，aij的绝对值越大(|aij|1)，表明xi与Fj的相依程度越大，或称公共因子Fj对于xi的载荷量越大。为了得到因子分析结果的经济解释，因子载荷矩阵A中有

35、两个统计量十分重要，即变量共同度和公共因子的方差贡献。因子载荷矩阵A中第i行元素之平方和记为hi2，称为变量xi的共同度。它是全部公共因子对xi的方差所做出的贡献，反映了全部公共因子对变量xi的影响。hi2大表明x的第i个分量xi对于F的每一分量F1，F2，Fm的共同依赖程度大。将因子载荷矩阵A的第j列( j =1，2，m)的各元素的平方和记为gj2，称为公共因子Fj对x的方差贡献。gj2就表示第j个公共因子Fj对于x的每一分量xi(i= 1，2，p)所提供方差的总和，它是衡量公共因子相对重要性的指标。gj2越大，表明公共因子Fj对x的贡献越大，或者说对x的影响和作用就越大。如果将因子载荷矩阵

36、A的所有gj2(j=1，2，m)都计算出来，使其按照大小排序，就可以依此提炼出最有影响力的公共因子。四）、因子旋转：建立因子分析模型的目的不仅是找出主因子，更重要的是知道每个主因子的意义，以便对实际问题进行分析。如果求出主因子解后，各个主因子的典型代表变量不很突出，还需要进行因子旋转，通过适当的旋转得到比较满意的主因子。旋转的方法有很多，正交旋转(orthogonal rotation)和斜交旋转(oblique rotation)是因子旋转的两类方法。最常用的方法是最大方差正交旋转法(Varimax)。进行因子旋转，就是要使因子载荷矩阵中因子载荷的平方值向0和1两个方向分化，使大的载荷更大，

37、小的载荷更小。因子旋转过程中，如果因子对应轴相互正交，则称为正交旋转；如果因子对应轴相互间不是正交的，则称为斜交旋转。常用的斜交旋转方法有Promax法等。五）、因子得分：因子分析模型建立后，还有一个重要的作用是应用因子分析模型去评价每个样品在整个模型中的地位，即进行综合评价。例如地区经济发展的因子分析模型建立后，我们希望知道每个地区经济发展的情况，把区域经济划分归类，哪些地区发展较快，哪些中等发达，哪些较慢等。这时需要将公共因子用变量的线性组合来表示，也即由地区经济的各项指标值来估计它的因子得分。设公共因子F由变量x表示的线性组合为：Fj=uj1xj1+uj2xj2+ujpxjpj=1，2，

38、m该式称为因子得分函数，由它来计算每个样品的公共因子得分。若取m=2，则将每个样品的p个变量代入上式即可算出每个样品的因子得分F1和F2，并将其在平面上做因子得分散点图，进而对样品进行分类或对原始数据进行更深入的研究。但因子得分函数中方程的个数m小于变量的个数p，所以并不能精确计算出因子得分，只能对因子得分进行估计。估计因子得分的方法较多，常用的有回归估计法，Bartlett估计法，Thomson估计法。具体方法为：（1）回归估计法F=Xb=X(XX)-1A=XR-1A(这里R为相关阵，且R=XX)。（2）Bartlett估计法Bartlett估计因子得分可由最小二乘法或极大似然法导出。F=(

39、W-1/2A)W-1/2A-1(W-1/2A)W-1/2X=(AW-1A)-1AW-1X（3）Thomson估计法在回归估计法中，实际上是忽略特殊因子的作用，取R = X X，若考虑特殊因子的作用，此时R = X XW，于是有：F=XR-1A=X(XXW)-1A这就是Thomson估计的因子得分，使用矩阵求逆算法(参考线性代数文献)可以将其转换为：F=XR-1A=X(I+AW-1A)-1W-1A六）、因子分析的步骤：因子分析的核心问题有两个：一是如何构造因子变量；二是如何对因子变量进行命名解释。因此，因子分析的基本步骤和解决思路就是围绕这两个核心问题展开的。因子分析常常有以下四个基本步骤：1、

40、确认待分析的原变量是否适合作因子分析。2、构造因子变量。3、利用旋转方法使因子变量更具有可解释性。4、计算因子变量得分。因子分析的计算过程：1、将原始数据标准化，以消除变量间在数量级和量纲上的不同。2、求标准化数据的相关矩阵；3、求相关矩阵的特征值和特征向量；4、计算方差贡献率与累积方差贡献率；5、确定因子：设F1，F2，Fp为p个因子，其中前m个因子包含的数据信息总量（即其累积贡献率）不低于80%时，可取前m个因子来反映原评价指标；6、因子旋转：若所得的m个因子无法确定或其实际意义不是很明显，这时需将因子进行旋转以获得较为明显的实际含义。7、用原指标的线性组合来求各因子得分：采用回归估计法，

41、Bartlett估计法或Thomson估计法计算因子得分。8、综合得分：以各因子的方差贡献率为权，由各因子的线性组合得到综合评价指标函数。F=(w1F1+w2F2+wmFm)(w1+w2+wm)此处wi为旋转前或旋转后因子的方差贡献率。9、得分排序：利用综合得分可以得到得分名次。七）、主成分分析法的使用范围：1、简化系统结构，探讨系统内核。可采用主成分分析、因子分析、对应分析等方法，在众多因素中找出各个变量最佳的子集合，从子集合所包含的信息描述多变量的系统结果及各个因子对系统的影响。“从树木看森林”，抓住主要矛盾，把握主要矛盾的主要方面，舍弃次要因素，以简化系统的结构，认识系统的内核。2、构造

42、预测模型，进行预报控制。在自然和社会科学领域的科研与生产中，探索多变量系统运动的客观规律及其与外部环境的关系，进行预测预报，以实现对系统的最优控制，是应用多元统计分析技术的主要目的。在多元分析中，用于预报控制的模型有两大类。一类是预测预报模型，通常采用多元线性回归或逐步回归分析、判别分析、双重筛选逐步回归分析等建模技术。另一类是描述性模型，通常采用聚类分析的建模技术。3、进行数值分类，构造分类模式。在多变量系统的分析中，往往需要将系统性质相似的事物或现象归为一类。以便找出它们之间的联系和内在规律性。过去许多研究多是按单因素进行定性处理，以致处理结果反映不出系统的总的特征。进行数值分类，构造分类

43、模式一般采用聚类分析和判别分析技术。如何选择适当的方法来解决实际问题，需要对问题进行综合考虑。对一个问题可以综合运用多种统计方法进行分析。例如一个预报模型的建立，可先根据有关生物学、生态学原理，确定理论模型和试验设计；根据试验结果，收集试验资料；对资料进行初步提炼；然后应用统计分析方法(如相关分析、逐步回归分析、主成分分析等)研究各个变量之间的相关性，选择最佳的变量子集合；在此基础上构造预报模型，最后对模型进行诊断和优化处理，并应用于生产实际。这里我再补充一点：预测方法的比较：一般小样本内部预测用插值和拟合，大样本内部预测用回归模型。移动平均法属于时间序列分析的内容，时间序列分析一般用作大样本外部预测，就是对未来的预测，灰色理论用于小样本的外部预测，神经网络用于超大样本的未来预测。可以把这些预测方法归纳一下，对于建模，主要考虑这些方法的适用性。上面主要是对建模方法的使用范围做了一定的介绍，关于数学建模中的思想方法大全，大家可以参考数学建模中的思想方法大全

展开阅读全文