《统计学之 对应分析分析课件.ppt》由会员分享,可在线阅读,更多相关《统计学之 对应分析分析课件.ppt(18页珍藏版)》请在三一办公上搜索。
1、第9章 对应分析,经济和管理关系中,有时需要了解样品之间的关系,尤其需要了解变量与样品之间的对应关系。进一步还希望能在同一个直角坐标系内同时表达出变量与样品两者之间的相互关系。对应分析(Correspondence Analysis)就是实现这一目的的有效方法。,主要内容,9.1 对应分析概述9.2 对应分析的原理和方法9.3 对应分析的计算与应用9.4 用SPSS进行对应分析,9.1 对应分析概述,9.1.1 问题的提出,处理三种关系,变量之间的关系,样品之间的关系,变量和样品之间的关系,-主成分与因子分析,-聚类分析、因子分析,-对应分析,例如:全国各高校进行教学评估时,不仅要研究教学评估
2、指标间的关系;各高校间的关系;还要将高校按教学评估结果进行分类,研究哪些高校与哪些教学评估指标的关系密切一些,对应分析实际是因子分析的进一步推广。在因子分析中所用的方法也可称为R型因子分析。但是在实际问题中,这样的分析方法有它的局限性,主要体现在以下两点。,(1) 研究的对象是样品时,也可采用类似于R型因子分析的方法做类似的处理,可称之为Q型因子分析。但由于样品的个数远远大于变量的个数,给Q型因子分析带来了极大的困难。,(2) 在R型因子分析中,为去掉变量量纲的影响,往往要对变量进行标准化处理。然而这种标准化处理对样品是非对等的,这给R型和Q型因子分析之间的联系带来障碍。,对应分析是将R型与Q
3、型因子分析结合起来,不仅适用于数量型变量,而且还适用于品质型变量。更重要的是它可以把变量和样品反映在相同坐标轴上,这样就可以把变量和样品联系起来,便于解释和推断。,9.2 对应分析的原理和方法,9.2.1 对应分析中的数据变换方法 设有n个样品,每个样品测量p个变量,得到原始数据矩阵为:,指标1(X1),指标2(X2),指标p(Xp),第1次观测值,第n次观测值,1.对数据矩阵分别计算其行和、列和和总和,2.将原始数据阵X转化为概率矩阵P,设,0pij1,且,将原始数据阵X转化为一个概率矩阵P=(pij)np。,因此,pij可以解释为每个数据xij出现的“概率”,概率矩阵p的行和pi.可解释为
4、样品i的“边缘概率”,列和p.j可解释为变量j的“边缘概率”。,3根据概率矩阵P确定数据点坐标,如果我们将概率矩阵P中的n个行,看成p维空间中的n个样品点,则其n个样品点的坐标可表示为,任意两个样品点r和k之间的欧氏距离为,为消除各变量量纲不同的影响,用系数,去乘以距离公式(9.1)就得到加权的距离公式:,通过计算两两样品点之间的距离,可以实现对样品点的分类。,类似地,可以用,表示p个变量的坐标。这时任意两个变量i和j之间的欧氏距离为:,通过计算两两变量之间的距离,可以实现对变量的分类。,4计算协方差矩阵,1) 计算变量点的协方差矩阵,由第i个样品的p项变量观测值,出发,则第j个变量的均值为,
5、第i个变量与第j个变量的协方差为:,其中,2) 计算样品点的协方差矩阵,计算出样品的协方差矩阵为Q=(qij)nn=ZZT。,5进行数据的对应变换,数据变换的公式为,由此变换产生出矩阵Z=(zij)np,并且将变量点的协方差矩阵表示为R=ZTZ的形式,将样品点的协方差矩阵表示为Q=ZZT的形式。R与Q两个矩阵存在明显的对应关系,而且将原始数据xij变换成zij后,zij对于变量和样品具有对等性。,9.2.2 对协方差矩阵R与Q进行因子分析,1线性代数中的定理,定理9.1:设矩阵R=ZTZ,Q=ZZT,i是R的非零特征值,ui 为对应的特征向量,则有: (1) R与Q的所有非零特征值相等; (2
6、) Q的非零特征值i所对应的特征向量为ZTui。,2进行因子分析,(1) 进行R型因子分析。,计算R=ZTZ的特征值i2p。根据其累计百分比,提取前k个特征值,即提取前k个公共因子。计算其相应的单位化特征向量u1,u2,uk,可以得到前k个公共因子的因子载荷矩阵。,(2) 进行Q型因子分析。,定理9.2:对R= ZTZ中的前k个特征值计算相应于Q=ZZT的单位特 征向量v1=ZTu1, v2=ZTu2, , vK=ZTuk,从而得到 前k个公共因子的因子载荷矩阵。,9.2.3 绘制变量和样品的对应分布图,在p维变量空间RP中的第1公因子、第2公因子、第k公因子与n维样品空间Rn中相应的各个公因
7、子在总方差中所占的百分比就完全相同。这样就可以把变量和样品同时反映在具有相同坐标轴的因子平面上。,对协方差矩阵R、Q进行因子分析,通常分别能提取两个最重要的公共因子R1、R2与Q1、Q2,对应的因子载荷矩阵分别为:,因子载荷U和V中的元素取值范围相同且元素数量大小的含义类似,因此可以将它们看成p个二维点和个n个二维点绘制在一个共同的坐标平面中,形成对应分布图,各点的坐标即为相应的因子载荷。,9.3 对应分析的计算与应用,9.3.1 对应分析的基本计算步骤 设有p个变量的n个样本观测数据矩阵X=(xij)np,其中xij0。对数据矩阵X作对应分析的具体步骤如下。,第一步:由数据矩阵X,计算规格化
8、的概率矩阵P=(pij)np,,第二步:计算过渡矩阵Z=(zij)np,第三步:进行因子分析。,第四步:做变量点与样本点的对应分布图。,在与R型因子分析相应的因子平面上做样品点图 ,在与Q型因子分析相应的因子平面上做变量点图,这样就在一个平面上同时显示了变量和样品间的相互联系。 9.3.2 对应分析的应用(见书),9.4 用SPSS进行对应分析,9.4.1 对应分析数据的预处理(1) 选择菜单DataWeight Cases,弹出Wight Cases对话框。(2) 左侧列表框存放的是对应分析的全部变量,右侧有2个单选项。单选项DO not weight cases表示对数据不加权,不用定义加
9、权变量,为默认项;单选项Weight cases by表示表示对数据进行加权,需要定义加权变量。(3) 选择Weight cases by单选项,将表明分类中的频数的变量作为加权变量从左侧列表框中移入Frequency Variable框中。权重即为该变量的数值。如果定义的加权变量有0值,定义加权变量时会发出警告,但不影响对应分析的正常分析工作。(4) 单击“OK”按钮,即可完成对应分析数据的预处理。,9.4.2 对应分析的SPSS操作步骤,选择AnalyzeData ReductionCorrespondence Analysis,弹 出Correspondence Analysis对话框。
10、(2) 将行变量选择到Row框中,单击“Define Range”按钮,弹出 Correspondence Analysis:Define Row Range对话框,定义参与分析的行变量的分类值范围。在Minimum value:框后输入分类最小值,在Maximum value:框后输入分类最大值,并单击“Update”按钮,于是各分类值会依次显示在Category Constraints框中。,(3) 将列变量选择到Column框中,单击“Define Range”按钮,弹 出Correspondence Analysis:Define Column Range对话框, 定义参与分析的列变量的分类值范围。重复第2步的操作过 程。,(5) 单击“Plots”按钮,弹出Correspondence Analysis:Plots对 话框,指定输出哪些统计图形。,(6) 单击“OK”按钮,即可完成对应分析的操作过程。,(4) 单击“Model”按钮,弹出Correspondence Analysis:Model对 话框,进行模型参数设置。,小结,9.1 对应分析概述9.2 对应分析的原理和方法9.3 对应分析的计算与应用9.4 用SPSS进行对应分析,