《农村发展研究方法第12章农村发展研究评价方法.ppt》由会员分享,可在线阅读,更多相关《农村发展研究方法第12章农村发展研究评价方法.ppt(192页珍藏版)》请在三一办公上搜索。
1、第十二章 农村发展研究评价方法,主要内容,第一节 农村发展研究评价的一般过程和分类第二节 农村发展研究常用的评价方法,第一节 农村发展研究评价的一般过程和分类,一、评价概述二、农村发展研究评价的一般过程三、评价方法分类,一、评价概述,评价就是参照一定标准对客体的价值或优劣进行评判比较的一种认知过程,同时也是一种决策过程。评价分综合评价和单项评价单项评价:评价标准单一、明确(单指标评价)综合评价:评价标准复杂、抽象(多指标评价),二、农村发展研究评价的一般过程,评价的目的是通过对评价对象属性的定量化测定,实现对评价对象整体水平或功能的量化描述,从而揭示事物的价值或发展规律。,二、农村发展研究评价
2、的一般过程,完整的评价可以分为如下几个阶段:(1)确定评价目的,选取评价对象(2)建立评价指标体系具体包括评价目标的细分与结构化,指标体系的初步确定,指标体系的整体检验与初步检验,指标体系结构的优化,定性变量的数量化等环节。(3)选择评价方法与模型具体包括评价方法选择,权数构造,评价指标体系的标准值与评价规则的确定。,二、农村发展研究评价的一般过程,完整的评价可以分为如下几个阶段:(4)综合评价实施包括指标体系数据搜集、数据评估、必要的数据推算模型参数求解等。(5)对评价结果进行评估与检验,以判别所选评价模型、有关标准、有关权值、甚至指标体系合理与否。若不符合要求,则需要进行一些修改,甚至返回
3、到前述的某一环节。(6)评价结果分析与报告具体包括评价结果的书面分析,撰写评价报告,提供与发布评价结果,资料的储备与后续开发利用。,三、评价方法分类,评价方法可以分为定性评价方法和定量评价方法两类。按其评价思想不同,可以分为加权评价方法和非加权评价方法两类。按各评价方法的理论基础不同,可以分为六大类定量评价方法。,三、评价方法分类,定性评价方法:专家会议法、德尔菲法常规定量评价方法:功效系数法、综合指数法多元统计评价方法:主成分分析法、因子分析法、聚类分析法、判别分析法、理想点法运筹学评价方法:层次分析法、DEA法(数据包络分析)模糊评价方法:模糊综合评价、模糊聚类、模糊识别、模糊物元、模糊积
4、分,第二节 农村发展研究常用的评价方法,一、综合指数法二、功效系数法三、主成分分析四、因子分析五、聚类分析六、判别分析七、层次分析法,一、综合指数法,综合指数法是指在确定一套合理的经济效益指标体系的基础上,对各项经济效益指标个体指数加权平均,计算出经济效益综合值,用以综合评价经济效益的一种方法。即将一组相同或不同指数值通过统计学处理,使不同计量单位、性质的指标值标准化,最后转化成一个综合指数,以准确地评价工作的综合水平。,一、综合指数法,各项指标的权数是根据其重要程度决定的,体现了各项指标在经济效益综合值中作用的大小。综合指数法的基本思路则是利用层次分析法计算的权重和模糊评判法取得的数值进行累
5、乘,然后相加,最后计算出经济效益指标的综合评价指数。,综合指数法的基本步骤,(1)选择适当的指标(2)确定权重(3)根据实测数据及其规定标准,综合考察各评价指标,探求综合指数的计算模式。(4)合理划分评价等级(5)检验评价模式的可靠性,应用实例,引用甲、乙两地区2000年农业经济效益资料,说明综合指数法在分析评价农业经济效益方面的具体应用。甲乙两地区2000年农业经济效益相关资料见表1:,以农业物耗与产值比表示资金产出率;以亩均产量和亩均收入表示土地生产率;以劳均产值、劳均收入等表示劳动生产率。,在构建指标体系的基础上,通过德尔菲咨询,进行层次分析来确定各指标的权数,以初值化消除量纲,计算农业
6、经济效益综合指数。其计算公式为:,由计算结果可知,2000年两地区经济效益综合指数分别为110.28%和115.52%,均大于100%,说明两地区农业经济效益较好,且乙地区农业经济效益优于甲地区农业经济效益。,二、功效系数法,功效系数法是根据多目标规划原理而建立的一种评价方法。其含义是:在评价某一整体的综合效益时,一般有多种指标,而这些指标的性质和度量单位往往不同,不能直接相加或综合,需要通过一定形式的函数关系将其转化为同度量指标,再将这些同度量指标加权综合,使之形成一个综合指标,称之为总功效系数,以此评价整体的综合效益。,在以往功效系数法的应用中,最后功效系数值使用加权算术平均的方法确定,为
7、了更准确地评价整体效益状况,统计学家设计出改进功效系数,对每一评价指标分别确定一个满意值与不允许值,以满意值为标准上限,不允许值为标准下限,按线性正相关的方法将不同的评价指标无量纲化转为相应的评价分数,经加权几何平均得出综合评价分数,对评价对象的综合状况作出评估。综合功效系数越大,表明评价对象综合状况越佳。,其数学模型为:,应用实例:,基于功效系数法的城市土地利用效益评价以武汉市为例城市土地利用可从经济效益、社会效益、生态效益三个方面对其进行评价,但其涉及的指标繁杂,且性质与度量单位也存在较大差异,因此可以使用功效系数法对其进行评价。,三、主成分分析,主成分分析(Principal Compo
8、nent Analysis,PCA)在实际课题中,为了全面分析问题,往往提出很多与此有关的变量(或因素),因为每个变量都在不同程度上反映这个课题的某些信息。在用统计分析方法研究多变量的课题时,变量个数太多就会增加课题的复杂性。人们希望变量个数较少而得到的信息较多。当两个变量之间有一定相关关系时,可以解释为这两个变量反映此课题的信息有一定的重叠。主成分分析是对于原先提出的所有变量,建立尽可能少的新变量,使得这些新变量是两两不相关的,而且这些新变量在反映课题的信息方面尽可能保持原有的信息。,主成分分析方法的原理,设法将原来变量重新组合成一组新的互相无关的几个综合变量,同时根据实际需要从中可以取出几
9、个较少的综合变量尽可能多地反映原来变量的信息的统计方法叫做主成分分析或称主分量分析,也是数学上降维处理的一种方法。,主成分分析的具体步骤,1、确定指标体系在各项具体指标的设置和选择过程中,要注意指标的全面性、代表性、可得性、简洁性和整合性。2、建立原始信息矩阵Xnp3、对矩阵X中的数据实行标准化处理,统一指标之间的量纲,使其具有可比性4、求标准化矩阵Z的相关矩阵R,利用标准化后的数据计算P个指标间的相关系数5、求相关矩阵R的特征值和特征向量6、确定主成分的个数k累计贡献率大于等于85%的k值7、给出主成分Yi,i=1,2,p的表达式。8、计算综合评价指标综合评价指标其实就是前K个主成分的线性加
10、权值9、计算评价分值并排序,应用实例:,主成分分析及其应用探讨以山西省农村居民消费结构为例,山西省农村居民家庭平均每人全年消费性支出构成(19802002),SPSS操作,1、Analyze-Data Reduction-Factor,2、选择后弹出现下面的对话框,3、把数据都选进Variables 去,3、把数据都选进Variables 去,4、点击,5、弹出现下面的对话框,6、在对话框的空白处填0,记得上面的图中要选中前面的点,7、点击continue 钮8、返回上个对话框9、如需要得到相关系数矩阵,点击在Coefficients 前的方框打上钩,10、然后点击continue 钮11、返
11、回上个对话框,点击“OK”,分析结果表格,相关系数矩阵,可以看出变量之间的相关性,证明变量之间存在信息重叠。,分析结果表格,方差分解主成分提取分析表,特征值,主成分贡献率,累积贡献率,初始因子载荷矩阵,每一个载荷量表示主成分与对应变量的相关系数。,将前三个因子载荷矩阵输入(可用复制粘贴的方法)到数据编辑窗口(为变量B1、B2、B3),然后利用“Transform compute”,在对话框中输入“A1=B1/SQR(5.137)”即可得到特征向量A1。注:第二主成分SQR 后的括号中填1.365,第三主成分SQR 后的括号中填1.092,同理,可得到A2、A3。然后就可以得出主成分表达式。,T
12、ransform-compute,得出主成分表达式,主成分表达式,主成分得分表,主成分得分表,第一主成分代表的意义为消费结构针对发展、享受需求和生存需求的差异,得分越高,表明人们对于发展和享受的需求越大。,计算评价分值并排序,以每个主成分所对应的特征值占所提取主成分总的特征值之和的比例作为权重计算主成分综合模型。根据主成分综合模型可以计算综合主成分值,并对其按综合主成分值进行排序。,四、因子分析,因子分析就是将大量的彼此可能存在相关关系的变量转换成较少的,彼此不相关的综合指标的一种多元统计方法。这样既可减轻收集信息的工作量,且各综合指标代表的信息比重叠,便于分析。,因子分析的步骤,第一步:主因
13、子分析是通过原始变量的相关系数矩阵内部结构的研究,导出能控制所有变量的少数几个综合变量,通过这少数几个综合变量去描述原始的多个变量之间的相关关系。第二步:对因子的解释和命名从因子分析导出的负荷矩阵的结构出发,把变量按与公共因子相关性大小的程度分组,使同组内变量间的相关性较高,不同组的变量的相关性较低,按公因子包含变量的特点(即公因子内涵)对因子作解释命名。,应用实例,农民工培训驱动机理研究以重庆市璧山县为例在对2个街道办事处3个镇150余农户(主要是外出务工)及150余名外出农民工抽样调查的基础上,分析了该县农民工培训的特点,并运用因子分析法对影响农民工培训的因素(如就业概率、市场风险率、政府
14、支持度等)做了定量的分析,得出相关结论。,通过对璧山县2个街道办事处3个镇的外出农民工进行抽样调查、走访以及与当地一些政府部门的座谈,从影响农民工培训的因素中选取了8个具体变量进行分析,并根据当地农民工培训的具体情况对公式进行了相关转换,即:,各因子数据具体计算方法为:农民工愿意培训度=(愿意培训农民工数/农民工总人数)100%;企业愿意培训度=(企业愿意培训数/企业总数)100%;就业概率=(培训后找到工作人数/培训总人数)100%;接受知识限度为培训后进行相关考试,总分为一百分;政府支持度=(政府实际投入培训资金/政府预计投入资金)100%;市场风险率=(1-培训后各企事业实际招收人数/培
15、训前市场预计所需相关专业人数)100%.应用以上相关方法得出各因子所需数据,而后运用SPSS中的因子分析模型进行运算,结果如下:,Spss操作,1、Analyze-Data Reduction-Factor,点击Descriptives,弹出Factor Analysis:Descriptives对话框选Univariate descriptives项要求输出各变量的均数与标准差,选Coefficients项要求计算相关系数矩阵,并选KMO and Bartletts test of sphericity项,要求对相关系数矩阵进行统计学检验。点击Continue钮返回。,点击Extractio
16、n,弹出Factor Analysis:Extraction对话框,系统提供如下因子提取方法:,Principal components:主成分分析法;Unweighted least squares:未加权最小平方法;Generalized least squares:综合最小平方法;Maximum likelihood:极大似然估计法;Principal axis factoring:主轴因子法;Alpha factoring:因子法;Image factoring:多元回归法。,点击Rotation,弹出Factor Analysis:Rotation对话框,系统有5种因子旋转方法可选:
17、None:不作因子旋转;Varimax:正交旋转;Equamax:全体旋转,对变量和因子均作旋转;Quartimax:四分旋转,对变量作旋转;Direct Oblimin:斜交旋转。旋转的目的是为了获得简单结构,以帮助我们解释因子。之后点击Continue钮返回。,点击Scores,弹出弹出Factor Analysis:Scores对话框,系统提供3种估计因子得分系数的方法:之后点击Continue钮返回再点击OK钮即完成分析。,Correlation Matrix,初始因子载荷阵,初始因子载荷,提取因子载荷,旋转提取因子载荷,Component Matrix,主成分分析和因子分析的区别,因
18、子分析是主成分分析的推广和发展。在算法上,主成分分析和因子分析很类似。(1)因子分析中是把变量表示成各因子的线性组合,而主成分分析中则是把主成分表示成各变量的线性组合。(2)和主成分分析相比,由于因子分析可以使用旋转技术帮助解释因子,在解释方面更加有优势。大致说来,当需要寻找潜在的因子,并对这些因子进行解释的时候,更加倾向于使用因子分析,并且借助旋转技术帮助更好解释。而如果想把现有的变量变成少数几个新的变量(新的变量几乎带有原来所有变量的信息)来进入后续的分析,则可以使用主成分分析。,五、聚类分析,聚类分析又称群分析、点群分析,指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的多元统计
19、评价过程。是定量研究分类问题的一种多元统计方法。,聚类分析的概念,聚类分析的概念,人类认识世界往往首先将被认识的对象进行分类,因此分类学便成为人类认识世界的基础科学。在社会生活的众多领域中都存在着大量的分类问题。以前人们主要靠经验和专业知识做定性分类处理,致使许多分类带有主观性和任意性,不能很好地揭示客观事物内在的本质差别与联系,特别是对于多因素、多指标的分类问题,定性分类更难以实现准确分类。,为了克服定性分类存在的不足,于是把数学方法引进分类学中,形成了数值分类学,后来随着多元分析的引进,聚类分析又逐渐从数值分类学中分离出来,形成一个相对独立的分支。在多元统计分析中,聚类分析在许多领域中都得
20、到了广泛的应用,取得了许多令人满意的成果。,聚类分析的基本思想,认为所研究的样品或指标之间存在着程度不同的相似性,于是根据一批样品的多个观测指标,找出能够度量样品或变量之间相似程度的统计量,并以此为依据,采用某种聚类法,将所有的样品或变量分别聚合到不同的类中,使同一类中的个体有较大的相似性,不同类中的个体差异较大。,聚类分析的内容,聚类分析包括很多种方法,系统聚类法是最基本、最常用的一种,此外还有有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、有重叠聚类等,不同的方法适合解决不同类型的问题。,聚类分析的对象类型,Q型聚类采用距离统计量,是对样品进行分类处理。根据观测有关变量的特征,将特征相
21、似的样品归为一类。它是聚类分析中用的最多的一种,具有以下优点:1、可综合利用多个变量的信息对样品进行分类;2、分类结果直观,聚类谱系图非常清楚地表现分类结果;3、所得结果比传统分类方法更细致、全面、合理。,R型聚类采用相似系数统计量,是对变量进行分类处理。一般来说,可以反映研究对象特点的变量有许多,由于对客观事物的认识有限,往往难以找出彼此独立且有代表性的变量,影响对问题进一步的认识和研究,因此往往需要先进行变量聚类,找出相互独立又有代表性的变量,而又不丢失大部分信息。,R型聚类分析的主要作用:1、可了解个别变量之间及变量组合之间的亲疏程度;2、根据变量的分类结果以及它们之间的关系,可以选择主
22、要变量进行回归分析或Q型聚类分析。,事物之间的相似性测度,聚类分析用于系统类群相似性的研究,其实质上是寻找一种能客观反映样品或变量之间亲疏关系的统计量,然后根据这种统计量把样品或变量分成若干类。常用的统计量有距离和相似系数。,用相似系数度量,是两个事物离得多近的度量。性质越接近的元素其相似系数的绝对值越接近于1;彼此无关的元素其相似系数的绝对值越接近于0。相似的元素归为一类,不相似的元素归为不同的类。,用距离来度量,是两个事物离得多远的度量。将一个样品看作空间的一个点,在空间定义距离,距离近的点归为一类,距离远的点归为不同的类。,变量类型的划分,1、间隔尺度:是用连续的实值变量来表示的,是由测
23、量或计数、统计所得到的量。如:经济统计数字、抽样调查数据、身高、体重、年龄、速度、压力等。,2、有序尺度:没有明确的数量表示,而是划分一些等级,等级之间有次序关系。如:毕业论文成绩有:优、良、中、及格、不及格之分;体质状况有好、中、差三个等级;某产品质量可分为一等品、二等品、三等品等。,变量类型的划分,3、名义尺度:既没有数量表示,也没有次序关系,而是表现为某种状态,其值通常是非数值数据。如:性别有男、女;颜色有红、黄、蓝、绿等;医疗诊断中的阴性、阳性等。,变量类型的划分,不同类型的变量,其距离和相似系数的定义方法有很大差异。用得较多的是间隔尺度,因此只介绍间隔尺度的距离和相似系数的定义。,n
24、个样品p项指标形成的原始数据资料矩阵中,每一行表示一个样品,每一列表示一个变量。因此,两个样品的相似性可用矩阵中两行的相似程度来刻划;两个变量的相似性可用矩阵中两列的相似程度来刻划。,1、距离定义:将n个样品看成p维空间中的n个点,两个样品间相似程度可用p维空间中两点的距离来度量。(1)绝对距离(2)欧氏距离(3)马氏距离(4)切比雪夫距离 计算出任何两个样品之间的距离排成距离阵D,根据D可对n个点进行分类,距离近的点归为一类,距离远的点归为不同的类。,2、相似系数:将n个样品看成p维空间中的n个向量。(1)夹角余弦(2)相关系数以上是样品分类常用的距离和相似系数定义,它是在p维空间中来研究n
25、个样品间的相似;而对变量分类是在n维空间中来研究p列变量间的相似,其相似性也用距离和相似系数来度量。,系统聚类分析方法,系统聚类分析也叫分层聚类分析,是目前国内外使用得最多的一种方法,有关它的研究极为丰富,聚类分析的方法也最多。,系统聚类的步骤,(1)计算n个样品两两之间的距离记为矩阵D;(2)首先构造n个类,每一类中只包含一个样品;(3)合并距离最近的两类为新类;(4)继续合并,直到所有的样本合并为一类为止;(5)画谱系图;(6)决定类的个数和类。系统聚类允许一类整个地包含在另一类内,但在这两类间不能有其他类与之重叠。,系统聚类方法,样品之间可以用不同的方法定义距离,类与类之间的距离也有多种
26、定义。用不同的方法定义类与类之间的距离,就产生了不同的系统聚类方法。,(1)最短距离法:定义类与类之间距离为两类最近样品的距离,使空间浓缩,形成链状,分类效果不好;(2)最长距离法:定义类与类之间距离为两类最远样品的距离,受奇异值的影响大;,(3)重心法:以两类重心之间的距离作为两类间的距离。重心即该类样品的均值。每合并一次类,都要重新计算新类的重心。不具单调性,图形逆转,限制了其应用,可能引起局部最优,但在处理异常值方面较稳健。,(4)类平均法:以两类元素两两之间距离平方的平均作为类间距离的平方。(5)离差平方和法:又称Ward法,其基本思想是认为同类样品的离差平方和应当较小,类与类的离差平
27、方和应当较大。首先n个样品各自成一类,然后每次缩小一类,每缩小一类离差平方和就要增大,选择使离差平方和增加最小的两类合并,直到所有样品归为一类。它分类效果较好,应用较广泛,对异常值较敏感。,离差平方和是各项与平均项之差的平方的总和,以上几种聚类方法,只有两点区别:(1)类与类之间距离定义不同;(2)计算新类与其他类的距离所用的公式不同,因而并类距离不同;各种方法并类步骤完全一样。,在一般情况下,用不同的方法聚类的结果是不会完全一致的,怎样比较各种方法的优劣呢?至今还没有合适的衡量标准,因为不存在一种总是最优的聚类方法。类的结构(规模、形状、个数)、奇异值、相似测度选择都会影响结果。在实际应用中
28、,一般采用以下两种处理方法:(1)根据分类问题本身的专业知识结合实际需要来选择分类方法,并确定分类个数;(2)多用几种分类方法去作,把结果中的共性提出来,对有争议的样品用判别分析去归类。,应注意的问题,(1)在聚类分析中,应根据不同的目的选用不同的指标。一般来说,选择哪些变量应该具有一定的理论支持,但在实践中往往缺乏这样强有力的理论基础,一般根据实际工作经验和所研究问题的特征人为的选择变量,这些变量应该和分析的目标密切相关,反映分类对象的特征,在不同研究对象上的值具有明显差异,变量之间不应该高度相关。选变量时并不是加入的变量越多,得到的结果越客观。有时,加入一两个不合适的变量就会使分类结果大相
29、径庭。,变量之间高度相关相当于加权,此时,有两种处理方法:(1)首先进行变量聚类,从每类中选一代表性变量,再进行样品聚类;(2)进行主成分分析或因子分析,降维,使之成为不相关的新变量,再进行样品聚类。,(2)标准化问题指标选用的度量单位将直接影响聚类分析的结果。为了避免对变量单位选择的依赖,数据应当标准化。数据量纲不同时,必须进行标准化;但如果量纲相同,可数量级相差很大,这时也应该进行标准化。,应注意的问题,研究问题 对一个班同学的数学水平进行聚类。聚类的依据是第一次数学考试的成绩和入学考试的成绩。,SPSS中实现过程,表 学生的数学成绩,数据如下表所示:,实现步骤,在SPSS中如何选择标准化
30、方法:Analyze Classify Hierachical Cluster Analysis 然后从对话框中进行如下选择,“Hierarchical Cluster Analysis”对话框(一),“Hierarchical Cluster Analysis:Method”对话框(一),从Transform Values框中点击向下箭头,将出现如下可选项,从中选一即可:,1、数据标准化,常用标准化方法(选项说明):,None:不进行标准化,这是系统默认值,为了便于后面的说明,作如下假设:,均值表示为,标准差表示为,所有样本表示为,极差表示为,Z Scores:标准化变换,作用:变换后的数据
31、均值为0,标准差为1,消去了量纲的影响;当抽样样本改变时,它仍能保持相对稳定性。,Range 1 to 1:极差标准化变换,作用:变换后的数据均值为0,极差为1,且|xij*|1,消去了量纲的影响;在以后的分析计算中可以减少误差的产生。,Maximum magnitude of 1,作用:变换后的数据最大值为1。,Range 0 to 1(极差正规化变换/规格化变换),作用:变换后的数据最小为0,最大为1,其余在区间0,1内,极差为1,无量纲。,Mean of 1,作用:变换后的数据均值为1。,Standard deviation of 1,作用:变换后的数据标准差为1。,在SPSS中如何选择
32、测度:Analyze Classify Hierachical Cluster Analysis Method 然后从对话框中进行如下选择,2、构造关系矩阵,描述变量或样本的亲疏程度的数量指标有两种:相关系数距离,从Measure框中点击Interval项的向下箭头,将出现如左可选项,从中选一即可。,常用测度(选项说明):,Euclidean distance:欧氏距离(二阶Minkowski距离),用途:聚类分析中用得最广泛的距离但与各变量的量纲有关,未考虑指标间的相关性,也未考虑各变量方差的不同,Squared Euclidean distance:平方欧氏距离,用途:聚类分析中用得最广泛
33、的距离,Cosine:夹角余弦(相似性测度),用途:计算两个向量在原点处的夹角余弦。当两夹角为0o时,取值为1,说明极相似;当夹角为90o时,取值为0,说明两者不相关。取值范围:01,Pearson correlation:皮尔逊相关系数,用途:计算两个向量的皮尔逊相关系数,Chebychev:切比雪夫距离,用途:计算两个向量的切比雪夫距离,Block:绝对值距离(一阶Minkowski度量)(又称Manhattan度量或网格度量),用途:计算两个向量的绝对值距离,Minkowski:明科夫斯基距离,用途:计算两个向量的明科夫斯基距离,Customized:自定义距离,用途:计算两个向量的自定
34、义距离,SPSS中如何选择系统聚类方法,从Cluster Method框中点击向下箭头,将出现如左可选项,从中选一即可。,Between-groups linkage 组间平均距离连接法,特点:非最大距离,也非最小距离,方法简述:合并两类的结果使所有的两两项对之间的平均距离最小。(项对的两成员分属不同类),Within-groups linkage 组内平均连接法,方法简述:两类合并为一类后,合并后的类中所有项之间的平均距离最小,常用系统聚类方法介绍,Nearest neighbor 最近邻法(最短距离法),特点:样品有链接聚合的趋势,这是其缺点,不适合一般数据的分类处理,除去特殊数据外,不提
35、倡用这种方法。,方法简述:首先合并最近或最相似的两项,Furthest neighbor 最远邻法(最长距离法),方法简述:用两类之间最远点的距离代表两类之间的距离,也称之为完全连接法,Centroid clustering 重心聚类法,特点:该距离随聚类地进行不断缩小。该法的谱系树状图很难跟踪,且符号改变频繁,计算较烦。,方法简述:两类间的距离定义为两类重心之间的距离,对样品分类而言,每一类中心就是属于该类样品的均值,Median clustering 中位数法,特点:图形将出现递转,谱系树状图很难跟踪,因而这个方法几乎不被人们采用。,方法简述:两类间的距离既不采用两类间的最近距离,也不采用
36、最远距离,而采用介于两者间的距离,Wards method 离差平方和法,特点:实际应用中分类效果较好,应用较广;要求样品间的距离必须是欧氏距离。,方法简述:基于方差分析思想,如果分类合理,则同类样品间离差平方和应当较小,类与类间离差平方和应当较大,生成树形图,生成冰柱图,凝聚状态表,显示聚类过程,各项间的距离矩阵,类成员栏,“Hierarchical Cluster Analysis:Plots”,“Hierarchical Cluster Analysis:Statistics”对话框(一),由于本例中选中的选项较多,这里按照各个结果分别解释。(1)首先是层次聚类分析的概要结果,该结果是S
37、PSS输出结果文件中的第一个表格,如下表所示。,结果和讨论,(2)输出的结果文件中第二个表格如下表所示。,欧氏距离,(3)输出的结果文件中第三个表格为层次聚类分析的凝聚状态表,包括:,(4)输出的结果文件中第四个表格如下表所示。,(5)输出的结果文件中第五个表格如下表所示。,反映样品聚类的情况图,(6)输出的结果文件中第六部分如图所示。,树形图,(7)由于对“Hierarchical Cluster Analysis:Save New Var”对话框进行了设置,将聚类成三类时,各个样本的类归属情况保存为一个变量,因此在SPSS数据编辑窗口中就新增了一个变量的值,如图所示。,前面讲述了不同种聚类
38、分析的方法,不论是哪种方法,聚类分析都是直接比较各事物之间的性质,将性质相近的归为一类,将性质差别较大的归入不同的类。,六、判 别 分 析,判别分析,也是一种比较常用的分类分析方法。,定义:判别分析先根据已知类别的事物的性质(自变量),建立函数式(自变量的线性组合,即判别函数),然后对未知类别的新事物进行判断以将之归入已知的类别中。,统计学上的定义和计算公式,研究问题 调查了15个公司的组织文化、领导角色和员工发展3个方面内容作为预测变量,因变量为公司对员工的吸引力。为符合研究问题,将公司对员工的吸引力根据被测的实际填答情形,划分为高吸引力组(group=1)、中吸引力组(group=2)和低
39、吸引力组(group=3)。,表 不同类的不同公司特点,数据如表所示。,判别分析有如下的假定:预测变量服从正态分布。预测变量之间没有显著的相关。预测变量的平均值和方差不相关。预测变量应是连续变量,因变量(类别或组别)是间断变量。两个预测变量之间的相关性在不同类中是一样的。,在分析的各个阶段应把握如下的原则:事前组别(类)的分类标准(作为判别分析的因变量)要尽可能准确和可靠,否则会影响判别函数的准确性,从而影响判别分析的效果。所分析的自变量应是因变量的重要影响因素,应该挑选既有重要特性又有区别能力的变量,达到以最少变量而有高辨别能力的目标。初始分析的数目不能太少。,这些判别函数是各个独立预测变量
40、的线性组合。程序自动选择第一个判别函数,以尽可能多地区别各个类,然后再选择和第一个判别函数独立的第二个判别函数,尽可能多地提供判别能力。程序将按照这种方式,提供剩下的判别函数。判别函数的个数为k。,判别分析的示意图,研究问题 调查了15个公司的组织文化、领导角色和员工发展3个方面内容作为预测变量,因变量为公司对员工的吸引力。为符合研究问题,将公司对员工的吸引力根据被测的实际填答情形,划分为高吸引力组(group=1)、中吸引力组(group=2)和低吸引力组(group=3)。,SPSS中实现过程,表 不同类的不同公司特点,数据如表所示。,实现步骤,图 在菜单中选择“Discriminant”
41、命令,指定判别分析的自变量,在Minimum:后面的矩形框中输入该分类变量的最小值;在Maximurn:后面的矩形框中输入该分类变量的最大值。,选择分类变量及其范围,选择判别分析方法,在主对话框中,自变量列表框下侧显示两个单选框,用于指定选择判别分析的方法。,选择判别分析方法,Enter independents together 默认选项。当认为所有自变量都能对观测特性提供丰富的信息时,使用该选项,选择该项将不加选择地使用所有自变量进行判别分析,建立全模型,且不需要进一步选择。,Use stepwise method 逐步分析方法。当认为不是所有自变量都能对观测量特性提供丰的信息时,选择该项
42、,因此需要判别贡献的大小再进行选择。选中该单选按钮时,“Method”按钮被激活,可以进一步选择判别分析方法。,“Method”按钮,选择判别分析方法在Method组的矩形框中进行。可供选择的判别分析方法有:Wilkslambda 使Wilk的统计量最小化法。Unexplained variance。使各类不可解释的方差和最小化法。Mahalanobisdistance。使最近两类间的 Mahalanobis距离最大化法。Smallest F ratio。使任何两类间的最小的F值最大化法。Raos V。使 RaoV统计量最大化。可以对一个要加入到模型中的变量的V值指定一个最小增量。选择此种方法
43、后,应该在该项下面的V-to-enter后的矩形框中输这个增量的指定值。,选择逐步判别停止的判据在criteria组的矩形框中进行。可供选择的判据有:Use F value:使用F值,是系统默认的判据,默认值是:Entry:3.84;removal:2.71。即当被加入的变量F值=3.84时才把该变量加入到模型中,否则变量不能进入模型;或者,当要从模型中移出的变量F值=2.71时,该变量才被移出模型,否则模型中的变量不会被移出。应该使Entry值(加入变量的F值)removal值(移出变量的F值)Use probability of F:使用F值的概率。加入变量的F值概率的默认值是0.05(5
44、);移出变量的q值概率是0.10(10)。removal值(移出变量的正值概率)Entry值(加入变量的F值概率)。,显示内容的选择,对于逐步选择变量的过程和最后结果的显示可以通过Method对话框最下面的“Display”矩形框中的两项进行选择:Summary of step要求在逐步选择变量过程中的每一步之后显示每个变量的统计量。F for pairwise distances要求显示两两类之间的两两F值矩阵。,Statistics选项,在主对话框中单击“statistics”按钮,打开“Discriminant Anlysis:statistics”(判别分析:统计量)对话框,如图所示。
45、,“Discriminant Anlysis:statistics”对话框,在“descriptive”(描述性)选项组中选择对原始数据的描述统计量的输出。Means 均值。选择该项,可以输出各类中各自变量的均值、标准差以及各自变量总样本的均值和标准差。Univariate ANOVAs 单变量方差分析。选择该项,表示对每一类同一自变量均值都相等的假设进行检验,输出单变量的方差分析结果。Boxs M 选择该项,表示对各类的协方差矩阵相等的假设进行检验。,“Function Coefficients”(判别分析的系数)选项组中给出选择判别函数系数的输出形式的选项,有两个复选项:Fishers 选
46、择该项,表示可以用于对新样本进行判别分类的fisher系数,对每一类给出一组系数,并给出该组中判别分数最大的观测量。Unstandardized 选择该项,表示未经标准化处理的判别系数。,在“matrices”(矩阵)选项组中选择自变量的系数矩阵,有4个复选项:Within-group correlation类内相关矩阵。它计算相关矩阵之前将各组协方差矩阵平均后,计算类内相关矩阵。Within-group covariance合并类内协方差矩阵,是将各组(类)协方差矩阵平均后计算的,区别与总协方差矩阵。Separate-groups covariance 协方差矩阵。Total covaria
47、nce 总样本的协方差矩阵。,Classification 选项,在主对话框中单击“classify”按钮,显示“Discriminant Analysis:Classification”(判别分析:分类)子对话框,如图所示。,“Discriminant Analysis:Classification”对话框,在“prior probabilities”选项组中选择先验概率,有两个单选项供选择:All groups equal 表示各类先验概率相等。Compute from groups sizes 表示由各类的样本量计算决定,即各类的先验概率与其样本量成正比。,在“use covarianc
48、e matrix”(利用协方差矩阵)选项组中选择分类使用的协方差矩阵,有两个单选项:Within-groups选择该项,表示指定使用合并组内协方差矩阵进行分类。Separate-groups选择该项,表示指定使用各组协方差矩阵进行分类,由于分类是根据判别函数而不是根据原始变量,因此该选择项不是总等价于二次判别。,在“plots”选项组中选择要求输入的统计图形,给出3个复选项:Combined-groups选择该项,生成一张包括各类的散点图,该散点图是根据前两个判别函数值做的散点图;如果只有一个判别函数,就输出直方图。Separate-groups选择该项,根据前两个判别函数值对每一类生成一张散
49、点图,共分为几类就生成几张散点图;如果只有一个判别函数就生成一张直方图。Territorial map选择该项,生成用于根据函数值把观测量分到各组中去的边界图,此种统计图把一张图的平面划分出与类数相同的区域,每一类占据一个区,各类的均值在各区中用*号标出;如果仅有一个判别函数则不作此图。,在“display”选项组中选择生成到输出窗中的分类结果,其中包括3个复选框:Casewise results 要求输出每个管测量,包括判别分数实际类预测类(根据判别函数求得的分类结果)和后验概率等,选择此项还可以选择其附属选择项,选择“Limit cases to”(个案限制)选项,并在后面的文本框中输入观
50、测量数n,选择此项则仅对前n个观测量输出分类结果,观测数量大时可以选择此项。Summary table 要求输出分类的综述表,给出正确分类观测数(原始类和根据判别函数计算的预测类相同)和错分观测量数即错分率。Leave-one-out classification 输出对每个观测量进行分类的结果,所依据的判别时由除该观测量以外的其他观测量导出的,也称为交互校验结果。,该对话框给出选择缺失值的处理方法,即“Replace missing values with mean”,表示用该变量的均值代替缺失值。,Save选项,在主对话框单击“save”按钮,打开“Discriminant Analysi