《多变量数据分析技术-I.ppt》由会员分享,可在线阅读,更多相关《多变量数据分析技术-I.ppt(54页珍藏版)》请在三一办公上搜索。
1、,SAS6.12,SAS7.0,SAS8.0,SAS8.1,SAS8.2,SAS9.0,Answer Tree,AMOS/LISREL,UCINET,ACA-CBC,Decision Time,Clementine,Enterprise Miner,What If,SPSSMR,Pencil-Paper,市场调查,管理咨询,描述性统计,多变量分析技术,市场研究模型技术,数据挖掘技术,数据可视化技术,调查手段,1990年1995年1998年2002年,调研机构,专用分析软件与模块,Spss3.0,Spss4.0,Spss6.0,Spss7.0,Spss7.5,Spss8.0,Spss9.0,Sp
2、ss10,Spss11,CATI,WEB Survey,DATA WareHouse,CAPI,市场营销,市场研究统计、模型、软件,数量型非数量型,统计分析是正确理解数据的工具,首先:要避免犯统计错误,明确:统计没有错误,犯错的是人。,1.理论和方法的错误,2.理解和解释的错误,变量:测量尺度,名称级-定类变量顺序级-定序变量间隔级-定距变量比例级-定比变量,低,高,转换,定性,定量,非数量型,数量型,离散型随机变量,连续型随机变量,统计分析方法的应用有时候按变量的测量等级来划分。,=0,=1,均值,标准差,=0.025,=0.025,1-=0.95,95%,99%,95%,68%,-1,-2
3、,-3,+1,+2,+3,均值,标准差,=0.025,=0.025,1-=0.95,95%,99%,95%,68%,-,-2,-3,+,+2,+3,多变量统计分析法高级数据处理分析技术,多元回归分析 Multiple Regression Analysis主成份分析 Principal Component Analysis PCA因子分析 Factor Analysis FA(EFA&CFA)多元方差分析 ANOVA多维判别分析 Multiple Discrimination Analysis多维尺度分析 Multidimensional Scaling MDS MDA多元逻辑斯特回归 Mul
4、tiple Logistic Regression对应分析 Correspondence Analysis CA多元对应分析 Multiple Correspondence Analysis MCA多维偏好分析 Multidimensional Preference Analysis MDPREF 非线性主成份分析(Optimal Scaling)分类树 AnswerTreeCHAID&CART聚类分析 Cluster Analysis结合分析 Conjoint Analysis离散选择模型 Discrete Choice Model结构方程式模型 Structural Equation Mo
5、del 预测与决策模型Decision Time&What if网络分析Network Analysis,多元回归分析Multiple Regression Analysis,通话质量,特服台服务,技术支持/咨询,装机/修机/移机业务,营业厅服务,服务宣传项目,话费价格,话费/查询/准确/缴费,投诉/纠纷,急需改进区,优势保持区,次要改进区,锦上添花区,某省电信各项总体满意度指标的重要性和满意度象限图,满意度水平(表现),重要性水平,Y=a+bX,因变量,自变量(预测变量),截距,斜率,数学上下列方程在图形上是一条直线,X,Y,X和Y线性回归,d,Yi,回归分析的问题,决定系数R2方差分析表回
6、归诊断残差图共线性问题变量转换异常值处理预测范围因变量是0-1定类变量:logistic regression,Component Plot,Component 1,.7,.6,.5,.4,.3,Component 2,.6,.4,.2,-.0,-.2,-.4,-.6,接待投诉耐心,处理投诉迅速,维修专业程度,维修服务态度,维修及时程度,广告吸引力,广告投放量,入网费打折促销,对服务承诺的兑现情况,维修服务收费,通话费计费透明度,通话费计费准确性,通话费,入网费,营业员专业水平,营业员服务态度,营业厅规模,营业厅环境,销售网点分布,开户手续,网络覆盖,服务和网络功能,公司对各种承诺的兑现,公司
7、手机网络的用户量,公司的技术力量,对该公司将来的信心,公司信誉,公司实力,公司总体形象,重要性水平,表现,主成份分析 Principal Component Analysis PCA,急需改进区,优势保持区,次要改进区,锦上添花区,某移动通讯服务供应省满意度指标的重要性和满意度象限图,主成份分析 Principal Component Analysis PCA,0,-1,-2,1,2,3,0,-1,-2,1,2,-3,第一主成份,第二主成份,沃尔沃,奔驰,BMW,切诺基,桑塔纳,捷达,富康,红旗,奥迪,别克,现代,本田,丰田,赛欧,主成份分析的基本概念,x1,x2,Y1,Y2,x1,x2,X1
8、与x2相关,Y1与Y2不相关,主成份分析的基本原理,P个变量能够组成p个主成份。每个主成份是p个原始变量的线性组合。第一主成份解释p个变量的最大变差。第二主成份解释p个变量的第二大变差。最后一个主成份解释变差最小。所有主成份彼此之间正交。线性组合后的主成份在几何空间上代表p个变量构成坐标系旋转后的新坐标系,新坐标轴代表了最大变差方向。,主成份分析应用,减少变量的个数。用于回归分析用于聚类分析用于偏好分析用于画出偏好图构造综合评价指数综合排序。,因子分析 Factor Analysis,每升行驶里程,可靠性能,安全性能,0,-1,-2,1,2,3,0,-1,-2,1,2,-3,豪华型,运动型,经
9、济型,第一因子得分,第二因子得分,因子分析-factor Analysis,一种简化数据的技术。探索性因子分析。证实性因子分析 因子分析就是要找到具有本质意义的少量因子。并用一定的结构/模型,去表达或解释大量可观测的变量。,主要应用,简化数据,减维技术。识别数据中潜在的不正直接观测的结构或维度。用产生的不相关的因子作为变量用于其它分析聚类分析、回归分析、判别分析等。识别变量中重要变量,用于其它分析。作偏好图。(两个因子)问卷设计的信度和效度。,因子分析的基本步骤,确定研究的问题数据准备考察相关矩阵选择抽取因子的方法取定因子的个数旋转因子最大方差法评价模型的拟合效果解释因子并命名因子得分用于其它
10、分析,多维偏好分析 Multidimensional Preference Analysis MDPREF,每升行驶里程,可靠性能,安全性能,0,-1,-2,1,2,3,0,-1,-2,1,2,-3,第一主成份,第二主成份,豪华型,运动型,经济型,沃尔沃,奔驰,BMW,切诺基,桑塔纳,捷达,富康,红旗,奥迪,别克,现代,本田,丰田,赛欧,第二因子得分,第一因子得分,理想点模型,每升行驶里程,可靠性能,安全性能,0,-1,-2,1,2,3,0,-1,-2,1,2,-3,第一主成份,第二主成份,豪华型,运动型,经济型,沃尔沃,奔驰,BMW,切诺基,桑塔纳,捷达,富康,红旗,奥迪,别克,现代,本田,
11、丰田,赛欧,第二因子得分,第一因子得分,理想点,帕萨特,Component 1,1.0,.5,0.0,-.5,-1.0,Component 2,1.0,.8,.6,.4,.2,0.0,-.2,-.4,-.6,-.8,S25,S24,S23,S22,S21,S20,S19,S18,S17,S16,S15,S14,S13,S12,S11,S10,S9,S8,S7,S6,S5,S4,S3,S2,S1,主成份分析 Principal Component Analysis PCA市场细分,REGR factor score 1 for analysis 1,2.5,2.0,1.5,1.0,.5,0.0,
12、-.5,-1.0,-1.5,REGR factor score 2 for analysis 1,3,2,1,0,-1,-2,奥迪A6,宝来,别克,富康,波罗POLO,夏利2000,风神蓝鸟,捷达,广州本田,帕萨特,奥托,羚羊,红旗铭仕,奇瑞,赛欧,吉利,桑塔纳,因子分析 Factor Analysis FA(EFA&CFA)市场细分,奥迪A6,宝来,别克,富康,波罗POLO,夏利2000,风神蓝鸟,捷达,广州本田,帕萨特,奥托,羚羊,红旗铭仕,奇瑞,赛欧,吉利,桑塔纳,Component 1,1.0,.5,0.0,-.5,-1.0,Component 2,1.0,.8,.6,.4,.2,0.
13、0,-.2,-.4,-.6,-.8,S25,S24,S23,S22,S21,S20,S19,S18,S17,S16,S15,S14,S13,S12,S11,S10,S9,S8,S7,S6,S5,S4,S3,S2,S1,产品定位图,聚类分析Cluster Analysis,Dendrogram using Average Linkage(Between Groups)Rescaled Distance Cluster Combine C A S E 0 5 10 15 20 25 Label Num+-+-+-+-+-+桑塔纳 1-+-+红旗铭仕 10-+-+捷达 14-+I 吉利 2-+-+-
14、+奥托 7-+I I I 奇瑞 4-+-+-+I 富康 11-+-+I I 夏利2000 12-+-+I I I I 羚羊 13-+-+-+I 赛欧 3-+-+I I 波罗POLO 5-+I I 宝来 6-+I 别克 15-+-+I 风神蓝鸟 16-+-+I 帕萨特 8-+-+-+广州本田 9-+I 奥迪A6 17-+,谱系聚类分析和快速聚类Hierarchical&K-Mean Cluster Analysis,聚类分析的基本概念,聚类分析(cluster analysis)顾名思义是一种分类的多元统计分析方法。按照个体或样品(individuals,objects or subjects)
15、的特征将它们分类,使 同一类别内的个体具有尽可能高的同质性(homogeneity),而类别之间则应具 有尽可能高的异质性(heterogeneity)。也可以对变量分类,但是更常见的还是对个体分类。为了得到比较合理的分类,首先要采用适当的指标来定量地描述研究对象(样品 或变量,常用的是样品)之间的联系的紧密程度。常用的指标为“距离”和“相似系数”。假定研究对象均用所谓的“点”来表示。在聚类分析中,一般的规则是将“距离”较小的点或“相似系数”较大的点归为同一 类,将“距离”较大的点或“相似系数”较小的点归为不同的类。,需要一组表示个体性质或特征的变量,称之为分类变量。根据个体或样本之间联系的紧
16、密程度进行分类。一般来说分类变量的组合都是由研究者规定的,不是像其它多元分析方 法那样估计推导出来的。聚类分析前所有个体或样品所属的类别是未知的,类别个数一般也是未 知的,分析的依据就是原始数据,没有任何事先的有关类别的信息可参考。严格说来聚类分析并不是纯粹的统计技术,它不像其它多元分析法那样,需 要从样本去推断总体。聚类分析一般都涉及不到有关统计量的分布,也不需要进行显著性检验。聚类分析更像是一种建立假设的方法,而对假设的检验还需要借助其它 统计方法。,聚类分析的基本概念,Euclidean distance model,Dimension 1,2,1,0,-1,-2,-3,Dimensio
17、n 2,1.5,1.0,.5,0.0,-.5,-1.0,-1.5,-2.0,北京申办2008年奥运会,两岸关系,中国能否加入世贸组织,国营和集体企业改组、,依法治国,教育体制改革,打假,澳门回归,行业不正之风,土地承包政策不变,乱收费,农村脱贫致富,水灾后重建,农村村务公开、民主选举,减轻农民负担,反腐败,环境保护,亚洲金融危机会否波及,人民币是否贬值,养老保险,社会治安,下岗再就业,物价涨跌,医疗改革,住房货币化改革,多维尺度分析MDS,个人利益,国家利益,农民利益,社会利益,对维尺度分析-Multidimensional Scaling,在市场研究领域主要研究消费者的态度,衡量消费者的知觉
18、及偏好。涉及的研究对象非常广泛,例如:汽车、洗头水、饮料、快餐食品、香烟和国家、企业品牌、政党候选人等。通过MDS分析能够为市场研究提供有关消费者的知觉和偏好信息。主要借助计算机统计分析软件,输入有关消费者对事物的知觉或偏好数据,转换为一组对象或对象特征构成的多维空间知觉或偏好图感知图。,应用MDS,收集的数据值大小必须能够反应两个研究对象的相似性或差异性程度。这种数据叫做邻近。所有研究对象的邻近数据可以用一个邻近矩阵表示。反映邻近的测量方式:相似性-数值越大对应着研究对象越相似。差异性-数值越大对应着研究对象越不相似。两个地点(位置)之间的实际距离。(测量差异性)两个产品之间相似性或差异性的
19、消费者心理测量。两个变量的相关性测量。(相关系数测量相似性)从一个对象过渡到另一个对象的转换概率。例如概率反应了消费者对品牌或产品偏好的变化。(测量相似性)反映两种事物在一起的程度。例如:用早餐人们经常将两种食品搭配在一起。(测量相似性),多维判别分析 Multiple Discrimination Analysis MDA,判别函数2,判别函数1,-1,-2,1,2,3,0,-1,-2,1,2,-3,价格水平,交货速度,产品质量,销售力度,价格弹性,总体服务,制造商形象,新用户,犹豫/转移用户,重复购买用户,判别分析是一种进行统计判别和分类的统计技术手段。它可以就一定数量的个体的一个分类变量
20、和相应的其它多元变量的已知信息,确定分类变量与其它多元变量之间的数量关系,建立判别函数。利用这一数量关系对其他已知多元变量的信息、但未知分组的子类型的个体进行判别分组。市场细分研究中,常涉及判别个体所属类型的问题。也常涉及不同品牌在一组产品属性之间的消费者偏好和认知概念,判别分析可以很好地对这种差异进行鉴别。并在低维度空间表现这种差异。,因变量(dependent variable):分组变量定性数据(个体、产品/品牌、特征)。自变量(independent variable):判别变量定量数据(属性的评价得分)。,判别分析,确定分组变量与判别变量间的关系,建立判别函数,找到自变量的最佳区分因
21、变量的各个类别的线性组和。也可以确定后验概率,计算每个个体落入各个类别的概率。确定哪些判别变量x1、x2、x3、xk对区分类别差异的影响最大。考察各个类别在判别变量方面是否存在显著差异。确定判别变量是以什么形式影响因变量的,即D是 x1 x2 x3 xk 什么形式的函数。根据判别变量的值对个体进行分类。对分析的准确程度进行评价。,主要应用判别和细分市场,用户和非用户经常购买者和非经常购买者新用户、流失用户和忠实用户忠诚用户和非忠诚用户新产品早期使用者和后期使用者消费者心目中喜欢的品牌和不喜欢的品牌消费者对我们的品牌和竞争品牌的不同属性偏好偏好图市场细分新产品开发,A,B,C,D,E,F,G,价
22、格合理性,易于服用,药效持久,有效性,对儿童有益,药性温和,感冒药品概念图/品牌图,Logistic回归模型,逻辑斯特回归,Logistic回归是一种进行统计判别和分类的统计技术手段。它可以就一定数量的个体的一个二分变量(因变量)和相应的其它多个自变量(预测变量)的已知信息,确定二分变量与其它预测变量之间的数量关系,建立Logistic非线性回归方程。利用回归方程进行预测和解释,在其他已知多元变量的信息、但未知分组的个体进行判别分组。,因变量(dependent variable):0-1变量 二分变量(个体、产品/品牌、特征)。自变量(independent variable):预测变量定量
23、数据或定性(属性的评价得分)。,市场细分研究中,常涉及判别个体所属类别是两个分类的问题。例如:是否该给某个人发信用卡,是否是用户,成功和失败,疾病的诊断等,Logistic 回归可以很好地对这种差异进行鉴别。,.6,.4,.2,.0,-.2,-.4,-.6,-.8,-1.0,1.5,1.0,.5,0.0,-.5,-1.0,新疆,宁夏,青海,甘肃,陕西,西藏,云南,贵州,四川,海南,广西,广东,湖南,湖北,河南,山东,江西,福建,安徽,浙江,江苏,上海,黑龙江,吉林,辽宁,内蒙,山西,河北,天津,北京,200元以上,101-200元,51-100元,50元以下,南方区域,北方区域,话费高省,话费
24、低省,固定电话话费不同省分布情况,对应分析 Correspondence Analysis,对应分析的基本概念,对应分析是一种数据分析技术,它能够帮助我们研究由定性变量构成的交互汇总表来揭示变量间的联系。交互表的信息以图形的方式展示。是强有力的探索数据技术,主要适用于有多个类别的定类变量。可以揭示同一个变量的各个类别之间的差异,以及不同变量各个类别之间的对应关系。适用于两个或多个定类变量。,2.0,1.5,1.0,.5,0.0,-.5,-1.0,-1.5,-2.0,2.0,1.5,1.0,.5,0.0,-.5,-1.0,46岁以上,36-45岁,26-35岁,25岁以下,无回答/无收入,高收入
25、,中高收入,中等收入,中低收入,低收入,女性,男性,200元以上,101-200元,51-100元,50元以下,大学本科及以上,大专,高中/中专/技校,初中,小学及以下,不使用,小灵通,价格敏感性特征,无消费欲望者特征,固定用户特征,使用移动通讯服务消费者特征,SIM卡,充值卡,特殊需求者特征,多元对应分析 Multiple Correspondence Analysis,对应分析 Correspondence Analysis CA,对应分析可以回答以下问题,谁是我的用户?还有谁是我的用户?谁是我竞争对手的用户?相对于我的竞争对手的产品,我的产品的定位如何?与竞争对手有何差异?我还应该开发哪
26、些新产品?对于我的新产品,我应该将目标指向哪些消费者?,Dimension 1,1.0,.8,.6,.4,.2,-.0,-.2,-.4,-.6,Dimension 2,.6,.4,.2,0.0,-.2,-.4,-.6,-.8,BRAND,ATTRIBUT,中华,夏利,红旗,吉利,长安铃木,马自达,三菱,日产,本田,丰田,别克,神龙,奥迪,大众,大发,凌志,宝马,奔驰,产品对安全性考虑周到,产品对环境问题和积极,产品具有先进技术,产品有风格、有品位,产品故障少、值得信赖,产品外观设计好,产品具有高性能,产品具有高耐久性,产品具有高品质,产品及广告广受好评,产品销路好,对产品有兴趣,对产品及广告有
27、印象,产品适合自己,产品有亲切,产品具有与众不同的特,产品好,分类树CHAID-AnswerTree,分类树CHAID,CHAID和CART是最有名的分类树方法。主要用于预测和分类。树根节点是独立变量,例如:使用水平、购买倾向、用户或非用户等。子节点基于独立变量和其他分类变量(父节点),按照卡方显著性不断划分或组合为树状结构。预测变量一般也是非数量型的分类变量。CHAID最常用,但独立变量只能是分类变量,也就是离散性的。CART可以处理数量型变量,有时候二者结合使用。CHAID和CART都可以处理非数量型和定序性变量。SPSS的附加模块叫做ANSWERTREE。分类树方法产生真实的细分类别,这
28、种类是基于一个独立变量。,分类树CHAID,基于目标变量(独立变量)自我分层的树状结构。根结点是因变量,预测变量根据卡方显著性程度不断自动生成父节点和子节点。卡方显著性越高,越先成为预测根结点的变量。程序自动归并预测变量的不同类,使之成为卡方显著性。程序根据预先设定的树状水平数停止。最后每一个叶结点就是一个细分市场。当预测变量较多且都是分类变量时,CHAID分类最适宜。预测变量大部分都是人口统计资料,使研究者很快就可以找出不同细分市场特征。传统的交互分析对多维交叉表和归并类是一项繁重的工作。,CHAID的操作步骤,建立AnswerTree项目指定CHAID分类树规定目标变量和预测变量设定预测变量的测量等级,非数量型变量可预先合并分类。规定树状结构的水平数。指定节点包含的最小样本数量。自动生成分类树。考察分类树的结构。分析Gain Table.分析错误分类风险比。重新设定分类树参数。生成SQL语言,将样本归类。,