《客户关系管理》第6章：CRM与数据挖掘.ppt

资源描述

《《客户关系管理》第6章：CRM与数据挖掘.ppt》由会员分享，可在线阅读，更多相关《《客户关系管理》第6章：CRM与数据挖掘.ppt（91页珍藏版）》请在三一办公上搜索。

1、,第6章CRM与数据挖掘,第6章 CRM与数据挖掘,6.1 数据挖掘概述6.1.1 数据挖掘的产生6.1.2 数据挖掘的定义6.1.3 数据挖掘的技术6.1.4 数据挖掘的功能6.1.5 数据挖掘的流程6.1.6 数据挖掘的发展方向6.2 CRM中数据挖掘应用6.2.1 从客户生命周期角度数据挖掘技术的应用6.2.2 从行业角度分析数据挖掘技术的应用6.3 CRM数据挖掘应用实例,数据挖掘概述,6.1.1 数据挖掘的产生6.1.2 数据挖掘的定义6.1.3 数据挖掘的技术6.1.4 数据挖掘的功能6.1.5 数据挖掘的流程6.1.6 数据挖掘的发展方向,6.1.1 数据挖掘的产生,数据爆炸但知

2、识贫乏支持数据挖掘技术的基础,有价值的知识,可怕的数据,数据爆炸但知识贫乏,数据挖掘的出现,数据爆炸，知识贫乏,苦恼:淹没在数据中;不能制定合适的决策!,数据,知识,决策,数据爆炸但知识贫乏,更大,更便宜的存储器-磁盘密度以Moores law增长-存储器价格飞快下降更快,更便宜的信息处理器-分析更多的数据-适应更多复杂的模型-引起更多查询技术-激起更强的可视化技术数据挖掘处理技术-数理统计-人工智能-机器学习,支持数据挖掘技术的基础,数据挖掘的演化,机器学习数据库中的知识发现数据挖掘,6.1.2 数据挖掘的定义,SAS研究所（1997）：“在大量相关数据基础之上进行数据探索和建立相关

3、模型的先进方法”。Bhavani（1999）：“使用模式识别技术、统计和数学技术，在大量的数据中发现有意义的新关系、模式和趋势的过程”。Hand et al（2000）：“数据挖掘就是在大型数据库中寻找有意义、有价值信息的过程”。,数据挖掘的定义,技术角度的含义商业角度的含义与传统方法的区别,数据挖掘的技术上的定义,数据挖掘（Data Mining）就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。这个定义包括好几层含义(1)数据源必须是真实的、大量的、含噪声的；(2)发现的是用户感兴趣的知识；(3)发现的知识

4、要可接受、可理解、可运用；(4)并不要求发现放之四海皆准的知识，仅支持特定的发现问题。,数据挖掘的商业角度的定义,按企业既定业务目标，对大量的企业数据进行探索和分析，揭示隐藏的、未知的或验证已知的规律性，并进一步将其模型化的先进有效的方法。,数据挖掘与传统分析方法的区别,数据挖掘与传统的数据分析(如查询、报表、联机应用分析)的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识.。数据挖掘所得到的信息应具有先未知，有效和可实用三个特征.先前未知的信息是指该信息是预先未曾预料到的，既数据挖掘是要发现那些不能靠直觉发现的信息或知识，甚至是违背直觉的信息或知识，挖掘出的信息越是出乎意料，就

5、可能越有价值。在商业应用中最典型的例子就是一家连锁店通过数据挖掘发现了小孩尿布和啤酒之间有着惊人的联系,6.1.3 数据挖掘技术,数据挖掘的方法很多，大致可分为：统计方法、机器学习方法、神经网络方法和数据库方法。其中，统计方法可细分为：回归分析（多元回归、自回归等）、判别分析（贝叶斯判别、费歇尔判别、非参数判别等）、聚类分析（系统聚类、动态聚类等）、探索性分析（主元分析法、相关分析法等）、以及模糊集、粗糙集、支持向量机等。机器学习中，可细分为：归纳学习方法（决策树、规则归纳等）、基于范例的推理CBR、遗传算法、贝叶斯信念网络等。神经网络方法，可细分为：前向神经网络（BP算法等）、自组织神经网络

6、（自组织特征映射、竞争学习等）等。数据库方法主要是基于可视化的多维数据分析或OLAP方法，另外还有面向属性的归纳方法。,决策树,决策树把数据归入可能对一个目标变量有不同效果的规则组。例如，我们希望发现可能会对直邮有反应的个人特点。这些特点可以解释为一组规则。,决策树,假设您是一个销售一种新的银行服务的直邮计划研究的负责人。为最大程度地获益，您希望确定基于前次促销活动的家庭细分最有可能响应相似的促销活动。通常这可以通过查找最能把响应前次促销的家庭和没有响应的家庭区分开的人口统计信息变量的组合来实现。决策树为您提供诸如谁会最好地响应新的促销等重要线索，并通过只邮寄给最有可能响应的人来最大程度地获得

7、直邮效益，提高整体响应率，并极有希望同时增加销售。,决策树建立,决策树中最上面的节点称为根节点，是整个决策树的开始。本例把响应客户作为根节点。可以看到所有收到直邮信件的人中有7%有响应。然后根据记录字段的不同取值建立树的分支,如分为有住房和无住房两组，则15%的租户有响应，而房主则只有5%。还可以在每个分支子集中重复建立下层结点和分支。我们可以继续分组来发现最有可能响应的组群。这一组群可以表示为一个规则，如“如果收件人是租户，有较高的家庭收入，没有储蓄存款账户，那么他有45%的响应概率”。简单地说，有这些特点的组群中有45%可能会对直邮有响应。,决策树图,决策树应用,决策树也是分析消耗(流线性

8、生产)、发现交叉销售机会、进行促销、信用风险或破产分析和发觉欺诈行为的得力工具。,聚类分析,聚类如同通常所说的“物以类聚”，是把一组个体按照相似性归成若干类别。它的目的是使属于同一类别的个体之间的距离尽可能的小，而不同类别上的个体间的距离尽可能的大。它反映同类事物共同性质的特征型知识和不同事物之间的差异性质的特征型知识。通过聚类，数据库中的记录可被划分为一系列有意义的子集。聚类增强了人们对客观现实的认识，是进行概念描述和偏差分析的先决条件。,聚类分析,簇（Cluster）:一个数据对象的集合在同一个类中，对象之间具有相似性；不同类的对象之间是相异的。聚类分析把一个给定的数据对象集合分成不同的簇

9、；聚类是一种无监督分类法:没有预先指定的类别；典型的应用作为一个独立的分析工具，用于了解数据的分布；作为其它算法的一个数据预处理步骤；,聚类分析应用,市场销售:帮助市场人员发现客户中的不同群体，然后用这些知识来开展一个目标明确的市场计划；土地使用:在一个陆地观察数据库中标识那些土地使用相似的地区；保险:对购买了汽车保险的客户，标识那些有较高平均赔偿成本的客户；城市规划:根据类型、价格、地理位置等来划分不同类型的住宅；地震研究:根据地质断层的特点把已观察到的地震中心分成不同的类；,聚类分析的评判,一个好的聚类方法要能产生高质量的聚类结果簇，这些簇要具备以下两个特点：高的簇内相似性低的簇间相似性

10、聚类结果的好坏取决于该聚类方法采用的相似性评估方法以及该方法的具体实现；聚类方法的好坏还取决与该方法是能发现某些还是所有的隐含模式；,人工神经网络,神经网络近来越来越受到人们的关注，因为它为解决大复杂度问题提供了一种相对来说比较有效的简单方法。神经网络可以很容易的解决具有上百个参数的问题（当然实际生物体中存在的神经网络要比我们这里所说的程序模拟的神经网络要复杂的多）。神经网络常用于两类问题：分类和回归。,遗传算法,遗传算法(Genetic Algorithms)是根据生物进化的模型提出的一种优化算法。虽然GA刚提出时没有受到重视，但近年来，人们把它应用于学习、优化、自适应等问题中。模拟生物进化

11、过程的算法，由繁殖(选择)、交叉(重组)、变异(突变)三个基本算子组成。遗传算法已在优化计算、分类、机器学习等方面发挥了显著作用。遗传算法是基于进化理论，并采用遗传结合、遗传变异、以及自然选择等设计方法的优化技术。,遗传算法,GA的算法首先在解空间中取一群点，作为遗传开始的第一代。每个点（基因）用一二进制的数字串表示，其优劣程度用一目标函数（Fitness function）来衡量。在向下一代的遗传演变中，首先把前一代中的每个数字串根据由其目标函数值决定的概率分配到配对池中。好的数字串以高的概率被复制下来，劣的数字串被淘汰掉。然后将配对池中的数字任意配对，并对每一数字串进行交叉操作，产生新的子

12、孙（数字串）。最后对新的数字串的某一位进行变异。这样就产生了新的一代。按照同样的方法，经过数代的遗传演变后，在最后一代中得到全局最优解或近似最优解。,支持向量机,支持向量机（SVM）是一种建立在统计学习理论基础上的机器学习方法。通过学习算法，SVM可以自动寻找那些对分类有较好区分能力的支持向量，由此构造出的分类器可以最大化类与类的间隔，因而有较好的推广性能和较高的分类准确率。SVM主要思想是针对两类分类问题，在高维空间中寻找一个超平面作为两类的分割，以保证最小的分类错误率。而且SVM一个重要的优点是可以处理线性不可分的情况。用SVM实现分类，首先要从原始空间中抽取特征，将原始空间中的样本映射为

13、高维特征空间中的一个向量，以解决原始空间中线性不可分的问题。,贝叶斯预测,贝叶斯网络是用来表示变量集合连接概率的图形模式，它提供了一种自然的表示因果信息的方法，用来发现数据间的潜在关系。在这个网络中，用节点表示变量，有向边表示变量间的依赖关系。在数据挖掘中具有以下优点：可以处理不完整和带有噪声的数据集。它用概率测度的权重来描述数据间的相关性，从而解决了数据间的不一致性，甚至是相互独立的问题；用图形的方法描述数据间的相互关系，语义清晰、可理解性强，这有助于利用数据间的因果关系进行预测分析。,规则推导,规则推导，从统计意义上对数据中的“如果-那么”规则进行寻找和推导，得到关联规则。关联规则挖掘发现

14、大量数据中项集之间有趣的关联或相关联系。,规则推导,可视化技术,用图表等方式把数据特征用直观地表述出来，如直方图等，这其中运用的许多描述统计的方法。可视化技术面对的一个难题是高维数据的可视化。信息可视化和数据挖掘是两个可互为补充利用的相关研究领域。当信息可视化作为数据挖掘的技术之一时，同其它技术相比，它有一个独特之处：能极大地发挥用户的主动参预性。由于对数据进行了可视化，用户愿意进行探索（Explore），在探索过程中有可能发现意外的知识。,其他技术,近邻算法，将数据集合中每一个记录进行分类的方法。统计分析方法，在数据库字段项之间存在两种关系:函数关系(能用函数公式表示的确定性关系)和相关关系

15、(不能用函数公式表示，但仍是相关确定性关系)，对它们的分析可采用回归分析、相关分析、主成分分析等方法。模糊论方法，利用模糊集合理论，对实际问题进行模糊判断、模糊决策、模糊模式识别、模糊簇聚分析。,6.1.4 数据挖掘的功能,自动预测趋势和行为关联分析对象分类聚类分析概念描述偏差检测,数据挖掘功能预测,数据挖掘自动在大型数据库中寻找预测性信息，以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论。一个典型的例子是市场预测问题，数据挖掘使用过去有关促销的数据来寻找未来投资中回报最大的用户，其它可预测的问题包括预报破产以及认定对指定事件最可能作出反应的群体。,数据挖掘功能关联分析,

16、数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性，就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数，即使知道也是不确定的，因此关联分析生成的规则带有可信度。关联是某种事物发生时其他事物会发生的这样一种联系。例如：每天购买啤酒的人也有可能购买香烟，比重有多大，可以通过关联的支持度和可信度来描述。时序关联是一种纵向的联系。例如：今天银行调整利率，明天股市的变化。,数据挖掘功能分类,按照分析对象的属性、特征，建立不同的组类来描述事物。例如：银行部门根据以前的数据将客户分成了不同的

17、类别，现在就可以根据这些来区分新申请贷款的客户，以采取相应的贷款方案。,数据挖掘功能聚类,数据库中的记录可被化分为一系列有意义的子集，即聚类。聚类增强了人们对客观现实的认识，是概念描述和偏差分析的先决条件。聚类技术主要包括传统的模式识别方法和数学分类学。聚类技术在划分对象时不仅考虑对象之间的距离，还要求划分出的类具有某种内涵描述，从而避免了传统技术的某些片面性。,数据挖掘功能概念描述,概念描述就是对某类对象的内涵进行描述，并概括这类对象的有关特征。概念描述分为特征性描述和区别性描述，前者描述某类对象的共同特征，后者描述不同类对象之间的区别。生成一个类的特征性描述只涉及该类对象中所有对象的共性。

18、生成区别性描述的方法很多，如决策树方法、遗传算法等。,数据挖掘功能偏差检测,数据库中的数据常有一些异常记录，从数据库中检测这些偏差很有意义。偏差包括很多潜在的知识，如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等。偏差检测的基本方法是，寻找观测结果与参照值之间有意义的差别。偏差检测对分析对象的少数的、极端的特例的描述，揭示内在的原因。例如：在银行的100万笔交易中有500例的欺诈行为，银行为了稳健经营，就要发现这500例的内在因素，减小以后经营的风险。,6.1.5 数据挖掘的流程,数据挖掘的流程,确定业务对象数据准备数据挖掘结果分析和知识同化,数据挖掘的流程

19、-确定业务对象,清晰地定义出业务问题，认清数据挖掘的目的是数据挖掘的重要一步。挖掘的最后结构是不可预测的，但要探索的问题应是有预见的，为了数据挖掘而数据挖掘则带有盲目性，是不会成功的。,数据挖掘的流程-数据准备,数据的选择：搜索所有与业务对象有关的内部和外部数据信息，并从中选择出适用于数据挖掘应用的数据。数据的预处理：研究数据的质量，为进一步的分析作准备.并确定将要进行的挖掘操作的类型。数据的转换：将数据转换成一个分析模型.这个分析模型是针对挖掘算法建立的.建立一个真正适合挖掘算法的分析模型是数据挖掘成功的关键。,数据挖掘的流程-数据挖掘,对所得到的经过转换的数据进行挖掘.除了完善从选择合适的

20、挖掘算法外，其余一切工作都能自动地完成。,数据挖掘的流程-分析和同化,结果分析：解释并评估结果，其使用的分析方法一般应作数据挖掘操作而定，通常会用到可视化技术。知识的同化：将分析所得到的知识集成到业务信息系统的组织结构中去。,数据挖掘过程工作量,在数据挖掘中被研究的业务对象是整个过程的基础，它驱动了整个数据挖掘过程，也是检验最后结果和指引分析人员完成数据挖掘的依据。数据挖掘的过程并不是自动的，绝大多数的工作需要人工完成。其中60%的时间用在数据准备上，这说明了数据挖掘对数据的严格要求，而后挖掘工作仅占总工作量的10%.,数据挖掘过程工作量,数据挖掘需要的人员,数据挖掘过程的分步实现，不同的步会

21、需要是有不同专长的人员，他们大体可以分为三类。业务分析人员：要求精通业务，能够解释业务对象，并根据各业务对象确定出用于数据定义和挖掘算法的业务需求。数据分析人员：精通数据分析技术，并对统计学有较熟练的掌握，有能力把业务需求转化为数据挖掘的各步操作，并为每步操作选择合适的技术。数据管理人员：精通数据管理技术，并从数据库或数据仓库中收集数据。,6.5.6 数据挖掘未来研究方向,发现语言的形式化描述，即研究专门用于知识发现的数据挖掘语言，也许会像SQL语言一样走向形式化和标准化；寻求数据挖掘过程中的可视化方法，使知识发现的过程能够被用户理解，也便于在知识发现的过程中进行人机交互；研究在网络环境下的数

22、据挖掘技术（WebMining），特别是在因特网上建立DMKD服务器，并且与数据库服务器配合，实现WebMining；加强对各种非结构化数据的开采（DataMiningforAudioVideo），如对文本数据、图形数据、视频图像数据、声音数据乃至综合多媒体数据的开采；处理的数据将会涉及到更多的数据类型，这些数据类型或者比较复杂，或者是结构比较独特。为了处理这些复杂的数据，就需要一些新的和更好的分析和建立模型的方法，同时还会涉及到为处理这些复杂或独特数据所做的费时和复杂数据准备的一些工具和软件。交互式发现和知识的维护更新。,OLAM,联机分析挖掘，又称为OLAP Mining。它是联机分析处理

23、技术与数据挖掘技术在数据库或数据仓库应用中的结合，是联机分析处理技术的新发展，也是近年来数据库领域的研究重点和热点。,OLAM产生的原因,OLAP与DM虽同为数据库或数据仓库的分析工具，但两者侧重点不同。同时，随着OLAP与DM技术的应用和发展，数据库领域在OLAP基础上对深层次分析的需求与人工智能领域中数据挖掘技术的融合最终促成了联机分析挖掘技术。,OLAM产生的原因,一方面，分析工具OLAP功能虽强大，能为客户端应用程序提供完善的查询和分析，但它也存在以下不足:1)OLAP是一种验证型分析工具，是由用户驱动的。即在某个假设的前提下通过数据查询和分析来验证或否定这个假设，这很大程度上受到用户

24、假设能力的限制。2)OLAP分析事先需要对用户的需求有全面而深人的了解，然而用户的需求并不是确定的，难以把握。所以OLAP分析常常采用试凑法在大型数据库或仓库中搜索，不仅花时间，而且可能产生一些无用的结果。3)即使搜索到了有用的信息，由于缺乏应有的维度，从不同的视图得到的结果可能并不相同，容易产生误导。,OLAM产生的原因,另一方面，数据挖掘虽然可以使用复杂算法来分析数据和创建模型表示有关数据的信息，用户也不必提出确切的要求，系统就能够根据数据本身的规律性，自动地挖掘数据潜在的模式，或通过联想，建立新的业务模型以辅助决策。但它也存在一些缺点:1)DM是挖掘型分析工具，是由数据驱动的。用户需要事

25、先提出挖掘任务。但对于用户来讲，很多时候预先是不知道想挖掘什么样的知识的。2)由于数据库或数据仓库中存有大量数据和信息，用户仅仅指出挖掘任务，而不提供其他搜索线索，这样DM工具就会遍历整个数据库，导致搜索空间太大。计算机将处于长时间的工作，而且结果中可能会生成很多无用信息。3)即使挖掘出了潜在有价值的信息，但它究竟用来做什么分析用，用户也可能不清楚。,OLAM产生,两种技术各存在不足，但同时也可以相辅相成。如果将OLAP同DM配合集成，一方面OLAP的分析结果给DM提供挖掘的依据，引导DM的进行;另一方面，在数据挖掘的结果中进行OLAP分析，则OLAP分析的深度就可拓展。这样用户就可以灵活选择

26、所需的数据挖掘功能，并动态交换挖掘任务，在数据仓库的基础上提供更有效的决策支持。鉴于OLAP与DM技术在决策分析中的这种互补性，促成了OLAM技术的形成。,OLAM产生,联机分析挖掘概念正式提出是在1997年，由加拿大Simon Fraser大学教授Jiawei Han等在数据立方体的基础上提出多维数据挖掘的概念，称为OLAP mining。这实际上是在OLAP系统的基础上，把数据分析算法、数据挖掘算法引人进来，解决多维数据环境的数据挖掘问题。,OLAM体系结构,OLAM体系结构,OLAM的挖掘分析处理是建立在数据仓库系统的数据立方体基础上的。数据立方体的组织模型、计算和操作对与系统的执行效率

27、和响应速度起着至关重要的作用。OLAM集成了传统的OLAP和数据挖掘技术，为用户的在线分析挖掘操作提供接口。OLAM引擎通过用户图形接口接收用户的分析请求指令和数据，在元数据的指导下，对数据立方体进行相应的操作，包括集合运算(如求和、求平均)和导向运算(如选择、旋转、上钻与下钻)等，然后将挖掘分析的结果以可视化的形式展现给用户，整个分析挖掘过程是动态进行的。,OLAM的系统特征,OLAM系统的主要目的就是实现OLAP与数据挖掘的功能互补，提高数据分析挖掘的性能。建立在庞大复杂的数据仓库基础上的OLAM在实现过程中面临最大的挑战是数据分析挖掘执行的效率的提高和对用户请求的快速准确响应。目前专门的

28、OLAM产品还没有正式出现，但根据OLAM系统的设计目的和用户要求，OLAM应具有其自己的系统及功能特征。,OLAM的系统特征（1）,多维分析和数据挖掘无缝集成，即多维分析与数据挖掘的完美结合需要理论基础，需要一套系统构建方法。比如借助于OLAP对数据立方体进行切片、切块、旋转、向下钻取、向上汇总等操作的支持，应能方便地对任何一部分数据和不同抽象级别地数据进行挖掘。,OLAM的系统特征（2）,具有较高的执行效率和较快的响应速度。OLAM系统快速响应能力的获得是一个十分有挑战性的问题，可以认为是OLAM技术中最困难的问题之一。往往数据挖掘算法复杂且耗时，这时要求协调执行效率和挖掘精度两者的关系。

29、,OLAM的系统特征（3）,支持迭代分析过程，即系统应提供“回溯”能力，以便随时标记分析过程中的时空状态点，并在分析过程中随时回到这一点，有利于分析的灵活进行，防止在进行由浅人深的分析过程中用户“迷失方向”。,OLAM的系统特征（4）,支持复杂信息建模，即要求OLAM系统支持多种异构DBMS中多种数据类型的融合，全面处理企业内的各种决策支持应用。一方面，决策分析的数据对象来自于不同开发环境和目的的分立应用系统，数据的管理方法和数据结构也可能不同，这就要求OLAM在数据方面有很强的包容性;另一方面，不同的数据挖掘方法要求不同的数据结构支撑。,OLAM的系统特征(5),良好的可扩展性。要求OLAM

30、系统支持多种挖掘算法的模块的添加、多种工作对象的建构、多种数据源的集成、多种前端工具的利用等扩展功能。用户能根据实际问题的不同，选用不同的挖掘算法。此外，OLAM因该具有支持这些扩展的通用接口，以便与其它工具和算法衔接，或者嵌人用户自己的算法。,OLAM的系统特征(6),灵活友好的人机交互能力。OLAM中的决策分析过程是要在人的指导下进行的，人作为系统的有机组成部分和系统应用密不可分。人利用自己掌握的领域知识在OLAM系统的辅助下完成领域内问题的求解，在这个过程中人与计算机分别承担各自最擅长的工作，达到资源的合理配置。,OLAM的系统特征(7),支持复杂事务模型及多任务优化和调度。OLAM事务

31、是有“内部结构”的数据库操作集合，是一个有层次的复杂网络结构，传统的无内部结构、彼此孤立的、最小原子特性的事务模型只是这种模型的特例。OLAM事务之间具有广泛的联系，考虑在对事务分解的基础上，充分利用不同事务中的公共子事务来优化事务的调度。,OLAM的分析操作,从OLAM的定义来看，它是建立在多维数据视图基础之上的。因此，对于OLAM的操作应是超立方体计算与传统挖掘算法的结合。这里所说的立方体计算方法一般指切片、切块、上卷、下钻、旋转等操作;而挖掘算法则是指关联规则、分类、聚类等挖掘算法。根据立方体计算和数据挖掘所进行的次序的不同组合可以有不同的模式。,OLAM的分析操作,先进行立方体计算、后

32、进行数据挖掘。在进行数据挖掘以前，先对多维数据进行二定的立方体计算，以选择合适的数据范围和恰当的抽象级别。先对多维数据作数据挖掘，然后再利用立方体计算算法对挖掘出来的结果做进一步的深人分析。立方体计算与数据挖掘同时进行。在挖掘的过程中，可以根据需要对数据视图做相应的多维操作。这也意味着同一个挖掘算法可以应用于多维数据视图的不同部分。回溯操作。OLAM的标签和回溯特性，允许用户回溯一步或几步，或回溯至标志处，然后沿着另外的途径进行挖掘，这样用户在挖掘分析中可以交互式的进行立方体计算和数据挖掘。,OLAM技术的发展趋势,OLAM技术实现了OLAP和DM技术的互补，它的发展趋势是两者更加可靠的集成、

33、融合，有自己合理优化的结构体系和一套完备的技术理论基础，从整体上为决策分析提供完美支持。OLAM技术是一门交叉学科，涉及机器学习、模式识别、统计学、智能数据库、人工智能、高性能计算、数据可视化、专家系统等综合技术。这些相关学科的发展，无疑也将会推动OLAM技术的发展。特别是，近年来随着数据库技术的发展，出现了不同数据类型的高级数据库，如面向对象数据库、对象关系型数据库、空间数据库、超文本数据库、多媒体数据库、时序数据库等。因此，未来的OLAM技术应用应基于这些高级数据库展开。随着互联网技术的发展，全球信息的共享，基于Web的联机分析挖掘(Web0LAM)，也将成为OLAM技术发展的一个新方向。

34、,6.2 数据挖掘在CRM中的应用,从客户生命周期角度分析数据挖掘技术的应用从行业角度分析数据挖掘技术的应用,从客户生命周期角度分析,在客户生命周期的过程中，各个不同的阶段包含了许多重要的事件。数据挖掘技术可以应用于客户生命周期的各个阶段提高企业客户关系管理能力，包括争取新的客户，让已有的客户创造更多的利润、保持住有价值的客户等等。,从客户各生命周期角度分析,潜在客户期市场活动及数据挖掘应用,潜在客户获得活动是针对目标市场的营销活动，寻找对企业产品或服务感兴趣的人。值得注意的是，在这个阶段缺乏客户数据。数据挖掘可以把以前的客户对类似活动的响应进行挖掘，从而把市场活动重点锁定在以前的响应者身上。

35、一个更好的方法就是寻找和高价值的客户类似的潜在客户只要一次就获得正确的客户。通常，获得活动使用广告和其它市场宣传媒体。无论何种渠道，数据挖掘在发现最重要的客户特定市场中发挥重要作用，决定着市场活动的类型、广告空间等一些宣传问题。,客户响应期市场活动及数据挖掘应用,潜在客户通过以下几种途径成为响应者：登陆企业网站；拨打免费电话；填写申请表等。把潜在客户改变成为确定的客户、能够被锁定和跟踪的客户。虽然响应者还没有购买任何产品或服务，但他们有很大的可能性成为购买者，并成为企业客户。数据挖掘通常被用来判定哪些潜在客户会变成响应者。预测模型也用来判定哪些响应者会成为企业即得客户。,即得客户市场活动及数据

36、挖应用（1）,响应者购买企业产品的时候就变成了企业即得客户。这意味着他们已经进行了第一次的购买活动。在即得客户阶段包括许多活动。最重要的活动可以划分为三：刺激使用（使用展现了客户行为，当使用是企业收入的主要来源，刺激使用就成为企业的重要目标。使用模式因不同的客户市场而有所不同）；交叉销售（鼓励客户购买与第一次购买不同的产品或服务的市场营销活动）；升级销售（鼓励客户升级现有的产品和服务的市场营销活动）。,即得客户市场活动及应用（2）,即得客户是数据挖掘的重要区域。客户使用活动提供了客户行为模式的最本质的东西。预测什么时候会发生客户活动，判定哪个客户可能对交叉销售和升级销售活动做出响应对企业来讲是

37、极具价值的。但既得客户的行为经常被大量详细的交易信息所淹没。使用数据挖掘要求从其中抽出其特点。客户早期的购买和使用模式是对企业来讲是非常具有价值的，在一些行业，首次行为预示了未来的使用信息。这些客户可以是高消费者或低消费者，他们可能对一个或多个产品感兴趣。这类行为通常在早期的购买行为中明显的表现出来。,客户流失期市场活动及数据挖掘应用,在一些情况下，客户停止购买企业产品。对此，有两种基本不同的流失原因，第一种是主动离开，指的是不再是客户的既得客户。了解主动离开出现的原因非常重要，以下是客户主动离开的一些基本原因：客户离开了企业服务的地区；客户的生活方式发生了变化，并不再需要企业的产品和服务；客

38、户已经获得了竞争者提供的更好的产品或服务；客户不再认为使用企业产品有任何价值。第二种是非主动离开，既被动离开。指的是即得客户不再是一个好的客户，通常因为他们停止支付他们的帐单。区别主动离开和被动离开对企业来说是非常重要的。数据挖掘可以通过分析以前的客户数据得出什么样的客户会在将来同样的离开。即使客户离开，也不是所有流失的客户就完全失去了。赢得客户活动的目标就是重新获得失去的客户。,从行业角度分析数据挖掘技术的应用,中数据挖掘应用的深度和广度针对行业的不同而有所不同，特别是针对与客户交流频繁、客户支持要求高的行业，如银行、证券、保险、电信、税务、零售、旅游、航空、医疗保健等。零售业中数据挖掘的应

39、用电信业中数据挖掘的应用金融业中数据挖掘的应用,零售业中数据挖掘的应用,零售业是数据挖掘的主要应用领域，特别是由于日益增长的Web或电子商务方式的兴起零售数据挖掘可有助于识别客户购买行为，发现客户购买模式和趋势，改进服务质量，取得更好的客户保持力和满意度，提高货品销量比率，设计更好的货品运输与分销策略，减少商业成本。例如：使用多特征数据立方体进行销售、客户、产品、时间和地区的多维分析；使用多维分析和关联分析进行促销活动的有效性分析；序列模式挖掘可用于客户忠诚分析；利用关联分析挖掘关联信息进行购买推荐和商品参照。,电信业中的数据挖掘,电信业已经迅速地从单纯的提供市话服务演变为提供综合电信服务。电

40、信网、因特网和各种其他方式的通信和计算的融合是目前的大势所趋。利用数据挖掘技术可帮助理解商业行为、确定电信模式、捕捉盗用行为、更好的利用资源和提高服务质量。例如：电信数据的多维分析有助于识别和比较数据通信情况、系统负载、资源使用、用户组行为、利润等；通过多维分析、聚类分析和孤立点分析进行盗用模式分析和异常模式识别；通过多维关联和序列模式分析进行电信服务组合和个性化服务；电信数据分析中可视化工具的使用。,金融业中的数据挖掘,大部分银行和金融机构除提供丰富多样的储蓄服务、信用服务、投资服务外，还提供保险服务和股票投资服务。在银行和金融机构中产生的金融数据通常相对比较完整、可靠，这大大方便了系统化的

41、数据分析和数据挖掘。以下给出几种典型的应用情况：为多维数据分析和数据挖掘设计和构造数据仓库；特征选择和属性相关性计算有助于贷款偿还预测和客户信用政策分析；分类和聚类的方法可用于客户群体的识别和目标市场的分析6；通过数据可视化、链接分析、分类、聚类分析、孤立点分析、序列分析等分析工具帮助进行洗黑钱和其他金融犯罪的侦破。,6.3 数据挖掘软件在CRM中的应用示例,PolyAnalyst 数据挖掘软件是一套由 Megaputer Intelligence Inc 开发的软件。拥有大量数据挖掘(Data Mining)方法，对数据分析十分有用。PolyAnalyst提供下列功能：数据访问、数据操纵和清

42、洗、机器学习、可视化和报表。PolyAnalyst具有集成的GUI环境。PolyAnalyst是一个多策略的数据挖掘解决方案，能够处理数字、种类、布尔型变量。任何一个引擎都能作为一个单独的COM组件和其它软件集成。PolyAnalyst支持完整数据挖掘，功能包括分类、推估、预测、关联、群集，支持微软数据仓储联盟通讯接口OLE DB，能透过SQL 查询语法评分数据仓储内数据。PolyAnalyst 应用广泛。已超过300个客户(其中包括Fortune 100 公司)选用PolyAnalyst进行自动知识发现（Automated knowledge discovery）去为公司解决因难的问题和作出

43、商业上的决定。,数据挖掘应用实施过程,问题定义数据预处理数据挖掘模型检验,问题定义,企业将要推出一款新的产品，为了进行宣传推广，要给潜在的客户进行电话推销，或者发邮件给对该产品可能有兴趣的客户。这是一个非常昂贵的举措，企业就想找到一种既降低成本又不降低营销效果的办法。无论是通过电话、邮件、传真或是面对面接触，进行直销的企业必须为每一位它要接触的客户消耗成本。而大多数情况下，客户都是对其没有响应。客户响应率是指接触客户中做出响应的客户所占的比率。如果客户响应率很低，企业就会发现她在客户接触中花掉太多的成本。如果有什么办法可以通过在进行直销之前预测哪些客户可能会对推销有兴趣从而提高客户响应率的话，

44、这将大大提高直销企业的利润。,问题定义,数据挖掘提供了这种预测能力。企业在过去营销过程中积累了大量的历史数据，而且可以获得大量的相关客户的公众信息，以及这些客户在以往销售过程中的反应情况。利用PolyAnalyst对商业数据进行分析，可以得到客户接触响应的预测模型。企业直销就不再是对每一位客户或是随机对客户进行，而是针对预测得到高可能性的客户，这必将降低直销成本。,数据预处理,导入数据数据转换建立训练集和测试集初步分析,数据挖掘,数据挖掘,模型检验,应用挖掘结果进行决策,数据挖掘软件应用示例小结,利用PolyAnalyst对商业数据进行分析，可以得到客户接触响应的预测模型。企业直销就不再是对每一位客户或是随机对客户进行，而是针对预测得到高可能性的客户，这必将降低直销成本。通过PolyAnalyst直销响应模型的试验可以看出，数据挖掘模型在商业应用中是非常成功有效的。,CRM与数据挖掘小结,6.1 数据挖掘概述6.1.1 数据挖掘的产生6.1.2 数据挖掘的定义6.1.3 数据挖掘的技术6.1.4 数据挖掘的功能6.1.5 数据挖掘的流程6.1.6 数据挖掘的发展方向6.2 CRM中数据挖掘应用6.2.1 从客户生命周期角度数据挖掘技术的应用6.2.2 从行业角度分析数据挖掘技术的应用6.3 CRM数据挖掘应用实例,

展开阅读全文