《直邮营销中统计数据挖掘的应用.doc》由会员分享,可在线阅读,更多相关《直邮营销中统计数据挖掘的应用.doc(6页珍藏版)》请在三一办公上搜索。
1、直邮营销中统计数据挖掘的应用张俊妮赵永鹏曹丽娜邵亚楠(北京大学光华管理学院商务统计与经济计量系 ,北京 100871 )摘要 :我们将讨论在直邮营销行业中如何使用数据挖掘方法分析客户历史数据 ,提高营销的效率 。 随后我们给出对某公司真实数据的一个分析实例 。关键词 :目标客户 ;市场细分 ;关联规则 ; Logistic回归 ;神经网络 ;决策树中图分类号 : O212 文献标识码 : AS ta t ist ica l D a ta M in in g A pp l ica t ion s for D irec t M a il M a rke t in gZHAN G J unn i,
2、ZHAO Yongp eng, CAO L ina, SHAO Yanan(D ep a rtm en t of B u sine ss Sta tistic s and Econom e tric s, GuanghuaSchoo l of M anagem en t, Pek ing U n ive rsity, B e ijing 100871 )A b stra c t: W e d iscu ss how to u se da ta m in ing m e thod s to ana lyze h isto rica l cu stom e r da ta in d irec t
3、m a il m a rke ting and to imp rove m a rke ting effic iency. W e then p re sen t an app lica tion to a rea l da ta se t fo r a comp any tha t u se s d irec t m a il m a rke ting.Key word s: ta rge t cu stom e r; m a rke t segm en ta tion; a ssoc ia tion ru le; logistic regre ssion; neu ra l ne two
4、rk; dec ision tree0 引言与传统广告形式相比 ,直邮 (直接邮寄 ) 成本低廉、效果直接、反馈及时。但是 ,直邮营销 的费用仍然很贵 ,响应率也较低。因此 ,若能更好地找到潜在目标客户作为邮寄对象 ,企业就 能降低营销成本和提高响应率。很多公司都拥有自己的客户历史数据库 。数据挖掘方法能从这些历史数据中抽取出潜在 的有价值信息、模式和趋势 ,提高公司的市场决策能力。我们将采用某个给顾客直邮产品目录 的公司的真实数据 ,讨论如何使用数据挖掘方法对历史数据进行分析 ,从而提高直邮的营销效 率。1 使用数据挖掘方法提高直邮营销效率111 数据挖掘方法数据挖掘是对大量数据进行探索与分
5、析 ,以发现有意义的模式和规则的过程 1 。在此我收稿日期 : 2005年 10月 10日关联规则分析主要用于市场篮分析 , 可以识别出在销售记录中一起发生的事件。一个典 型的成功案例是 :在美国 , 一些年轻的父亲下班后经常要到超市去买尿布 , 其中有 30 % 40 % 的人同时也买了啤酒 ; 超市因此把尿布和啤酒放在一起 , 明显增加了销售额。具体而言 , 关联 分析可用来挖掘数据中形如 A B 的关联 (如尿布 啤酒 ) , 其中 A B = , A 称为该规则的前 项 , B 称为后项。规则 A B 的支持度定义为 P r (A ) 1 , 置信度定义为 P r (B | A ) 。
6、关联分析的目 的就是找出数据中同时满足给定的最小支持度阈值和最小置信度阈值的强关联规则。设 Y为潜在顾客是否进行购买的 0 - 1 指示变量 , X 为所有可用于预测 Y值的自变量 。下 面我们讨论三种可用于根据 X 预测 Y的模型。(一 ) Logistic回归。Logistic回归假设 log P r ( Y = 1 ) P r ( Y = 0 )=T X。它的结果很容易解释 , 但它对对数优比 ( log odd sra tio)的线性假设在很多大型营销数据中并不成立。(二 )人工神经网络。最常用的前馈人工神经神经网络如图 1所示。其中 , 输入层的每个节点对应于 X 中的自 变量 ,
7、输出层的节点对应于因变量 Y, 在输入层和输出层之间是隐含层。隐含层和输出层的每 个节点都与其前一层的节点连接在一起 , 每个连接对应一个权重 (w ij或 w jY ) , 此节点的输出值 就是将它所有输入节点值的加权和作为一个激活函数的输入而得到 (如第一个隐含节点的输p出值为 f w i1 X i , 其中 f为激活函数 ) 。神经网络的一个缺点是结果很难解释。i = 1(三 ) C510决策树。决策树 (如图 2 )展示了在 X 满足什么条 件下 Y取什么值这类规则。在利用决策树对 观测进行分类时 , 沿着决策树从上到下遍历 , 在每个节点根据某个自变量的取值到达不同 的分支 , 最后
8、到达一个叶子节点 (如图 2 中的 Y = 1 ) , 从而预测 r的取值。在图 2 所示的决1策树中 , 如果一个观测的 X iA1 且 X iA2 ,2那么预测这个观测的 Y 值为 1。决策树结果 的可解释性好 , 易于理解。图 1 前馈神经网络示例通常 , 我们拥有对潜在顾客进行直邮营销的历史数据 , 其中既有顾客的自变量信息 , 也包 含因变量的真实值。我们把历史数据随机拆分成训练数据集 、修正数据集和测试数据集 。首 先 , 使用训练数据集初步建立对因变量的各种预测模型。然后 , 应用修正数据集对各种模型进 行评估 , 选定对于这些模型的最佳参数设置 , 并选择最佳的模型。接着 ,
9、我们使用测试数据集1也有文献将支持度定义为 P r (A B ) , 即 A、B 在数据库存中同时出现的概率。我们使用 P r ( A ) 来定义支持 度 , 是为了和我们使用的分析软件 C lem en tine以及下文中的分析结果相一致 。试数据集在模型建立、修正和选择过程中 未使用过 , 所以能客观地评估模型效果。 假设未来的销售情况与历史相似 , 我们可 以将选定的预测模型用于未来。112 直邮营销中的模型评估我们将预测模型根据潜在顾客自变量 信息对购买情况的预测结果与评估数据集 (修正数据集或测试数据集 )中购买的实际 情况进行对比 , 进行模型评估 。预测情况没有购买购买实际 情况
10、没有购买N 00N 01 (第二类错误 )购买N 10 (第一类错误 )N 11预测模型对于潜在顾客可能存在两种 错误分类 :第一类错误将实际进行购买的 顾客预测为不会购买 , 而第二类错误将实 际没有进行购买的顾客预测为会购买。通 常我们更为关心的是减少第一类错误 , 因 为第一类错误的成本 (即顾客的购买金图 2 决策树示例表 1 无序矩阵示例额 )通常高于第二类错误的成本 (即生产、邮寄一份信件的成本 ) 。在对预测模型进行评估时 可使用如表 1所示的无序矩阵 , 其中 N 00 、N 01 、N 10和 N 11为顾客人数 。它显示模型的总体准确 度为 (N 00 + N 11 ) /
11、 (N 00 + N 01 + N 10 + N 11 ) , 第一类错误的概率为 N 10 / (N 10 + N 11 ) , 第二类错误的 概率为 N 01 / (N 00 + N 01 ) 。在评估预测模型时 , 还有一个很重要的概 念是提升率 ( lif t) 。图 3 是能体现提升率的无 累积响应图 。通过预测模型 , 我们可以预测评 估数据集中每一位顾客的购买概率 。图中的 横坐标表示选取购买概率最大的 x %的顾客 , 纵坐标表示这些顾客的响应率 , 即其中有 y % 的顾客实际进行了购买 ; 图中还有一条水平的 基线 , 表示评估数据集中顾客的总体响应率(即随机选择 x %的
12、顾客进行邮寄的响应率 ) 。图 3 无累计响应图示例提升率即为无累积响应图中预测模型曲线上的响应率与基线响应率之比; 例如 , 在图 3 中 , 若 选择购买概率前 10 %的顾客 , 提升率为 60 % / 20 % = 3。2 应用实例2. 1 研究数据我们实例中的公司有 A、C、D、F、H、K、L、M 、T等销售部门 , 其中 D 部门是公司的主要销售 部门。数据以顾客为单位 , 包含关于 96551名顾客的“基期 ”和“报告期 ”两个时间段的信息。基期数据包含截至 X 日的顾客历史行为信息和个人背景特征 , 主要包含 :1. 汇总的及各部门的订单数量 、购买金额、购买产品的数量、R F
13、M 5 分值;21距 X 日 6个月内、12个月内、24个月内、36 个月内的汇总的及各部门的订单数量和购 买金额;31顾客曾接触过的部门个数、顾客曾进行过购买的部门个数 ;41给顾客邮寄的产品总量、顾客在 F、T、C 三个部门取消预定的产品数量 、顾客在其他部 门取消预定的产品数量 、顾客退回的产品数量;51顾客付款方式 , 如使用各类信用卡的情况;61顾客的背景信息 , 包括顾客代码、性别、年龄、邮政编码等。 报告期数据记录了顾客对公司邮寄的 Y月 ( X 日之后的某个月 ) D 部门产品目录的响应情况。所有顾客都经确认收到了这份产品目录 , 但只有 2146 %即 2371 位顾客购买了
14、 Y 月 D 部 门目录中的产品。我们将针对顾客在报告期是否购买 D 部门的产品建立预测模型 , 为 Y 月之 后营销策略的实施提供参考。2. 2 数据筛选和分析准备我们首先删除了缺失率在 80 % 以上的变量 , 剩下有缺失值的两个变量缺失率分别为1123 %和 0113元 , 通过模型预测邮寄产品目录就会带来更大的营销收益 ( Rm R t ) 。 我们建立的预测模型可应用于下一步的营销活动。最直接的应用是在下一次发放产品目录前 , 使用预测模型对顾客的购买概率进行预测 , 选择购买概率最大的小部分顾客进行邮寄。 预测模型的另一个应用是根据模型预测的购买概率进行市场细分 , 比如购买概率大
15、于 70 % 、 位于 30 % 70 %之间、小于 30 %的顾客各为一类 , 然后再仔细考察各类顾客的特征。3 讨论在直邮营销中 , 通过数据挖掘方法对历史数据进行分析 , 能够提高营销收益 。在市场竞争 日益激烈的环境中 , 对历史积累客户数据库的有效利用将成为很多公司核心竞争力的重要组 成部分 , 非常希望我们的研究能为他们提供实战思路 。参考文献 1 B e rry, M. J. A. , L inoff, G. M a ste ring da ta m in ing: the a rt and sc ience of cu stom e r re la tion sh ip m a
16、nagem en tM . John W iley &Son s, 2000. 2 H an J , Kam be r. D a ta m in ing: concep ts and techn ique s M . Mo rgan Kaufm ann Pub lishe rs, 2001. 3 R ip ley BD. Pa tte rn R ecogn ition and N eu ra l N e two rk s M . Cam b ridge U n ive rsity P re ss, 1996. 4 Q u in lan JR. C4. 5: P rogram s fo r M ach ine L ea rn ing M . Mo rgan Kaufm an, 1993. 5 M iglau tsch, J , Though ts on R FM sco ring J , Jou rna l of D a taba se M a rke ting, 2001, 8 ( 1 ) : 67 - 72.