《证券交易所数据挖掘培训-II.ppt》由会员分享,可在线阅读,更多相关《证券交易所数据挖掘培训-II.ppt(58页珍藏版)》请在三一办公上搜索。
1、上海证券交易所数据挖掘培训 II概览,议程,业务系统和数据仓库之间的关系数据挖掘的方法和应用数据挖掘的具体过程数据挖掘项目成功的要素数据挖掘举例,业务系统和数据仓库之间的关系,业务系统和数据仓库,业务系统的主要功能是日常运作数据仓库的目的是决策支持业务系统是数据仓库的数据源数据仓库系统不是也不可能替代业务系统,业务人员和技术人员的角色与职责,数据仓库是为了最终用户的使用而由最终用户和技术人员共同创建的,数据仓库不是一个技术项目数据仓库必须由技术人员和最终用户共同缔造技术人员和最终用户必须共同合作才能保证项目的成功,最终用户的职责,业务目的确定(主导)用户需求(主导)设计 逻辑模型星形模型实施
2、测试培训,技术人员职责,业务目的确定(主导)用户需求(主导)设计 逻辑模型物理模型 星形模型实施 设计编程 测试 培训,数据挖掘的方法和应用,数据挖掘的方法及典型应用,数据挖掘功能、算法及典型应用,数据挖掘的具体过程,数据挖掘流程,1.业务目的确定,7.数据挖掘,8.结果解释,业务目标确定,对于所有的数据挖掘项目,这并不是自动获得的。许多数据挖掘项目的目标通常是模糊和不清晰的。对于分析人员和决策制定者来说,在任何数据挖掘项目的开始阶段,对业务问题、业务目标以及数据挖掘目的有一个清晰而描述是至关重要的。涉及人员:高级管理人员,业务分析员和项目经理 活动:与业务用户的会议和访谈,数据源识别,给定一
3、个业务目标,下一步就是找到可以回答和解决这一业务问题的数据。所需要的数据可以来自操作型数据或者是公司内的数据库/数据仓库。涉及人员:业务分析员,数据挖掘分析员和IT人员活动:与IT部门的会议和访谈,数据收集,收集需要的数据有几种方式,这取决于数据需求和经济因素的综合考量。在公司内部数据中提取向数据公司购买进行市场调研从公告或媒体中获取涉及人员:数据挖掘分析员和IT人员活动:确定及收集可能用于挖掘的数据,数据选择,从数据源选择将使用的数据类型数据量大,采集时间长=数据抽样技术平衡减少数据量和采样必须具有较全面的代表性根据统计方法来计算样本的大小了解数据的定义数据的质量和可靠性数据的准确性数据的一
4、致性数据的完整性数据的有效性数据的代表性数据的非冗余性 涉及人员:数据挖掘分析员、IT人员,有时还有业务分析员活动:确定及选择可能用于挖掘的数据,业务目标确定数据质量审核,对选择的数据进行审核审核方法离散数据频率分析定量数据的分位数分析图形分析包括柱状图、饼图、散点图,boxplots,和时间曲线。涉及人员:数据挖掘分析员、IT人员,有时还有业务分析员活动:检测抽取数据的质量,数据转换,在选择并检验了需要的数据(表、变量)之后,多数情况下需要进行数据转换。特定的转换取决于数据挖掘类型和数据挖掘工具,比如计算机软件和数据挖掘所使用的技术。典型的转换转换类别变量成数字变量数学转换,如对数转换、次方
5、转换数字定义新变量涉及人员:数据挖掘分析员活动:抽取信息的转换,数据挖掘,数据挖掘项目的核心部分 尝试多种不同的数据挖掘技术以发现最优数据挖掘方法预测模型分类值预测分割链接分析时间序列预测涉及人员:数据挖掘分析员活动:挖掘数据,应用建议,把分析结果转化为业务利润。基于数据挖掘的知识发现,对在业务中运用数据挖掘结果,提出合理化建议涉及人员:数据挖掘分析员和业务分析员活动:分析挖掘结果并考虑如何在业务环境中应用,结果应用,数据挖掘结果应用途径将挖掘获得的知识直接发送给用户将结果加入ODS,DDS甚至源系统以便利用。涉及人员:IT人员活动:基于运行系统的建议,IT人员实施应用数据挖掘的结果,数据挖掘
6、项目成功的要素,好的数据源,数据要准确数据要丰富数据要经常更新,好的方案,方案必须紧密根据业务目的和数据挖掘目的来设计对数据挖掘技术要有全面而深刻的了解,从而保证方案制订有较强的灵活性和先进性对其它非数据挖掘方案来解决相同的课题也要有较强的认识,以备在制订数据挖掘方案时做参考。克服缺陷,发扬优点。,好的算法,好的算法能提高模型的准确性好的算法能为模型的调整提供更好的灵活性,好的系统支持,好的系统能够为支持某些算法的运行提供可能内存和硬盘空间不足会导致决策树模型不能运行好的系统能提高数据挖掘的效率好的系统增快数据挖掘的速度,从而减少等待时间,好的团队合作,数据挖掘是跨多部门(数据挖掘,IT,业务
7、部门)共同合作的项目,因此需要各个部门的精诚合作业务部门提供详细的业务需求,实时的业务知识指导,和专业化的数据挖掘结果审核IT部门提供数据源说明,数据提取和转换的支持,数据挖掘结果应用的实施数据挖掘部门提供数据整理的建议,制定优秀的数据挖掘方案,灵活应用数据挖掘的算法,解释数据挖掘的结果,对结果的应用提出合理化的建议,数据挖掘举例,收集信用机构的数据资产是开发新产品的催化剂,获取和管理18个月的数据提供数据集市类的环境以用于支持构想测试的查询对时间分析和数据挖掘的分析可以导向用于开发新产品的见识识别有倾向使用新产品的客户/消费者,这个项目的重点在信用卡客户消费模式分析.,跟往常一样,我们发现很
8、少的帐户占了消费量的很大一部分,我们创造了9种250个变量,其中选用了36项去建造树型,逻辑型和神经型模型,加速度行为拖欠劣迹历史询查限制分割利用性,取得专利的破产模型方法,用结合神经网络、逻辑回归和决策图表的新方法来开发破产/风险模型新开发的变量选择过程破产模型大大超过了一般商业模型,对于我们模型性能的测试结果明显高于其他商用同类产品.,预测股价的实例,“上升股票模型1”可以用来预测哪些股票价格会上升,模型特征:利用1993-1999所有美国股票市场的交易数据来创建重要特征股票价格,股票价格浮动,收益的季节性特征具体交易数据中的浮动特征“上升股票”定义:10天内至少上涨30%模型测试:从19
9、93-1999数据中提取导致“上升股票”发生的特征库采用时间窗口移动的方式来建立模型模型的实际应用是每天根据最新的交易数据对所有美国股市的股票进行预测,第二个“上升股票”模型已经开发和实施了,确定长期购买行为股票价格在未来6-12月里稳步上升使用1993-1999每天的股票闭市价来构造模型实施在一个包含最近12月所有美国股票价格数据的实时系统上,数学模型可以成功地发现待涨的股票,股票的历史数据全面,包含不同情况下的数据采用具体的交易数据更多的时间的股价,浮动,收益,以及市场状况特征人通过对其它交易者交易行为的模式总结来判定股市的走势-计算机能发现同样的这些模式并可以应用在更多的股票上,银行活动
10、事例,1998:我们需要利用提供出众的成员服务的名声来增长但必须是有益的增长。,我们需要维持成员满意度在价格上有竞争力的产品广泛的产品和服务-金融服务的中心我们希望增长与同业大商家竞争!扩大市场份额扩大现有成员资产共享 扩大成员范围给股东更高的回报快速,高效的操作定价须符合用户价值及风险,成为主要的金融服务提供商,关键技术能力已开始显现出客观经济回报,他们也成为发展和创新的动力!,利润业绩数据集市-(1999-2000)收益报表 客户,家庭,产品,渠道人口统计报告和分析连接Harland MaxSell,Acxiom数据市场营销排列市场分析-(2000)地理(空间)分析数据挖掘模型下一步销售,
11、交叉销售机会网上个人化的推销-(Initial study,March,2001)企业范围的客户分析个人化的推销和短信统一用户在分行,问讯中心,ATM和家里银行的信息最大化市场营销投入的回报市场营销业务-(1-2Q2002)触发器引擎,喜好引擎,概括器,公司继续平衡在收益数据集市的投资和更新先有商业操作上的投资.,与CRM工具的连接 呼叫中心,ATM,互联网和分行系统联系管理,销售自动化(2Q2002,NSS)市场活动管理系统市场活动越来越受到重视加强和风险管理应用的联系风险定价(Dec,2001)增强对人力资源的应用-(Sept,2001)追踪奖励 呼叫中心,征收,分行业务,等.平衡的商业评
12、分卡-(July,2001)在Texas的CU范围内进行高效的战略主动性沟通业务目标报告汇报和控制CEO 战略指挥台-(July,2001)减少操作风险,投资风险,提高ROA效益“sleep a little easier”,利润业绩数据集市,利润业绩数据集市是确保CRM,报告和计划功能的信息引擎。,利润业绩数据集市是确保CRM,报告和计划功能的信息引擎。,显示一个分行下所有客户的居住地.,最有价值客户所在地?,我们最佳的客户离他们所属网点的距离?,去往所属网点的驱车行驶时间是决定分行位置和竞争境况的一个重要因素.,65%,增长目标(根据客户分类/利润的排位)新客户的增长百分比 每个客户的产品
13、数量 利润借贷者满意度指数 客户投诉率变化。在呼叫中心,等候超过 SLA(1 分钟)的电话的等候时间客户流失目标(根据客户分类/利润的排位)客户流失率 直接存款的客户百分比,资产回报率收入增长存款增长效益率(总收入/(费用-投资成本))利润收入(资产收益 投资成本)逾期率(逾期/总贷款额),客户,财政,balanced scorecard,CUTX选择使用关键性能指标来开始一个稳定的业务记分卡流程.,竞争批准率(批准但未放的贷款)被竞争对手抢走的资金额 从竞争对手哪儿赢得的资金额劳动力定位流失率(辞职人数/总雇员数)年限 均值,标差,学习和增长,CEO的第一重要工作是在对财务的有效控制下将企业增长放置在首位上。,完善的记分卡可以有效的显示企业高层的关系及各部门间的沟通.,我们是否在制订企业战略时做了最正确、最好的决策?我们假设了那些审批和价格风险?对于那些风险,我们有回报吗?我们的定价,信用制度,市场和决策会有那些长远的影响?,