《第八章 预测与数据挖掘.ppt》由会员分享,可在线阅读,更多相关《第八章 预测与数据挖掘.ppt(72页珍藏版)》请在三一办公上搜索。
1、版权所有,2006 上海财经大学 邵建利,SAS软件应用,主讲:上海财经大学统计学系 邵建利,第八章 SAS预测与数据挖掘,预测是运用各种知识和科学手段,分析研究历史资料和调研资料,对事物发展趋势或可能的结果进行事先的推测和估计。人们对未来进行预测是为了探索预测对象发展的客观规律,揭示其发展方向和趋势,分析其发展的途径和条件,为研究制定最佳方案提供依据。,一、预测的概念,Sales Forecasting 销售预测,美力特黄铜制品公司(Merit Brass)是一个家族所有的公司,供应管材、阀门及配件领域的上千种产品。1990年,公司提出了一个强调将管理科学方法应用于统计销售预测和成品库存管理
2、(两项十分关键的活动)的现代化项目。这个项目使得顾客服务(以产品可获得率衡量)得到改进,同时费用大幅降低,这不是我们所需要的吗?,Sales Forecasting 销售预测,西班牙电力企业,Hidroelctrica Espaol,开发并采用了一套管理科学模型来辅助管理水力发电的水库系统。这些模型是依靠对能源的需求(公司的销售)和水库流入量的预测来驱动的。一个复杂的统计预测模型被用来预测对能源的短期和长期的需求。一个水文预测模型提供了对水库流入量的预测,Sales Forecasting 销售预测,航空公司现在非常依赖于在收取不看重价格的商务人员旅行支付的高额票价的同时向其他人提供折扣票价以
3、填满座位。座位的数目在不同的运费等级上如何分配的决策对利润最大化来说是关键的。美洲航空公司(American Airlines)使用对每一种票价需求的统计预测来做出这项决策的,Spare Parts Demand Forecasting 备件需求的预测,美洲航空公司(American Airlines)使用一个基于计算机的称为旋转分配和计划系统(Rotatable Allocation and Planning System,RAPS)的系统来预测对旋转部件的需求,并帮助将这些部件分送到各个机场。这个统计预测使用了18个月的部件以及飞行小时的数据,以计划飞行小时为基础提前进行项目编制。,For
4、ecasting Production Yields 合格品率的预测,艾尔巴古微电子公司(Albuquerque Microelectronics Operation)是一个固定散热(radiation-Hardened)芯片的专业制造商。生产芯片的第一个步骤晶片制造,有一个连续但不稳定的合格品率。对于一件产品其合格品率在最初的几批中会很小(0到40%),以后会逐步上升到较高水平(35%到75%)。于是一种针对于这种上升趋势的统计预测方法就被使用来预测合格品率,Forecasting Economic Trends 经济趋势预测,美国劳工部(US Department of Labor)与一家
5、咨询公司签订了一项协议,开发失业保险经济预测模型(UIEFM),这个模型现在已经被全国各州的就业安全机构所使用。通过对基本经济因素如失业率、工资水平、失业保险所覆盖的劳动力人数等的预计,UIEFM预测一个州要支付多少失业保险金。通过对州失业保险基金税收收入的预计,UIEFM还能够预测基金10年的收支,Forecasting Staffing Needs 雇员需求预测,联合航空公司(United Airlines)在它的11个预定处拥有超过4000名预定销售代理及支持人员,在10个最大的机场有大约1000名顾客服务代理人,一个计算机化的计划系统已被用来为这些雇员设计工作计划。尽管一些其他的管理科
6、学技术(包括线性规划)也被应用于系统中,但是对雇员需求的统计预测仍是一个关键的部分。这个系统除了每年为公司节省超过600万美元的开支以外,还改进了顾客服务,减少了对直接人员的需求,Forecasting Staffing Needs 雇员需求预测,L.L.Bean是一家高档户外用品及服饰的主要零售商。超过70%的销售是通过在公司的呼叫中心下达订单后完成的。呼叫中心提供了两个800号码,一个用于下达订单,另一个用于询问和反映问题。每个公司的代理人都为应答这两个800电话中的一个而接受了训练。因此,不同的统计预测模型被用于对两个800号码的人员周需求量进行预测。经过精确改进的模型通过提高计划有效性
7、每年为L.L.Bean公司节约了30万美元,Some Applications of Forecasting Methods 预测方法的一些应用,组织 预测变量 Interfaces 期号Merit Brass Co.最终产品的销售量1993,1/2 Hidroelctrica Espaol 能源需求1990,1/2 American Airlines 不同等级座位的需求量1992,1/2 American Airlines 维修飞机的备件需求量1989,7/8 Albuquerque Microelectronics 晶片的合格率 1994,3/4 U.S.Department of Lab
8、or 失业保险支付额1988,3/4 United Airlines 代理处和机场的需求1986,1/2 L.L.Bean 呼叫中心的人员需求1995,11/12,Types of Forecasts预测的类型,定性预测(Qualitative)属于主观判断(Judgmental),基于估计和评价 定量预测(Quantitative)时间序列分析(Time Series Analysis)因果分析(Causal Relationships)仿真模拟(Simulation),Components of Demand需求的构成,Worth Noting Trends值得注意的趋势,一段时期内的平均
9、需求(Average Demand)需求趋势(A Trend)季节因素(Seasonal Element)周期因素(Cyclical Element)随机因素(Rand Variation)自相关(Autocorrelation),Qualitative Methods定性方法,一般预测(Grass Roots)市场调研(Market Research)小组共识(Panel Consensus)历史类比(Historical Analogy)德尔菲法(Delphi Method),Delphi Method德尔菲法,选择具有不同知识背景的参与专家.通过问卷调查(或电子邮件)从专家处获得预测信息
10、 汇总调查结果,附加新的问题重新发给专家 再次汇总,提炼预测结果和条件,再次形成新问题 如有必要,重复前一步骤,将最终结果发给所有专家,Judgmental Forecasting In Firms公司中的主观预测,预测技术 LowSales HighSales$500M经理意见 40.7%39.6%部门主管集体讨论 40.7%41.6%销售人员意见汇集 29.6%35.4%公司数目 27 48,Quantitative Forecasting In Firms公司中的定量预测,预测技术 LowSales HighSales$500M移动平均 29.6%29.2%直线延展 14.8%14.6%
11、天真预测 18.5%14.6%指数平滑 14.8%20.8%回归 22.2%27.1%仿真 3.7%10.4%经典分解 3.7%8.3%Box-Jenkins 3.7%6.3%公司数目 27 48,Time Series Analysis时间序列分析,企业选用哪一种预测模型取决于:预测的时间范围 能否获得相关数据 所需的预测精度 预测预算的规模 合适的预测人员 企业的柔性程度,Simple Moving Average简单移动平均,Ft:对下一期的预测值 N:移动平均的时期个数 At-I:前I期的实际值,Simple Moving Average简单移动平均,Simple Moving Ave
12、rage简单移动平均,Weighted Moving Average加权移动平均,权重:t-1.5 t-2.3 t-3.2,在前三期需求值 与各自权重的基 础上预测第四期 的需求,Weighted Moving Average加权移动平均,Exponential Smoothing指数平滑,假设:近期的数据比早期的数据更能够准确地预测未,因此需要最近的数据的权重就要比以前的数据的 权重要大,Ft=Ft-1+a(At-1-Ft-1),Exponential Smoothing指数平滑,用 a=.10 和 a=.60.预测值求令 F1=D1,Exponential Smoothing指数平滑,Ef
13、fect of a on Forecast a 对预测的影响,Forecast Errors预测误差,误差分为偏移误差和随机误差 偏移误差来源:未包含正确变量、变量间关系定义错误、趋势曲线不正确、季节性需求偏离正常轨道、存在某些隐式趋势 随机误差是无法由预测模型解释的误差项,功能:自动选择预测模型,对数据建立最为适合的预测模型。,SAS系统的时间序列分析模块,实验六、长途客运客流量预测模型,长途客运行业的发展依赖于合理科学的决策,而科学的决策,显然离不开科学的预测。科学的预测能使决策者了解未来,把对未来的不确定性通过定时、定性、定量的分析降到最低,为决策提供依据。客流量的预测具有对于客运行业的
14、资源整合具有非常重要的意义:从宏观层面上看,客流量预测是长途客运系统合理规划的基础,只有在对客流的流量、流向进行合理预测与分析的基础之上,才能合理规划未来长途客运系统的设施设备,合理安排运量,合理确定系统各阶段的发展目标,从而使整个长途客运系统与社会经济发展、生产力布局相适应,确保国民经济的正常发展。从微观层面看来,通过对各项客流预测结果的分析,可以合理确定研究线路近期、中期、远期在路网中的功能和作用,为新线建设、旧线改造和相关客运场站技术设备修建与改造提供客观的依据;是编制长途客流计划的基础,准确的客流量预测有助于合理的调配运力,对于运输资源的合理配置有着极其重要的现实意义。,影响长途旅客运
15、运输量大小的因素很多,包括运价、旅客满意度、班线情况以及站点的布局情况等等。通过对这些因素的分析,可以对长途旅客流量做出预测,但由于部分影响因素是定性的,不便于进行定量化分析,在实际预测中存在一定的困难,预测的结果也未必会很好,再者,各影响因素之间往往存在多重共线性,在一定程度上也会使客流量的预测产生误差。但是,随着长途客运信息平台的运营,每天我们都可以从平台上得到大量的实际客流量数据,通过对这些数据进行分析,运用合理的统计方法,找出其发展规律,就可以较为准确的对客流量进行预测。,1、数据来源:由上海市城市交通运输管理局提供,上海市长途客运总站2006年2月15日2006年3月25日,共34天
16、,每天旅客发送量数据。2、数据变量说明date:日期(2006.2.15 2006.3.25)passenger:当日旅客发送量,步骤一、导入数据 将EXCEL数据倒入SAS系统中,并取名为 FORECAST,放在WORK逻辑库中,见程序chap3-8-1。,/*chap3-8-1*/PROC IMPORT DATAFILE=C:DATAFORECAST.XLS OUT=FORECAST DBMS=EXCEL2000;RUN;,步骤二、分析准备点击Solutions(s)中的主菜单Analysis(s)中的Time Series Forecasting System(F),见图313。,启动时
17、间序列预测系统,在弹出的时间序列预测的对话框中,点data set 一行的Browse 按钮,指明分析的数据集。在本实验中,我们选中存放在work逻辑库中的数据集forecast。系统自动将数据集中的日期变量date 作为时序标志(time id),见图。,图 参数设置,在弹出对话框中,将选择模型的标准(Selection Criterion),改为R-Square。然后点击 Run 按钮,让系统自行按 最优的标准选则模型,图316 选择模型的标准,步骤四、查看模型结果在完成了步骤三的操作以后,系统弹出自动生成模型结果(Automatic Model Fitting Results)的对话框,
18、见图317所示,系统自动拟合的模型为对数季节指数平滑模型(Log Seasonal Exponential Smoothing)。时间序列和模型的名称,以及预测模型相关的统计量都已列在图317中。点击图317右下方的Graph按钮可查看关于该模型的图形结果;点击Stats按钮可查看该模型的统计量结果。,图317 生成模型结果,1、模型结果从步骤四的图我们可以看出,自动拟合的模型为 Log Seasonal Exponential Smoothing。,=0.81447,均方误差为351285。,按钮后,其结果见图318。,点击,2、图形结果,模型结果按我们设立的选择标准,系统给出了最优模型:指
19、数平滑法中的Log Seasonal Exponent Smoothing。下图为客运量的实际值和预测值之间的比较。蓝线为模型预测线,黑点为实际值。可以看出模型的拟合效果还是不错的。预测模型比较贴近实际值的周期性波动。,点击 按钮后,结果如图319所示,该图为预测误差图。从图中可以看出,预测值与实际值之间差值的情况。本模型的预测误差在正负1500内,分布较为均匀。共有5个观测值的预测误差较大(大于1000),占样本的14%。,图319 预测误差图,点击 按钮后,结果如图320所示。,图320自回归相关和偏自相关分析结果,图320为预测误差的自回归相关和偏自相关分析结果,该图可以看出,预测误差序
20、列基本稳定。,点击 按钮后,结果如图321所示:,图321 模型预测的图形结果蓝色虚线以后的部分,是预测模型外推预测结果。,什么是数据挖掘?数据挖掘DM(Data Mining)是从大量数据中挖掘出隐含的、先前未知的、对决策有潜在价值的知识和规则。这些规则蕴含了数据库中一组对象之间的特定关系,揭示出一些有用的信息,为经营决策、市场策划、金融预测等提供依据。通过数据挖掘,有价值的知识、规则或高层次的信息能就从数据库的相关数据集合中抽取出来,并从不同角度显示,从而使大型数据库作为一个丰富可靠的资源为知识管理服务。,数据挖掘在一些文献中也有其他名称,如数据开采、知识挖掘、知识抽取、知识考察等。数据挖
21、掘是知识发现KDD的一个关键步骤,它包括特定的数据挖掘算法,具有可接受的计算效率,生成特殊的模式。KDD是利用数据挖掘算法,按指定方式和阈值抽取有价值的知识,包括数据挖掘前对数据的预处理、抽样及转换和数据挖掘后对知识的评价解释过程。,数据挖掘的特点,所处理的数据规模十分巨大。寻找决策所需的信息。数据挖掘既要发现潜在规则,还要管理和维护规则。数据挖掘中规则的发现主要基于大样本的统计规律,发现的规则不必适用于所有数据,当达到某一阈值时便可认为有此规律。,数据挖掘的分类 根据所开采的数据库类型、发现的知识类型、采用的技术类型,数据挖掘有不同的分类方法。(1)按数据库类型分类从关系数据库中发现知识;从
22、面向对象数据库中发现知识;从多媒体数据库、空间数据库、历史数据库、Web数据库中发现知识。,(2)按挖掘的知识类型分类 按挖掘的知识类型可分为关联规则、特征规则、分类规则、偏差规则、聚集规则、判别式规则及时序规则等。按知识的抽象层次可分为归纳知识、原始级知识、多层次知识。一个灵活的规则挖掘系统能够在多个层次上发现知识。,(3)按利用的技术类型分类根据开采方法分为自发知识开采、数据驱动开采、查询驱动开采和交互式数据开采。根据开采途径分为基于归纳的开采、基于模式的开采、基于统计和数学理论的开采及集成开采等。,(4)按挖掘的深度分类在较浅的层次上,利用现有数据库管理系统的查询/检索及报表功能,与多维
23、分析、统计分析方法相结合,进行 OLAP,从而得出可供决策参考的统计分析数据。在深层次上,从数据库中发现前所未知的、隐含的知识。OLAP的出现早于数据挖掘,两者都是从数据库中抽取有用信息的方法,就决策支持的需要而言两者可以起到相辅相承的作用。OLAP可以作为一种广义的数据挖掘方法,它旨在简化和支持联机分析,而数据挖掘的目的是使这一过程尽可能自动化。,数据挖掘有两种功能:(1)预测/验证功能。用数据库的若干已知字段预测或验证其他未知字段值;(2)描述功能指找到描述数据的可理解模式。,数据挖掘和知识发现的联系,知识发现KDD(knowledge discovery)是指识别出存在于数据库中有效的、
24、新颖的、具有潜在效用的、最终可理解的、模式的、非平凡过程。KDD的整个过程包括在指定的数据库中用数据挖掘算法提取模型,以及围绕数据挖掘进行的预处理和结果表达等一系列的计算步骤。尽管数据挖掘是整个过程的中心,但它通常只占整个过程15%25%的工作量。知识发现是从数据库中发现知识的全部过程,而数据挖掘则是此全过程的一个特定的关键步骤,1、熟悉应用领域、背景知识及用户的KDD任务性质;2、数据的选择:确定与发现任务相关的数据集合;3、数据清理和预处理,包括除去错误和冗余数据、处理丢失数据、更新数据和时序信息并将其准备成数据挖掘工具所需的表达式;4、数据缩减和投影,寻找依赖于发现目标的、表达数据的有用
25、特征,通过降低维数和数据转换以缩减数据规模;降低数据复杂性;5、确定KDD目标,选择合适的算法如聚集、分类、线性回归等;,KDD的步骤,6、选择数据挖掘算法,选择适当的模型和参数;7、执行数据挖掘过程,发现模式并表达成易理解的 形式如分类规则等;8、评价和解释发现的模式,必要时反复执行步骤1到7;9、将模式提交给用户或应用到系统中。KDD整个过程是一个以知识工作者为中心、人机交互的探索过程。,1 生物医学和DNA数据分析的数据挖掘 人类有约10万个基因。一个基因通常由成百个核苷按一定次序组织而成。核苷按不同的次序和序列可以形成不同的基因,几乎是不计其数。具有挑战性的问题是从中找出导致各种疾病的
26、特定基因序列模式。由于在数据挖掘中己经有许多有意义的序列模式分析和相似检索技术,因此数据挖掘成为DNA分析中的强有力工具,2 针对金融数据分析的数据挖掘(1)为银行和金融数据构造其数据仓库:多维数据分析用于分析这些数据的一般特性。例如,人们可能希望按月,按地区,按部门,以及按其他因素,查看负债和收人的变化情况,同时希望能提供最大、最小、总和、平均和其他统计信息。数据仓库,数据立方体,多特征和发现驱动数据立方体,特征和比较分析,以及孤立点分析等,都会在金融数据分析和挖掘中发挥重要作用。,(2)贷款偿还预测和客户信用政策分析:有很多因素会对贷款偿还效能和客户信用等级计算产生不同程度的影响。数据挖掘
27、的方法,如特征选择和属性相关性计算,有助于识别重要因素,剔除非相关因素。例如,与贷款偿还风险相关的因素包括贷款率,贷款期限,负债率,收入比率,客户收入水平,受教育水平,居住地区,信用历史,等等。,分析客户偿还的历史信息,可以发现,偿还与收入比率可能是主导因素,而受教育水平和负债率则不是。银行于是可以据此调整贷款发放政策,以便将贷款发放给那些以前曾被拒绝,但根据关键因素分析,其基本信息显示是相对低风险的申请。(3)对目标市场客户的分类与聚类:分类与聚类的方法可用于用户群体的识别和目标市场分析。例如,通过多维聚类分析,可以将具有相同储蓄和贷款偿还行为的客户分为一组。有效的聚类和协同过滤方法有助于识
28、别客户组,将新客户关联到适合的客户组,以及推动目标市场。,(4)金融犯罪的侦破:把多个数据库的信息(如银行交易数据库、联邦或州的犯罪历史数据库等)集成起来。然后可以采用多种数据分析工具来找出异常模式,如在某段时间内,通过某一组内发生大量现金流量,等等。这些工具可以识别出一些重要的活动关系和模式,有助于调查人员聚焦可疑线索,做进一步的处理。有用的工具包括:数据可视化工具(用图形方式按时间和一定人群显示交易活动);链接分析工具(识别不同人和活动之间的联系),分类工具(滤掉不相关的属性,对高度相关属性排级);聚类分析工具(将不同案例分组);孤立点分析工具(探测异常资金量的转移或其他行为);序列模式分
29、析工具(分析异常访问模式的特征)。,实例 数据特征对预测分类数据挖掘模型选择的影响,面对数据挖掘系统能够建立大量的预测分类的数据挖掘模型,决策者希望能够在选择一种或几种能得到最高正确率的预测分类模型来进行更为有效的数据挖掘。为了达到这个目的,需要研究能够反映数据集结构的数据特征对预测分类的数据挖掘模型的影响。它一般是通过案例证明反映目标属性数据特征的CI值等级(一个借鉴于产业经济学中的概念),并需要研究模型交互作用对预测分类的正确率是否显著性影响。其目的是找到可以比较直观地让决策者从若干预测分类的数据挖掘模型中选择出最合适模型一种方法。,【实验数据】em.xls 1、数据来源:案例所用的临床数
30、据集是由伦敦圣乔治医院老年医学部的临床计算机系统收集的从1994年至1997年就诊病人的观测数据,一共4722条病人记录,每条记录包括45条属性值:病人的个人资料、入院、住院和离院时的详细资料等。在这些属性中,对于病人的住院时间起作用的有20个属性,为病人的年龄、性别、婚姻状况、入院原因(包括中风、跌伤、神志不清、尿失禁、便失禁、行动能力下降或其它原因)、Barthel指数(包括共10个具体指标)等。,2、数据变量说明AGE:病人年龄SEX:病人性别ADMMTHD:入院方式ESPUR:住院时间DISCMON:住院月份DISCYR:住院年份OUTCOME:出院方式FIRSTADM:第一次入院的病
31、因,具体病因(STROKE FALL CONFUSED UI FI D OTHER)。BARSCO:Barthel指数,由十个具体指标计算而得。(FEEDGRP GROOMGRP BATHGRP MOBILGRP STAIRGRP DRESSGRP TRANSGRP BLADDGRP TOILEGRP BOWELGRP),步骤、建立分类预测模型 利用SAS Enterprise Miner 4.1分别建立用于预测分类的树模型(CART/CHAID)、logistic回归模型和神经网络模型(MLP),首先,点击进入EM分析模块,。,在弹出的对话框中按如下数据挖掘流程图建立分析模型,从tools一
32、栏,按数据挖掘图,将input data source 选入,(鼠标左键选中拖入视图即可),,双击,input data source。点击select,在弹出对话框中指定准备好的数据集。本实验里,该数据集为work.emmodel,见图。,点击meta sample 的按钮 change,在弹出的小对话框中选中use complete data as sample,这样数据集计算,准备就绪,见图。,同样的按数据挖掘图托入,弹出如图的对话框。,data partition,并双击,,修改数据分层,70%的数据用于训练(Training),30%的数据用于测试(Validation)。根据Bar
33、thel指数的值进行分层,用以保证后续的分组步骤中不会出现某一Barthel指数值的子集的训练或测试子集为空集的现象。在图332中,将method改选为stratified,在stratification 中将BARSCOGRP改为分类变量,见图333。,其余的,按数据挖掘流程图建立分析过程,即还包括:(1)树模型。分别建立基于CART算法和CHAID算法的树模型。CART算法中采用的分裂标准是熵不纯性,模型的评价标准是测试数据集的分类正确比例最高;CHAID算法中选择卡方检验作为分裂标准,模型的评价标准仍为测试数据集的分类正确比例最高。(2)回归模型。使用显著性水平为0.05的逐步回归方法建立一个logistic回归模型,连接函数是logit函数,模型的评价标准选用测试数据集的分类错误率最小。(3)神经网络模型。建立一个多层感知器作为网络结构,同样选择测试数据集的错误分类率最小的模型。分别选择3个、4个和5个隐含节点分别建立模型。(4)朴素模型。选择每一个Barthel指数中出现频率最高的住院时间类别,其分类错误率将随CI值的升高而降低。,The End of Session 8,谢谢!,