金融市场的数据挖掘教材数据采掘入门与应用张尧.ppt

上传人:sccc 文档编号:5335919 上传时间:2023-06-27 格式:PPT 页数:29 大小:316.53KB
返回 下载 相关 举报
金融市场的数据挖掘教材数据采掘入门与应用张尧.ppt_第1页
第1页 / 共29页
金融市场的数据挖掘教材数据采掘入门与应用张尧.ppt_第2页
第2页 / 共29页
金融市场的数据挖掘教材数据采掘入门与应用张尧.ppt_第3页
第3页 / 共29页
金融市场的数据挖掘教材数据采掘入门与应用张尧.ppt_第4页
第4页 / 共29页
金融市场的数据挖掘教材数据采掘入门与应用张尧.ppt_第5页
第5页 / 共29页
点击查看更多>>
资源描述

《金融市场的数据挖掘教材数据采掘入门与应用张尧.ppt》由会员分享,可在线阅读,更多相关《金融市场的数据挖掘教材数据采掘入门与应用张尧.ppt(29页珍藏版)》请在三一办公上搜索。

1、金融市场的数据挖掘 教材:数据采掘入门与应用 张尧庭编 中国统计出版社 参考教材:1、数据挖掘概念与技术 jiawei Han著,范明译 机械工业出版社 2、多元统计数据分析理论、方法、实例 任若恩著 国防工业出版社 配套应用软件:1、Intelligent miner for data 2、SAS,第一章:概论 一、何为数据挖掘(data mining)现代信息社会的特征:信息(数据)泛滥、知识缺乏,如何从海量数据(广义的概念)中挖掘出决策有用信息?数据挖掘是结合现代数学、统计学,机器学习、人工智能、数据库管理、计算机图形学、软件工程等各领域的技术和知识,1990年代在西方国家出现的一种高新

2、技术从海量数据中挖掘出决策有用信息的技术。1990年代末,在对100名美国著名科学家的问卷调查中,数据挖掘被列为21世纪对人类发展影响最大、最有前途的10大技术的第三位。,我国对数据挖掘技术的重视(开发与应用)1、863、963项目;2、国家及省重点科学领域;3、国家统计局在全国组织数据挖掘培训(2000);4、企业特别是银行对数据挖掘技术的重视;5、人民大学数据挖掘研究与应用中心。海量数据沙漠,隐含的知识金子,数据挖掘从沙漠中挖掘金子的技术。,二、不同学科对数据挖掘技术的研究与开发 1、理论研究各种数据挖掘技术的理论基础、理论依据研究,从数学、统计学、人工智能、计算机图形学等不同领域;2、挖

3、掘技术研究,从统计学、人工智能、机器学习、计算机图形学、软件工程等领域;3、数据管理策略研究,从数据库管理技术等领域;4、数据挖掘技术的应用研究,其中数据挖掘技术在金融领域的应用是一个重要方面。,三、几种相对比较成熟的数据挖掘技术 数据挖掘是一门新兴的、正在不断发展中的技术,近年来,几类十分重要、且相对比较成熟的数据挖掘技术是:1、分类与预测 2、特征化、比较与关联规则挖掘 3、聚类分析 4、序列发现 本课程主要内容:几类数据挖掘技术的基本原理、数据挖掘方法、及这些挖掘技术在金融领域的应用。,第二章:分类与预测 一、分类与预测的概念 1、分类 已知离散的、有限的几个类,判断或预测样本属于那个类

4、。*某人否具有某种疾病*上市公司是否会陷入财务困境、是否会被外资并购*借款人是否会违约*这个客户是否为银行的潜在优质客户、是否会转向其他银行 用y表示类变量,y取离散的几个值,分类就是判断或预测样本的y究竟取什么值,2、预测 预测是指对连续性变量的取值进行预测,如:*某个借款人的违约概率是多少*银行资产组合明天在99%置信度下的最大损失(VaR)有 多大*如果某开放式基金因面临巨额赎回申请而不得不大量抛售某种证券,这种证券的价格会下跌多少 分类对离散型变量进行预测 预测对连续型变量进行预测,二、分类案例教学 上市公司财务困境预测模型构建 1、要求:将因财务状况异常而被特别处理的ST公司界定为财

5、务困境公司、非ST公司界定为财务正常公司,利用上市公司的财务报表数据,建立上市公司财务困境预测模型(提前一年预测,即用第t-2年的数据预测企业在第t年是否会陷入财务困境)。分类变量y的取值 y=0 如果公司为财务困境公司 y=1 如果公司为财务正常公司,2、类似案例:*外资并购目标公司预测*防信用卡诈骗预警系统*银行客户关系管理*税务稽核 3、数据来源:CSMAR数据库 1990-2004 资产负债表、损益表,1990-1997 财务状况变动表 1998-2004 现金流量表 4、报表变动情况:1994年合并会计报表 1998年资产减值准备,5、研究所需数据、预测变量选取实践经验、其他文献使用

6、的预测变量、采用技术手段(统计技术、数据挖掘技术)选取预测变量、在一定理论指导下构造新的预测变量;、样本数据的结构形式、采集样本数据时应注意的问题*尽量采用跨年度数据*需要删除的数据*尽量不采用配对抽样、随机构造的训练样本组与检验样本组(过度拟合现象),、本案例的数据说明(sj0):*1995年底前上市的公司;*删除其他原因被特别处理的公司;*数据跨期1996-2001,分别预测1998-2003;*删除在预测年度已陷入财务困境的公司;*共有非ST公司数据1008个,ST公司数据111个;*采用的6个预测变量为(第一种方法):总负债/总资产、主营业务收入/总资产、总利润/总资产、(货币资金+短

7、期投资净额)/流动资产、留存盈余/总资产、总资产的自然对数。,、随机抽样构造训练样本组、检验样本组的SAS方法:*将EXCEL数据库转为SAS数据库;*SAS随机数函数uniform(seed),随机种子数seed取奇数,产生0,1区间上的一个随机数*随机建立训练样本组、检验样本组的SAS程序#data a;set sasuser.sj0;k=uniform(15);run;#对已进行k排序的数据库a data b;set a;m=int(_n_/2);run;(sj1,sj2),二、构造分类预测模型的方法 1、判别分析法、判别分析方法的统计学原理 假设有两个总体财务困境公司与财务正常公司,每

8、个总体都可以用一个六维随机变量 表示,不同的总体分布不同。预测上市公司是否会陷入财务困境,就是判断这个公司所对应的样本属于哪个总体。判别分析是利用距离(相似程度的体现)来判断样本的归属。较常用的距离度量是马氏距离:,判别分析实际上是利用距离差:为判断指标来判断样本的归属。由于马氏距离为一个二次型,因此当 时,距离差也会一个二次型,这样在计算时较复杂,如果,且两个总体均服从正态分布,则距离差为一个线性函数(线性判别函数),可利用这个线性函数建立预测规则。,、判别分析的SAS程序:proc discrim data=sasuser.sj1;class y;run;、SAS结果 对两个距离的说明。现

9、在可以得到线行判别函数为:,、如何建立预测规则*指标的判断:正指标还是负指标(正指标)。*根据两种误判的损失估计确定合适的临界值 现在根据使两种误判尽可能接近的方法,得到:临界值:d=1.2、预测规则:对每个上市公司计算对应的d,若d1.2,则判断其一年后不会陷入财务困境;若d1.2,则判断其一年后会陷入财务困境。、预测准确率检验:训练样本组 检验样本组 ST公司:49/56=87.5%47/55=85.4%非ST公司:442/504=87.7%432/504=85.7%,、讨论*判别分析只能运用于离散型因变量预测,而不能运用于连续型因变量预测;*建立线性判别准则,需要较强的限制条件正态分布与

10、等协方差矩阵;*临界值的确定需考虑不同误判的损失函数,考虑使用者的风险偏好;*使用判别分析方法,需要事先确定预测变量。*也可以建立另外形式的预测规则。练习:交换sj1与sj2的地位,建立预测规则,并进行预测准确率检验。或建立其他问题的判别分析预测模型。,2、Logistic回归预测、统计学原理 计量经济学中,回归模型具有预测功能,但现在的数据结构为:,因变量为离散变量(虚拟变量),一般的线性回归模型不适用。Logistic回归模型实际上是概率预测模型,其原理如下:建立如下形式的线性模型:则得到概率预测模型,Logistic回归模型为非线性模型,模型的参数估计不能用最小二乘法,而采用极大似然估计

11、法。、Logistic回归的SAS程序 proc logistic descending data=sasuser.Sj1;model y=x1-x6;run;、SAS结果、临界值确定与预测规则 临界值:0.09,预测规则:P0.09,一年后上市公司将陷入财务困境;P0.09,一年后上市公司不会陷入财务困境.,、预测准确率检验 训练样本组 检验样本组ST公司 46/56=82.1%44/55=80%非ST公司 433/504=85.9%425/504=84.3%、讨论*模型可用于分类预测,也可用于概率预测(如违约率预测);*构建模型时应该避免非随机抽样,否则模型参数估计会产生偏差,特别是在构建

12、概率预测模型时;*如果需要采用分层抽样方法,则对参数估计方法应进行调整;*事先确定预测变量,否则的话,可以采用逐步回归法。,、逐步回归方法与预测变量选取 预测变量选取是建立分类预测模型的关键步骤。经常的情况是,知道预测变量的大致范围,但不知哪些变量具有较大的信息含量。利用逐步回归方法,可以在这个范围内挑选出较佳的构建Logistic回归模型的预测变量组。现在,另外选取了15个可能有用的预测指标y1-y15,对1119家上市公司利用逐步回归法建立预测模型。、逐步回归的SAS程序 proc logistic descending data=sasuser.sj00;model y=y1-y15/s

13、election=stepwise;run;,、SAS结果 构建Logistic回归模型的变量为:y3、y4、y5、y6、y10、y11、y12、y13、y14;、预测规则与预测准确率 预测规则:P0.09,一年后上市公司将陷入财务困境;P0.09,一年后上市公司不会陷入财务困境。预测准确率 ST公司:92/111=82.9%;非ST公司:864/1008=85.71%.,3、Probir回归预测 数据结构为:,因变量为离散变量(虚拟变量),一般的线性回归模型不适用。Probit建立如下形式的回归模型:Probit回归同样通过最大似然估计来估计模型参数。Probit回归的SAS程序 proc

14、probit data=sasuser.sj1;class y;(注意Logistic程序中没有这一项)model y=x1-x6;run;,经计算得到:预测规则:P0.1一年后上市公司将陷入财务困境,或者就不会陷入财务困境。预测准确率:训练样本组 检验样本组 St公司:46/56=82.1 46/55=83.6 非St公司:428/504=84.9 419/504=83.1,4、决策树方法 与前面讨论的几种分类预测方法相比,决策树方法是一种近年来才出现的分类预测方法,其基本原理如下。、熵与信息增量的概念 熵为一个统计学概念,设y为一个状态随机变量,其熵的定义为:在统计学中,熵是不确定性的度量

15、,一个分类随机变量的熵越小,其不确定性就越小,对其的预测就越准确。从信息学的角度看,如果利用一个变量后,可以减少分类变量的熵,则该变量对分类预测就具有信息价值,熵的减少量越大,该指标用于预测的信息价值也就越大。,、信息增量的概念 设x为某个指标,选取一个,按照条件 是否满足,可以将样本分为两组,分别计算各组中y的熵,指标x的信息增量定义为:其中,分别表示两组样本所占的比重。显然,这样计算的信息增量与 的取法有关,对每个指标,通过计算机搜索,可以找到一个最佳的,使其对应的信息增量达到最大。对每个指标,我们都可以计算其信息增量,这样我们就知道哪个指标对分类预测的信息含量最大。,、分类预测方法决策树

16、方法 利用信息增量的概念,数据挖掘中创造了一种分类预测的决策树方法,其基本的思路是反复地利用信息增量方法进行样本分割,直到不能再分割、或者达到事先的约定为止。然后沿着决策树的树系结构,我们就可以写出决策树方法的预测规则。决策树的预测规则由由一系列的预测结论组成。,、如何利用数据挖掘软件建立决策数预测模型*建立发掘数据库 将SAS数据库转化为Excel数据库;对Excel数据库的格式进行变化(格式/单元格/数值),并 将Excel数据库文件另存为带格式文本文件;将其拷贝入数据挖掘子目录home下;创建发掘数据库;*建立决策树模型 打开发掘数据库;建立决策树模型,对模型的预测准确性检验检验;写出预测规则。,、值得注意的问题*构建决策树是不能过分拟合样本数据;同样需要建立训练样本组与检验样本组;*为避免出现挖掘过分追求总体预测准确率的现象,可采用适当接近两类样本比率的方法;*可以利用决策树方法发掘各指标预测财务危机的信息含量排序;*结合决策树与信号噪音比方法可得到预测指标信息含量的度量方法,构造新的预测方法。,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 建筑/施工/环境 > 农业报告


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号