数据仓库与数据挖掘综述.ppt

上传人:小飞机 文档编号:5270305 上传时间:2023-06-21 格式:PPT 页数:81 大小:1,020.50KB
返回 下载 相关 举报
数据仓库与数据挖掘综述.ppt_第1页
第1页 / 共81页
数据仓库与数据挖掘综述.ppt_第2页
第2页 / 共81页
数据仓库与数据挖掘综述.ppt_第3页
第3页 / 共81页
数据仓库与数据挖掘综述.ppt_第4页
第4页 / 共81页
数据仓库与数据挖掘综述.ppt_第5页
第5页 / 共81页
点击查看更多>>
资源描述

《数据仓库与数据挖掘综述.ppt》由会员分享,可在线阅读,更多相关《数据仓库与数据挖掘综述.ppt(81页珍藏版)》请在三一办公上搜索。

1、数据仓库与数据挖掘综述,概念、体系结构、趋势、应用,报告人:朱建秋 2001年6月7日,提纲,数据仓库概念数据仓库体系结构及组件数据仓库设计数据仓库技术(与数据库技术的区别)数据仓库性能数据仓库应用数据挖掘应用概述数据挖掘技术与趋势数据挖掘应用平台(科委申请项目),数据仓库概念,基本概念对数据仓库的一些误解,基本概念数据仓库,Data warehouse is a subject oriented,integrated,non-volatile and time variant collection of data in support of managements decision Inmo

2、n,1996.Data warehouse is a set of methods,techniques,and tools that may be leveraged together to produce a vehicle that delivers data to end-users on an integrated platform Ladley,1997.Data warehouse is a process of crating,maintaining,and using a decision-support infrastructure Appleton,1995Haley,1

3、997Gardner 1998.,基本概念数据仓库特征Inmon,1996,面向主题一个主题领域的表来源于多个操作型应用(如:客户主题,来源于:定单处理;应收帐目;应付帐目;)典型的主题领域:客户;产品;交易;帐目主题领域以一组相关的表来具体实现相关的表通过公共的键码联系起来(如:顾客标识号Customer ID)每个键码都有时间元素(从日期到日期;每月累积;单独日期)主题内数据可以存储在不同介质上(综合级,细节级,多粒度)集成数据提取、净化、转换、装载稳定性批处理增加,仓库已经存在的数据不会改变随时间而变化(时间维)管理决策支持,基本概念Data Mart,ODS,Data Mart数据集市

4、-小型的,面向部门或工作组级数据仓库。Operation Data Store操作数据存储 ODS是能支持企业日常的全局应用的数据集合,是不同于DB的一种新的数据环境,是DW 扩展后得到的一个混合形式。四个基本特点:面向主题的(Subject-Oriented)、集成的、可变的、当前或接近当前的。,基本概念ETL,元数据,粒度,分割,ETLETL(Extract/Transformation/Load)数据装载、转换、抽取工具。Microsoft DTS;IBM Visual Warehouse etc.元数据关于数据的数据,用于构造、维持、管理、和使用数据仓库,在数据仓库中尤为重要。粒度数据

5、仓库的数据单位中保存数据的细化或综合程度的级别。细化程度越高,粒度越小。分割数据分散到各自的物理单元中去,它们能独立地处理。,对数据仓库的一些误解,数据仓库与OLAP星型数据模型多维分析数据仓库不是一个虚拟的概念数据仓库与范式理论需要非范式化处理,提纲,数据仓库概念数据仓库体系结构及组件数据仓库设计数据仓库技术(与数据库技术的区别)数据仓库性能数据仓库应用数据挖掘应用概述数据挖掘技术与趋势数据挖掘应用平台(科委申请项目),数据仓库体系结构及组件,体系结构ETL工具元数据库(Repository)及元数据管理数据访问和分析工具,体系结构 Pieter,1998,SourceDatabases,A

6、rchitectedData Marts,Data Accessand Analysis,End-UserDW Tools,Central DataWarehouse,Central DataWarehouse,Mid-Tier,Mid-Tier,DataMart,DataMart,Local Metadata,MetadataExchange,MDB,DataCleansingTool,Relational,Appl.Package,Legacy,External,RDBMS,RDBMS,带ODS的体系结构,SourceDatabases,ArchitectedData Marts,Data

7、 Accessand Analysis,Central Data Ware-house and ODS,Central DataWarehouse,Mid-Tier,RDBMS,DataMart,Mid-Tier,RDBMS,DataMart,Local Metadata,MetadataExchange,ODS,OLTPTools,End-UserDW Tools,现实环境异质性Douglas Hackney,2001,CustomMarketingData Warehouse,PackagedOracle FinancialData Warehouse,PackagedI2 Supply

8、ChainNon-ArchitectedData Mart,SubsetData Marts,Oracle Financials,i2 Supply Chain,Siebel CRM,3rd Party,e-Commerce,联合型数据仓库/数据集市体系结构,Real TimeODS,FederatedFinancialData Warehouse,SubsetData Marts,CommonStagingArea,Oracle Financials,i2 Supply Chain,Siebel CRM,3rd Party,FederatedPackagedI2 SupplyChainDat

9、a Marts,AnalyticalApplications,e-Commerce,Real TimeData Miningand Analytics,Real TimeSegmentation,Classification,Qualification,Offerings,etc.,FederatedMarketingData Warehouse,Front-and back-office OLTP,e-Business systems,External information providers,CRM Analytics&Reporting,Supply Chain Analytics&R

10、eporting,EKP-Enterprise Knowledge Management Portal,EPM Analytics&Reporting,Business information&recommendations,Informed decisions&actions,Financial Analytics&Reporting,HR Analytics&Reporting,闭环的联合型BI体系结构,数据仓库的焦点问题-数据的获得、存储和使用,Relational,Package,Legacy,Externalsource,DataCleanTool,DataStaging,Enter

11、prise DataWarehouse,Datamart,Datamart,RDBMSROLAP,RDBMS,数据仓库和集市的加载能力至关重要数据仓库和集市的查询输出能力至关重要,ETL工具,去掉操作型数据库中的不需要的数据统一转换数据的名称和定义计算汇总数据和派生数据估计遗失数据的缺省值调节源数据的定义变化,ETL工具体系结构,元数据库及元数据管理,元数据分类:技术元数据;商业元数据;数据仓库操作型信息。-Alex Berson etc,1999技术元数据包括为数据仓库设计人员和管理员使用的数据仓库数据信息,用于执行数据仓库开发和管理任务。包括:数据源信息转换描述(从操作数据库到数据仓库的映

12、射方法,以及转换数据的算法)目标数据的仓库对象和数据结构定义数据清洗和数据增加的规则数据映射操作访问权限,备份历史,存档历史,信息传输历史,数据获取历史,数据访问,等等,元数据库及元数据管理,商业元数据给用户易于理解的信息,包括:主题区和信息对象类型,包括查询、报表、图像、音频、视频等Internet主页支持数据仓库的其它信息,例如对于信息传输系统包括预约信息、调度信息、传送目标的详细描述、商业查询对象,等数据仓库操作型信息例如,数据历史(快照,版本),拥有权,抽取的审计轨迹,数据用法,元数据库及元数据管理,元数据库(metadata repository)和工具 Martin Stardt,

13、2000,数据访问和分析工具,报表OLAP数据挖掘,提纲,数据仓库概念数据仓库体系结构及组件数据仓库设计数据仓库技术(与数据库技术的区别)数据仓库性能数据仓库应用数据挖掘应用概述数据挖掘技术与趋势数据挖掘应用平台(科委申请项目),数据仓库设计,自上而下(Top-Down)自底而上(Bottom Up)混合的方法数据仓库建模,Top-down Approach,Build Enterprise data warehouseCommon central data modelData re-engineering performed onceMinimize redundancy and incon

14、sistencyDetailed and history data;global data discoveryBuild datamarts from the Enterprise Data Warehouse(EDW)Subset of EDW relevant to departmentMostly summarized dataDirect dependency on EDW data availability,Local Data Mart,External Data,Local Data Mart,Operational Data,自底而上设计方法,创建部门的数据集市范围局限于一个主

15、题区域快速的 ROI-局部的商业需求得到满足本部门自治-设计上具有灵活性对其他部门数据集市是一个好的指导容易复制到其他部门 需要为每个部门做数据重建有一定级别的冗余和不一致性一个切实可行的方法扩大到企业数据仓库创建EDB作为一个长期的目标,局部数据集市,操作型数据(局部),局部数据集市,企业数据仓库EDB,数据仓库建模 星型模式,Example of Star Schema,数据仓库建模 雪片模式,DateMonth,Date,Sales Fact Table,Date,Product,Store,Customer,unit_sales,dollar_sales,Yen_sales,Measu

16、rements,MonthYear,Month,Year,Year,Example of Snowflake Schema,操作型(OLTP)数据源-销售库,星形模式,时间维,事实表,多维模型,提纲,数据仓库概念数据仓库体系结构及组件数据仓库设计数据仓库技术(与数据库技术的区别)数据仓库性能数据仓库应用数据挖掘应用概述数据挖掘技术与趋势数据挖掘应用平台(科委申请项目),数据仓库技术 Inmon,1996,管理大量数据能够管理大量数据的能力能够管理好的能力管理多介质(层次)主存、扩展内存、高速缓存、DASD、光盘、缩微胶片监视数据决定是否应数据重组决定索引是否建立得不恰当决定是否有太多数据溢出决

17、定剩余的可用空间利用多种技术获得和传送数据批模式,联机模式并不非常有用程序员/设计者对数据存放位置的控制(块/页)数据的并行存储/管理元数据管理,数据仓库技术 Inmon,1996,数据仓库语言接口能够一次访问一组数据能够一次访问一条记录支持一个或多个索引有SQL接口数据的高效装入高效索引的利用用位映像的方法、多级索引等数据压缩I/O资源比CPU资源少得多,因此数据解压缩不是主要问题复合键码(因为数据随时间变化)变长数据加锁管理(程序员能显式控制锁管理程序)单独索引处理(查看索引就能提供某些服务)快速恢复,数据仓库技术 Inmon,1996,其他技术特征,传统技术起很小作用事务集成性、高速缓存

18、、行/页级锁定、参照完整性、数据视图传统DBMS与数据仓库DBMS区别为数据仓库和决策支持优化设计管理更多数据:10GB/100GB/TB传统DBMS适合记录级更新,提供:锁定Lock、提交Commit、检测点CheckPoint、日志处理Log、死锁处理DeadLock、回退 Roolback.基本数据管理,如:块管理,传统DBMS需要预留空间索引区别:传统DBMS限制索引数量,数据仓库DBMS没有限制通用DBMS物理上优化便于事务访问处理,而数据仓库便于DSS访问分析改变DBMS技术多维DBMS和数据仓库多维DBMS作为数据仓库的数据库技术,这种想法是不正确的多维DBMS(OLAP)是一种

19、技术,数据仓库是一种体系结构的基础双重粒度级别(DASD/磁带),数据仓库技术 Inmon,1996,数据仓库环境中的元数据DSS分析人员和IT专业人员不同,需要元数据的帮助操作型环境和数据仓库环境之间的映射需要元数据数据仓库包含很长时间的数据,必须有元数据标记数据结构/定义上下文和内容(上下文维)简单上下文信息(数据结构/编码/命名约定/度量)复杂上下文信息(产品定义/市场领域/定价/包装/组织结构)外部上下文信息(经济预测:通货膨胀、金融、税收/政治信息/竞争信息/技术进展)刷新数据仓库数据复制(触发器)变化数据捕获(CDC)(日志),提纲,数据仓库概念数据仓库体系结构及组件数据仓库设计数

20、据仓库技术(与数据库技术的区别)数据仓库性能数据仓库应用数据挖掘应用概述数据挖掘技术与趋势数据挖掘应用平台(科委申请项目),数据仓库性能 Inmon,1999,使用数据平台服务管理,王天佑 等译,数据仓库管理,电子工业出版社,2000年5月,提纲,数据仓库概念数据仓库体系结构及组件数据仓库设计数据仓库技术(与数据库技术的区别)数据仓库性能数据仓库应用数据挖掘应用概述数据挖掘技术与趋势数据挖掘应用平台(科委申请项目),数据仓库应用 DW用户数的调查,“DW系统的用户在100-500以内或以上是未来一段时期内的主要部分“,DW用户的调查最近一年Meta Group Survey调查对象:3000+

21、用户或意向用户,DW数据规模的调查,DW规模的调查最近一年Meta Group Survey调查对象:3000+用户或意向用户,How Much?,$3-6m for mid-size company,less if smaller,more if larger$10m+for large organizations,large data sets10-50+%annual maintenance costs33%Hardware/33%Software/33%Services,How Long?,2-4 years for 80/20 of full system for mid-size

22、company6-12 months for initial iteration3-6 months for subsequent iterations,How Risky?,For EDW Projects,20%(Meta)to 70%(OTR,DWN)failHigh failure rate for non-business driven initiativesVery few systems meet the expectations of the businessFailure not due to technology,due to“soft”issuesMassive upsi

23、de to successful projects(100%-2000+%ROI)99%politics-1%technology,参考文献,Inmon,W.H.,”Building the Data Warehouse”,Johm Wiley and Sons,1996.Ladley,John,”Operational Data Stores:Building an Effective Strategy”,Data warehouse:Pratical Advice form the Experts,Prentice Hall,Englewood Cliffs,NJ,1997.Gardmer

24、,Stephen R.,“Building the Data warehouse”,Communication of ACM,September 1998,Volume 41,Numver 9,52-60.Douglas Hackney,Http:/,DW101:A Practical Overview,2001 Pieter R.Mimno,“The Big Picture-How Brio Competes in the Data Warehousing Market”,Presentation to Brio Technology-August 4,1998.Alex Berson,St

25、ephen Smith,Kurt Therling,“Building Data Mining Application for CRM”,McGraw-Hill,1999Martin Stardt,Anca Vaduva,Thomas Vetterli,“The Role of Meta for Data Warehouse”,2000W.H.Inmon,Ken Rudin,Christopher K.Buss,Ryan Sousa,“Data Warehouse Performance”,John Wiley&Sons,1999,提纲,数据仓库概念数据仓库体系结构及组件数据仓库设计数据仓库技

26、术(与数据库技术的区别)数据仓库性能数据仓库应用数据挖掘应用概述数据挖掘技术与趋势数据挖掘应用平台(科委申请项目),数据挖掘应用综述,数据挖掘应用概述数据挖掘技术与趋势数据挖掘应用平台,数据挖掘应用概述,应用比例Data Mining UpsidesData Mining DownsidesData Mining UseData Mining Industry and ApplicationData Mining Costs,应用比例,Clustering 22%Direct Marketing 14%Cross-Sell Models 12%2001/6/11 News,Discovery

27、of previously unknown relationships,trends,anomalies,etc.Powerful competitive weaponAutomation of repetitive analysisPredictive capabilities,Data Mining Upsides,Knowledge discovery technology immatureLong learning and tuning cycles for some technologies“Black box”technology minimizes confidenceVLDB(

28、Very Large Data Base)requirements,Data Mining Downsides,Data Mining Uses,Discover anomalies,outliers and exceptions in process dataDiscover behavior and predict outcomes of customer relationshipsChurn managementTarget marketing(market of one)Promotion managementFraud detectionPattern ID&matching(dar

29、k programs,science),Data Mining Industry and Applications,From research prototypes to data mining products,languages,and standardsIBM Intelligent Miner,SAS Enterprise Miner,SGI MineSet,Clementine,MS/SQLServer 2000,DBMiner,BlueMartini,MineIt,DigiMine,etc.A few data mining languages and standards(esp.

30、MS OLEDB for Data Mining).Application achievements in many domainsMarket analysis,trend analysis,fraud detection,outlier analysis,Web mining,etc.,Data Mining Costs,Desktop tools:$500 and up(MSFT coming at low price point)Server/MF based:$20,000 to$700,000+Must also add cost of extensive consulting f

31、or high end toolsDont forget long training and learning curve timeOngoing process,not task automation software,提纲,数据仓库概念数据仓库体系结构及组件数据仓库设计数据仓库技术(与数据库技术的区别)数据仓库性能数据仓库应用数据挖掘应用概述数据挖掘技术与趋势数据挖掘应用平台(科委申请项目),数据挖掘趋势,历史回顾多学科交叉数据挖掘从多个角度分类最近十年的研究进展数据挖掘的趋势数据挖掘与标准化进程,历史回顾,1989 IJCAI Workshop on Knowledge Discover

32、y in Databases Knowledge Discovery in Databases(G.Piatetsky-Shapiro and W.Frawley,1991)1991-1994 Workshops on Knowledge Discovery in DatabasesAdvances in Knowledge Discovery and Data Mining(U.Fayyad,G.Piatetsky-Shapiro,P.Smyth,and R.Uthurusamy,1996)1995-1998 International Conferences on Knowledge Di

33、scovery in Databases and Data Mining(KDD95-98)Journal of Data Mining and Knowledge Discovery(1997)1998 ACM SIGKDD,SIGKDD1999-2001 conferences,and SIGKDD ExplorationsMore conferences on data miningPAKDD,PKDD,SIAM-Data Mining,(IEEE)ICDM,DaWaK,SPIE-DM,etc.,Data Mining:Confluence of Multiple Disciplines

34、,Data Mining,Database Technology,Statistics,OtherDisciplines,InformationScience,MachineLearning(AI),Visualization,A Multi-Dimensional View of Data Mining,Databases to be minedRelational,transactional,object-relational,active,spatial,time-series,text,multi-media,heterogeneous,legacy,WWW,etc.Knowledge

35、 to be minedCharacterization,discrimination,association,classification,clustering,trend,deviation and outlier analysis,etc.Techniques utilizedDatabase-oriented,data warehouse(OLAP),machine learning,statistics,visualization,neural network,etc.Applications adaptedRetail,telecommunication,banking,fraud

36、 analysis,DNA mining,stock market analysis,Web mining,Weblog analysis,etc.,Research Progress in the Last Decade,Multi-dimensional data analysis:Data warehouse and OLAP(on-line analytical processing)Association,correlation,and causality analysisClassification:scalability and new approachesClustering

37、and outlier analysisSequential patterns and time-series analysisSimilarity analysis:curves,trends,images,texts,etc.Text mining,Web mining and Weblog analysisSpatial,multimedia,scientific data analysisData preprocessing and database compressionData visualization and visual data miningMany others,e.g.

38、,collaborative filtering,Research Directions Han J.W.,2001,Web miningTowards integrated data mining environments and tools“Vertical”(or application-specific)data mining Invisible data miningTowards intelligent,efficient,and scalable data mining methods,Towards Integrated Data Mining Environments and

39、 Tools,OLAP Mining:Integration of Data Warehousing and Data MiningQuerying and Mining:An Integrated Information Analysis EnvironmentBasic Mining Operations and Mining Query Optimization“Vertical”(or application-specific)data mining Invisible data mining,Querying and Mining:An Integrated Information

40、Analysis Environment,Data mining as a component of DBMS,data warehouse,or Web information systemIntegrated information processing environmentMS/SQLServer-2000(Analysis service)IBM IntelligentMiner on DB2SAS EnterpriseMiner:data warehousing+miningQuery-based miningQuerying database/DW/Web knowledgeEf

41、ficiency and flexibility:preprocessing,on-line processing,optimization,integration,etc.,“Vertical”Data Mining,Generic data mining tools?Too simple to match domain-specific,sophisticated applicationsExpert knowledge and business logic represent many years of work in their own fields!Data mining+busin

42、ess logic+domain expertsA multi-dimensional view of data minersComplexity of data:Web,sequence,spatial,multimedia,Complexity of domains:DNA,astronomy,market,telecom,Domain-specific data mining toolsProvide concrete,killer solution to specific problemsFeedback to build more powerful tools,Invisible D

43、ata Mining,Build mining functions into daily information servicesWeb search engine(link analysis,authoritative pages,user profiles)adaptive web sites,etc.Improvement of query processing:history+dataMaking service smart and efficientBenefits from/to data mining researchData mining research has produc

44、ed many scalable,efficient,novel mining solutionsApplications feed new challenge problems to research,Towards Intelligent Tools for Data Mining,Integration paves the way to intelligent miningSmart interface brings intelligence Easy to use,understand and manipulateOne picture may worth 1,000 wordsVis

45、ual and audio data miningHuman-Centered Data MiningTowards self-tuning,self-managing,self-triggering data mining,Integrated Mining:A Booster for Intelligent Mining,Integration paves the way to intelligent miningData mining integrates with DBMS,DW,WebDB,etcIntegration inherits the power of up-to-date

46、 information technology:querying,MD analysis,similarity search,etc.Mining can be viewed as querying database knowledgeIntegration leads to standard interface/language,function/process standardization,utility,and reachabilityEfficiency and scalability bring intelligent mining to reality,数据挖掘与标准化进程,CR

47、ISPDM过程标准化(CRoss-Industry Standard Process for Data Mining)XML与数据预处理相结合SOAP(Simple Object Access Protocol)数据库与系统互操作的标准PMML预言模型交换标准OLE DB For Data Mining数据挖掘系统基于API的接口,提纲,数据仓库概念数据仓库体系结构及组件数据仓库设计数据仓库技术(与数据库技术的区别)数据仓库性能数据仓库应用数据挖掘应用概述数据挖掘技术与趋势数据挖掘应用平台(科委申请项目),数据挖掘应用平台,项目最终目标研究内容(含系统结构、层次等)技术路线和实现方法关键技术分

48、析成果形式和考核指标,项目最终目标(1),一年内,研究数据挖掘技术,实现数据挖掘主要算法,开发出拥有自主知识产权并具有扩充性好、便于应用的特点的数据挖掘应用平台,建立一套规范实用的数据挖掘实际应用方法论,项目最终目标(2),所研究的数据挖掘技术达到国际先进水平实现主要的数据挖掘算法,如关联规则、聚集、分类等所开发的数据挖掘应用平台拥有自主知识产权,并具有扩充性好,便于应用的特点所建立的数据挖掘应用的方法论规范实用,研究内容,层次结构数据挖掘+商业逻辑+行业应用可扩展性的体系结构软件结构数据挖掘平台的应用针对行业的解决方案软件开发商二次开发,层次结构:数据挖掘+商业逻辑+行业应用,关联规则、序列

49、模式、分类、聚集、神经元网络、偏差分析,数据挖掘算法层,产品推荐、客户细分、客户流失、欺诈甄别、特征分析,商业逻辑层,基因(DNA)分析、银行、保险、电信、证券、零售业,行业应用层,数据挖掘应用平台,可扩展性的体系结构,数据挖掘应用平台,数据挖掘应用服务器,信息系统,行业客户端,软件结构,供数据挖掘使用的数据仓库ETL工具数据挖掘应用服务器数据挖掘应用服务器管理平台针对行业的分析平台,数据挖掘平台的应用:针对行业的解决方案,数据挖掘平台的应用:软件开发商二次开发,技术路线和实现方法,数据挖掘应用服务器,应用服务器管理平台,行业应用,1了解掌握研究动态2 商业模型研究3 数据仓库建模4 数据挖掘算法实现5 服务器框架构建,阶段一,阶段二,阶段三,1 模型创建可视化2 服务器调度和监听3 数据抽取工具研制4 用户界面友好,1 模型显示可视化2 模型组件的应用3 特定行业应用4 组件二次开发应用5 人机接口友好,关键技术分析,商业模型在数据仓库中的实现 商业模型可视化研究模型平滑地嵌入其他应用(ERP,CRM)ETL(抽取、转换、装载)工具的研制 挖掘算法与商业模型之间的映射关系 数据挖掘算法的优化,Any Questions?,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号