《数据仓库与数据挖掘.ppt》由会员分享,可在线阅读,更多相关《数据仓库与数据挖掘.ppt(11页珍藏版)》请在三一办公上搜索。
1、数据仓库与数据挖掘,引言,数据是知识的源泉。但是,拥有大量的数据与拥有许多有用的知识完全是两回事。过去几年中,从数据库中发现知识这一领域发展的很快。广阔的市场和研究利益促使这一领域的飞速发展。计算机技术和数据收集技术的进步使人们可以从更加广泛的范围和几年前不可想象的速度收集和存储信息。收集数据是为了得到信息,然而大量的数据本身并不意味信息。尽管现代的数据库技术使我们很容易存储大量的数据流,但现在还没有一种成熟的技术帮助我们分析、理解并使数据以可理解的信息表示出来。在过去,我们常用的知识获取方法是由知识工程师把专家经验知识经过分析、筛选、比较、综合、再提取出知识和规则。然而,由于知识工程师所拥有
2、知识的有局限性,所以对于获得知识的可信度就应该打个折扣。目前,传统的知识获取技术面对巨型数据仓库无能为力,数据挖掘技术就应运而生。数据的迅速增加与数据分析方法的滞后之间的矛盾越来越突出,人们希望在对已有的大量数据分析的基础上进行科学研究、商业决策或者企业管理,但是目前所拥有的数据分析工具很难对数据进行深层次的处理,使得人们只能望“数”兴叹。数据挖掘正是为了解决传统分析方法的不足,并针对大规模数据的分析处理而出现的。数据挖掘通过在大量数据的基础上对各种学习算法的训练,得到数据对象间的关系模式,这些模式反映了数据的内在特性,是对数据包含信息的更高层次的抽象1。目前,在需要处理大数据量的科研领域中,
3、数据挖掘受到越来越多的关注,同时,在实际问题中,大量成功运用数据挖掘的实例说明了数据挖掘对科学研究具有很大的促进作用。数据挖掘可以帮助人们对大规模数据进行高效的分析处理,以节约时间,将更多的精力投入到更高层的研究中,从而提高科研工作的效率。,目录,一、数据仓库概念及特征二、数据仓库系统三、数据挖掘的概念及其技术过程四、数据仓库与数据挖掘的关系:五、结论,数据仓库概念及特征,1、数据仓库概念。数据仓库就是面向主题的、集成的、不可更新的(稳定的)、随时间不断变化的数据集合。与其他数据库应用不同的是,数据仓库更像一种过程,即对分布在企业内部各处的业务数据的整合、加工和分析的过程,而不是一种可以购买的
4、产品。2、数据仓库的特征:面向主题。数据仓库中的数据是按照一定的主题域进行组织。主题是一个抽象的概念,是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相关。集成的。数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上,经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。相对稳定的。数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。反映
5、历史变化。数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点到目前各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。,二、数据仓库系统,数据仓库系统是指具有综合企业数据的能力,能够对大量企业数据进行快速和准确分析,辅助做出更好的商业决策的系统。见图二。它本身包括三部分内容:数据层。实现对企业操作数据的抽取、转换、清洗和汇总,形成信息数据,并存储在企业级的中心信息数据库中。应用层。通过联机分析处理,甚至是数据挖掘等应用处理,实现对信息数据的分析。表现层。通过前台分析工具,将查询报表、统计分析、多维联机分析和数据发掘的结论展现在用户面前。,三、数据挖掘的概
6、念及其技术过程,数据挖掘,又称数据库中的知识发现,是指从大型数据库或数据仓库中提取隐含的、未知的、非平凡的及有潜在应用价值的信息或模式,它是数据库研究中的一个很有应用价值的新领域,融合了数据库、人工智能、机器学习、统计学等多个领域的理论和技术。随着人工智能技术在专家咨询、语言处理、娱乐游戏等模式识别领域的应用日益广泛。从选取专业学习、研究方向的实际出发,提出了将数据挖掘应用于辅助选取专业学习、研究方向的数据挖掘技术流程模型。,1数据挖掘技术的过程数据挖掘技术是一个多步骤、可能需多次反复的处理过程。主要包括以下几步:准备、数据选择、数据预处理、数据缩减、确定数据挖掘的目标、确定知识发现算法、数据
7、挖掘(Data Mining)、模式解释、知识评价,如图所示。其中最重要的一个步骤是数据挖掘,它是利用某些特定的知识发现算法,在可接受的运算效率的限制下,从有效数据中发现有关的知识。,2数据挖掘技术主要有四种开采任务:(1)数据总结是对数据进行浓缩,给出它的紧凑描述。数据挖掘是从数据泛化的角度来讨论数据总结。(2)分类发现这是一项非常重要的任务,分类是运用分类器把数据库中的数据项映射到给定类别中的某一个,用于对未来数据进行预测。(3)聚类是把一组个体按照相似性归成若干类别,它的目的是使得属于同一类别的个体之间的距离尽可能的小,而不同类别的个体间的距离尽可能的大。(4)关联规则是指事物之间的联系
8、具有多大的支持度和可信度。有意义的关联规则必须给定两个阈值:最小支持度和最小可信度。3 数据挖掘在实际生活中的应用。数据挖据的结果经过业务决策人员的认可,才能实际利用。要将通过数据挖掘得出的预测模式和各个领域的专家认识结合在一起,构成一个可供不同类型的人使用的应用程序。也只有通过对挖掘知识的应用,才能对数据挖掘的成果做出正确的评价。但是在应用数据挖掘成果时,决策人员所关心的是数据挖掘最终结果与用其他候选结果在实际应用中的差距。如果结果是根据某种类型的得分或权值计算的,那就可以按照获选边际率(最终结果得分-候选结果得分)/最终预测结果得分 lOO%的公式进行决断。一般情况下,获选边际率的值越高,
9、则预测结果为真的可能性越大。因此,在实际决策应用中,通常只选择那些获选边际率超过一定百分比的数据行进行预测使用。为将数据挖掘结果能在实际中得到应用,需要将分析所得到的知识集成到业务信息系统的组织机构中去,使这些知识在实际的管理决策分析中得到应用。,四、数据仓库与数据挖掘的关系:,数据仓库就是面向主题的、集成的、不可更改的、随时间不断变化的数据集合。数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中提取隐含其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据仓库并不是数据挖掘的先决条件,因为有很多数据挖掘可直接从操作数据源中挖掘出信息。数据仓库的建立并不是要替代数
10、据库,它是建立在一个比较全面和完善的信息应用基础之上的,用于支持高层决策的分析。而数据挖掘是为寻找未知的模式或趋势在数据仓库的细节数据中进行搜索的过程。它并不是让查询语言去找某些特定的事实,而是查看所有的事实,寻找具有某种含义深长的模式或关系来进行决策。,结论,数据仓库和数据挖掘是作为两种独立的信息技术出现的。数据仓库是不同于数据库的数据组织和存储技术,它从数据库技术发展而来并为决策服务,通过OLAP 工具验证用户的假设;数据挖掘是通过对文件系统和数据库中的数据进行分析,获得具有一定可信度知识的算法和技术。他们从不同侧面完成对决策过程的支持,相互间有一定的内在联系。因此,将它们集成到一个系统中,形成基于数据挖掘的OLAP 工具,可以更加有效地提高决策支持能力。数据挖掘不一定需要建立在数据仓库基础上,但以数据仓库为基础,对于数据挖掘来说源数据的预处理将简化许多。另外为了保证结果的正确性,数据挖掘对基础数据量的需求是巨大的,数据仓库可以很好地满足这个要求。,谢谢!,