概念描述:特征化和比较.ppt

上传人:小飞机 文档编号:6388801 上传时间:2023-10-26 格式:PPT 页数:36 大小:287KB
返回 下载 相关 举报
概念描述:特征化和比较.ppt_第1页
第1页 / 共36页
概念描述:特征化和比较.ppt_第2页
第2页 / 共36页
概念描述:特征化和比较.ppt_第3页
第3页 / 共36页
概念描述:特征化和比较.ppt_第4页
第4页 / 共36页
概念描述:特征化和比较.ppt_第5页
第5页 / 共36页
点击查看更多>>
资源描述

《概念描述:特征化和比较.ppt》由会员分享,可在线阅读,更多相关《概念描述:特征化和比较.ppt(36页珍藏版)》请在三一办公上搜索。

1、第七章 概念描述:特征化和比较,数据挖掘可以分成两类描述性数据挖掘:以简洁概要的方式描述数据,并提供数据的有趣的一般性质。预测性数据挖掘:分析数据,建立一个或一组模型,并试图预测新数据集的行为。,概念描述,对于大量的细节数据,希望以简洁的描述形式(不同的粒度、不同的角度等)观察汇总的数据集。需要给出这种数据一个描述以概括出固有的特性,这种描述性数据挖掘称为概念描述。概念描述:特征化:对所选择的数据给出一个简单明了的描述比较:提供对于两个或以上数据进行比较的结果,数据概化和基于汇总的特征化,数据概化数据库中的数据和对象通常包含原始概念层的细节信息,数据概化就是将数据库中的跟任务相关的数据集从较低

2、的概念层抽象到较高的概念层的过程。主要方法:数据立方体(OLAP使用的方法)面向属性的归纳方法,1,2,3,4,5,概念层,数据概化:数据立方体方法(不使用面向属性的归纳),执行计算并将结果存储在数据立方体中优点:数据概化的一种有效实现可以计算各种不同的度量值比如:count(),sum(),average(),max()概化和特征分析通过一系列的数据立方体操作完成,比如上卷、下钻等缺点只能处理非数据类型的维和简单聚集数值类型的度量值缺乏智能分析,不能自动确定分析中该使用哪些维,应该概化到哪个层次,概念描述 VS.OLAP,概念描述和数据仓库的联机分析处理(OLAP)都跟数据概化密切相关,即以

3、简洁的形式在更一般的抽象层描述数据,允许数据在抽象层概化,便于考察数据的一般行为。两者的主要区别:概念描述可以处理复杂数据类型的属性及其聚集一个更加自动化的过程OLAP实际使用的OLAP系统中,维和度量的数据类型都非常有限(非数值型的维和数值型的数据),表现为一种简单的数据分析模型一个由用户控制的过程,面向属性的归纳,Attribute-oriented induction,AOI(KDD 89 Workshop)受数据类型和度量类型的约束比较少面向属性归纳的基本思想:使用关系数据库查询收集任务相关的数据通过考察任务相关数据中每个属性的不同值的个数进行概化,方法是属性删除或者是属性概化通过合并

4、相等的,概化的广义元组,并累计他们对应的计数值进行聚集操作通过与用户交互,将广义关系以图表或规则等形式,提交给用户,面向属性的归纳,步骤:数据聚焦:选择和当前分析相关的数据,包括维。属性移除:如果某个属性包含大量不同值,但是1)在该属性上没有概化操作,或者2)它的较高层概念用其它属性表示。属性概化:如果某个属性包含大量不同值,同时在该属性上有概化操作符(比如求和等),则运用该操作符进行概化。属性概化阈值控制:可以设一个缺省的或可以指定的阈值,在不同的属性值个数少于该值后则停止进一步概化。例子:比如地区维度分为省、市、区、街道阈值为40,则大约在地区维度要概化到省一级,2、例,在下面的初始工作表

5、上做面向属性归纳,对于每个属性,概化讨论如下:1)姓名、电话:该属性的值有许多,并且无概化操作,属性删除2)性别:属性可取的值2个,属性保留不概化3)专业:假定我们事先已定义了一个概念分层,可以将专业概化到艺术、化学、机械、通信、信息、.,所以可被概化4)籍贯:此表以城市为单位,已无法概化,值不算太多,保留5)出生日期:假定存在概念分层,首先概化到年龄,再到年龄段6)信用:假定有优、良、中、一般、差的分层,可以概化7)学历:可以按博士生、硕士生、本科生概化,概化过程将产生相等的元组,相等的元组归为一类并给出计数,性别,专业,籍贯,年龄段,信用情况,计数,男,信息,南京,19-22,良,10,女

6、,信息,南京,19-22,优,9,男,化学,盐城,19-22,中,4,.,.,.,.,.,.,男,通信,镇江,22-25,一般,1,学历,本,研,本,.,本,此处,计数看成度量,其它看成维,概化结果的表示,表格,概化结果的表示,二维交叉表,地区,电视,电脑,产品类累计,江苏,浙江,广东,地区合计,概化结果的表示,可视化方法,电视销售 饼图,概化结果的表示,量化特征规则概化关系可以用逻辑规则的形式表示,典型的是概化的元组代表一个规则的析取。若单个概化元组不能代表工作关系中的所有元组,则规则应当带上量化信息,用满足规则的左部和满足规则右部的元组所占的百分比表示。带有量化信息的逻辑规则称为量化规则。

7、t_权兴趣度度量:描述规则中每个析取或对应概化关系的每个元组的典型性。,t-权,定义:设待特化的(或由规则描述的)对象类为目标类,qa是一个描述目标类的概化元组。qa的t_权是来自初始工作关系集合中被qa涵盖的目标类元组的百分比。形式上为:其中:n是概化关系中目标类元组的个数,q1,.,qn是概化关系中目标类的元组,qa在q1,.,qn中。显然,t_权的取值区间为0.0,1.0或0%,100%。,例子,假设初始工作集合,地区是南京、镇江、,产品类别是电脑的元组全部概化在第一个概化元组中,共有1000个元组。该概化元组的t_权是:,规则描述形式,例:有部分学生在图书馆借阅了大趋势这本书,想通过数

8、据挖掘技术发现这部分学生具有什么样的特征。其基本关系表是:,概化层次:系别文科 商学院-经济,金融,企管,会计,国贸文科 文学院-中文,新闻,信管,历史,哲学理科 医学院理科 理学院-数学,天文,物理,(文,商学院),(文,商学院),(理,医学院),(文,商学院),(文,文学院),(文,商学院),(文,文学院),依据借阅次数的多少来决定是否为噪声数据,概化关系表一(按学院),(文,文学院),概化关系表二(按学科),概化关系表一(按学院),如果定义噪声数据的阀值是1(记录数为1),则:根据基本关系表一发现的特征规则是:借阅大趋势一书的是经济系的学生,如果定义噪声数据的阀值是1(记录数为1),则:

9、根据基本关系表一发现的特征规则是:借阅大趋势一书的是经济系的学生根据概括关系表一发现的特征规则是:借阅大趋势一书的是商学院的学生借阅大趋势一书的是文学院的学生,如果定义噪声数据的阀值是1(记录数为1),则:根据基本关系表一发现的特征规则是:借阅大趋势一书的是经济系的学生根据概括关系表一发现的特征规则是:借阅大趋势一书的是商学院的学生借阅大趋势一书的是文学院的学生根据概括关系表二发现的特征规则是:借阅大趋势一书的是文科的学生,如果定义噪声数据的阀值是2(记录数为2),则:根据基本关系表一发现的特征规则是:发现不到特征规则,如果定义噪声数据的阀值是2(记录数为2),则:根据基本关系表一发现的特征规

10、则是:发现不到特征规则根据概括关系表一发现的特征规则是:借阅大趋势一书的是商学院的学生,如果定义噪声数据的阀值是2(记录数为2),则:根据基本关系表一发现的特征规则是:发现不到特征规则根据概括关系表一发现的特征规则是:借阅大趋势一书的是商学院的学生根据概括关系表二发现的特征规则是:借阅大趋势一书的是文科的学生,如果定义噪声数据的阀值是5(记录数为5),则:根据基本关系表一发现的特征规则是:发现不到特征规则,如果定义噪声数据的阀值是5(记录数为5),则:根据基本关系表一发现的特征规则是:发现不到特征规则根据概括关系表一发现的特征规则是:发现不到特征规则,如果定义噪声数据的阀值是5(记录数为5),

11、则:根据基本关系表一发现的特征规则是:发现不到特征规则根据概括关系表一发现的特征规则是:发现不到特征规则根据概括关系表二发现的特征规则是:借阅大趋势一书的是文科的学生,应该说,此时的规则是有意义的,该书基本上是文科学生借阅,t_权=6/7,三、挖掘类比较:区分不同的类,要解决的目标 在实际应用中,对单个类(概念)的描述或特征化并不一定感兴趣,而希望挖掘一种描述,它将一个类(概念)与其它可比较的类(概念)相区分。类区分(比较)挖掘将给出目标类与对比类相区别的描述。类比较方法和实现1)数据收集:通过查询处理数据库中相关数据集,将它划分为一个目标类和一个(多个)对比类。2)维相关分析:选择所需要的维

12、,去掉与概化不相关的维3)同步概化:目标类和所有对比类概化到同一层次4)导出比较的表示:结果可以是表、图或规则,表示中一般包括对比的度量(如count%),例:,初始目标类关系:研究生,初始对比类关系:本科生,目标类主概化关系(研究生),对比类主概化关系(本科生),比较表示:年龄在26到30之间、选择科学类专业且信用良的研究生占整个研究生人数的5.02%,而同样的情况,本科生只有2.32%,3、量化区分规则 量化区分规则对描述中每个概化元组附上一个统计兴趣度度量d_权。,设qa是一个概化元组,而Cj是目标类。其中qa覆盖目标类的某些元组。(也可能覆盖对比类的某些元组)。qa的d_权是初始目标类

13、工作关系中被qa覆盖的元组数与初始目标类和对比类工作关系中被qa覆盖的总元组的比。形式定义为:,其中,m是目标类和对比类的总数,Cj在C1,Cm中,而count(qa Ci)是类Ci中被qa覆盖的元组数。d_权的取值范围为0.0,1.0(或0%,100%)。,例:,目标类对比类,目标类d_权:d_权=90/(90+210)=30%比较类d_权:d_权=210/(90+210)=70%,高d_权的目标类表明被概化的元组主要从目标类导出,而低d_权表明概念主要从对比类导出。,由前例,则有:一个学生属科学类专业,年龄在21到25之间,信用良好,则对于给定的一个学生,是研究生的概率是30%,本科生是70%。,量化区分规则记作:,前例记为:,可以将t_权和d_权合在一起:,解释:对于在江苏销售的商品x,25%是电视,75%是电脑,在江苏地区电视的销售量占整个电视销量的40%,电脑占整个电脑销量的30%。,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号