第七章 非结构化数据挖掘ppt课件.ppt

上传人:牧羊曲112 文档编号:1428773 上传时间:2022-11-23 格式:PPT 页数:76 大小:283KB
返回 下载 相关 举报
第七章 非结构化数据挖掘ppt课件.ppt_第1页
第1页 / 共76页
第七章 非结构化数据挖掘ppt课件.ppt_第2页
第2页 / 共76页
第七章 非结构化数据挖掘ppt课件.ppt_第3页
第3页 / 共76页
第七章 非结构化数据挖掘ppt课件.ppt_第4页
第4页 / 共76页
第七章 非结构化数据挖掘ppt课件.ppt_第5页
第5页 / 共76页
点击查看更多>>
资源描述

《第七章 非结构化数据挖掘ppt课件.ppt》由会员分享,可在线阅读,更多相关《第七章 非结构化数据挖掘ppt课件.ppt(76页珍藏版)》请在三一办公上搜索。

1、数据仓库与数据挖掘,数据仓库与数据挖掘,第一章 数据仓库与数据挖掘概述第二章 数据仓库的分析第三章 数据仓库的设计与实施第四章 信息分析的基本技术第五章 数据挖掘过程第六章 数据挖掘基本算法第七章 非结构化数据挖掘第八章 离群数据挖掘第九章 数据挖掘语言与工具的选择第十章 知识管理与知识管理系统,第七章 非结构化数据挖掘,7.1 文本挖掘7.2 Web数据挖掘7.3 空间群数据挖掘*7.4 多媒体数据挖掘*,7.1 文本挖掘,文本挖掘以文本型信息源作为分析的对象,利用定量计算和定性分析的方法,从中寻找信息结构、模型、模式等各种隐含的新颖知识。文本挖掘的主要目标是获得文本的主要内容特征,如文本涉

2、及的主题、文本主题的类属、文本内容的浓缩等。文本挖掘的具体实现技术主要有如下几种。,7.1 文本挖掘,表7.1 文本挖掘的典型技术,7.1 文本挖掘,7.1.1 文本挖掘的一般过程与应用7.1.2 文本表示与预处理7.1.3 文本分类方法与文本聚类方法7.1.4 自动摘要方法,7.1.1 文本挖掘的一般过程与应用,(1)文本挖掘过程,表7.2 文本挖掘的主要过程,7.1.1 文本挖掘的一般过程与应用,(2)文本挖掘的主要应用目前文本挖掘处理主要集中于信息自动导航、可视化信息检索、信息提取、信息分类、文本聚类等。,7.1.2 文本表示与预处理,(1)文本表示文本表示是指用文本的特征信息集合来代表

3、原来的文本。文本的特征信息是关于文本的元数据,可以分为外部特征和内部特征两种类型。文本的外部特征包括文本的名称、日期、大小、类型、文本的作者、标题和机构等信息。文本的内部特征包括主题、分类、摘要等信息。文本的表示方法主要采用向量空间模型(VSM)。,7.1.2 文本表示与预处理,向量空间模型主要用于文本内容特征的表示,一般使用词来代表文本的特征信息,我们称每个词为一个特征项。向量空间模型的基本思想是以向量(w1,w2,wn)来表示文本,其中wi为第i个特征项的权重。可以选择字、词或者词组作为特征项。采用向量空间表示文本,文本挖掘问题就被转化为数据挖掘问题。这种表示方法由于在用一个简单的向量表示

4、一篇文本时会损失文本中的大量信息,这种信息的损失会影响到挖掘的效果。通常选择词作为特征项,并使用词频来表示特征项对应的分量。,7.1.2 文本表示与预处理,词频分为绝对词频和相对词频两种。绝对词频是指词在文本中出现的频率;相对词频是规范化的词频,即要求所有向量分量的平方和为1。相对词频的计算方法主要运用TF-IDF公式。,其中:,N为训练文本的总数,nt为训练文体中出现t的文本数分母为规范化因子,7.1.2 文本表示与预处理,(2)文本分词分词是中文信息处理从字符处理水平向语义处理水平迈进的关键,它是中文自动标引的基础。汉语分词的难点主要表现在两个方面:歧义切分:汉语字与字之间组词灵活,给分词

5、带来了很大困难。从上下文关系的角度看,其中只能有一种切分结果是正确的。另外,从标引角度讲,还存在交集型字符串。未登录词:主要是指分析系统的词典中未收录的词。不断出现的新词属于另外一类未登录词。,7.1.2 文本表示与预处理,分词技术可以分为5类:词典分词法、切分标记分词法、基于统计的分词方法、基于语言规则的分词方法和智能分词法。1)词典分词法构造一个机内词典(主题词典、关键词词典和部件词词典)并将其与被标引的信息进行匹配,当从处理的信息中得到词典词汇时,好把它作为后备标引词记载下来,最后利用西文成熟的标引技术进行标引处理。词典法主要用于主题相对集中的信息库。词语匹配方法有:就扫描的顺序而言有正

6、向扫描匹配,逆向扫描匹配和正逆向结合扫描匹配,其中正逆向结合扫描匹配可以解决交集型字符串的切分问题。,7.1.2 文本表示与预处理,在进行词语匹配时,有最长匹配、最短匹配、长短匹配结合、词首匹配等多种策略。2)切分标记分词法利用切分字典指导分词。切分字典是由能够断开词和词组或表示汉字之间关系的汉字集合组成字典,包括的内容有词首字、词尾字等,也有的系统以非用字、条件用字等组成切分字典。切分标记分词法的典型代表是非用词后缀表示方法。该方法将汉字分为“非用字”、“条件用字”、“表内用字”、“表外用字”,但主要利用“非用字”和“条件非用字”进行词语的划分。,7.1.2 文本表示与预处理,3)基于统计的

7、分词方法用字与字相邻共现的频率来反映字符串确实是一个词的可信程度。在上下文中,相邻的词同时出现的次数越多,即越有可能构成一个词。4)基于语言规则的分词方法在分词的过程中加入词法、语法以及语义规则等来提高分词的质量。一般都是人工添加规则,或者在人工添加的基础上再从有限的训练语料库中得到分词规则。,7.1.2 文本表示与预处理,5)智能分词法利用人工智能的方法进行分词。常用的有中心词驱动分析法、分词与句法语义分析同步处理法和分层理解分析法等。主要思想是建立分词知识库(包括词类词典、句法和语义规则知识库、专门领域知识库和背景知识库等),并以分词知识库为基础进行推理和语句判断,达到正确分词的目的。,7

8、.1.2 文本表示与预处理,(3)文本标引标引就是描述信息内容特征的全过程,一般选取的标引词多为名词,因此在选取标引词前需要进行文本进行词性标注。标引可分为人工标引和计算机自动标引。常见的自动词性标注方法有基于概率统计的标注方法和基于规则的标注方法两种类型。,7.1.2 文本表示与预处理,(4)文本相似度计算一般认为相似的文本具有相似的关键词和相对词频,因此一般一组文本的相似度可以用基于关键词向量或相对词频向量来计算,利用文本的相似度可以对文本进行分类和聚类,或抽取重要的语句或重要段落。在文本与词的相关矩阵(tij|i=1,2,m; j=1,2,n)中,其中tij表示第i篇文本与第j个词的相关

9、程度,tij的取值范围为0,1。利用文本与词的相关矩阵可以分析文本间的相关性。,7.1.2 文本表示与预处理,相关性的大小可以用相关系数S来度量,第i篇文本与第j篇文本的相关系数可以表示为Sij。计算相关系数的方法有多种,其中,余弦系数法最为常用:,7.1.2 文本表示与预处理,设d1和d2为两个文本特征向量,它们的余弦相似度定义也可以表示成如下形式:cos(d1,d2)=(d1d2)/|d1| |d2|其中d1d2为标准向量积,分母中的|d1|是向量d1的长度, |d2|是向量d2的长度。,7.1.2 文本表示与预处理,(5)词频矩阵降维词频矩阵降维就是对特征集进行缩减,降低词频矩阵的维度,

10、以便提高程序效率和运行速度。为了解决这个问题,人们提出了概念标引降维、潜在语义标引降维等方法。概念标引降维就是用表示主题概念词对文本进行标引。概念标引一般需要构造一部好的层次概念词典。层次概念词典的主题概念方法包括通过聚类产生上位词作为主题概念和由两个或两个以上的主题词合成主题概念。潜在语义标引法降维是利用矩阵理论中的“奇异值分解”技术将词频矩阵转化为低维度的矩阵。它利用概念标引取代关键词标引,从语义相关的角度为文本选取标引词,而不考虑标引词是否在文本中出现。,7.1.2 文本表示与预处理,(6)重复文本处理相关文章分析技术可用于处理重复文本。其主要的原理如下:第一步,对文档建立部分词索引(非

11、全文索引),这些词被确认为表达文章主要概念的词,主要是名词、动词和形容词等实词,不包含连词和助词等虚词;第二步,在进行相关文章分析处理时,首先对输入的文档进行分析,找到有意义的索引词;第三步,逐词到索引库中查找与之相关的文档,并记录查询结果;第四步,根据每篇文档中包含索引词的多少、词频、文档的长度等信息来计算相似度;第五步,根据相似度的大小进行排序,最相似的文档往往就是重复的文档。,7.1.2 文本表示与预处理,(7)文本过滤文本过滤就是从文本数据流中寻找满足用户特定需求的文本过程。这种过程一般通过文本过滤系统来动态进行处理。它一般需要解决用户需求的表达、合适阀值的确定、用户的兴趣与动态文本信

12、息流的匹配等问题。用户需求的表达用于刻画用户特征与用户之间的关系。它可以分为基于兴趣和基于行为的两种类型。文本过滤技术可以分为基于内容的文本过滤和基于协作的过滤。,7.1.3 文本分类方法与文本聚类方法,(1)文本分类根据文本内容或主题对文本进行分类称为文本分类。常见的文本分类方法如表7.3所示。,表7.3 文本分类方法,7.1.3 文本分类方法与文本聚类方法,表7.3 文本分类方法-续,7.1.3 文本分类方法与文本聚类方法,文本的分类测试可用语料库。语料库能够代表同类某一领域的语言现象的真实语言材料的集合。英文的文本分类研究已经存在一些可以免费获得的国际通用的测试语料集。语料分为测试语料和

13、学习语料。,7.1.3 文本分类方法与文本聚类方法,(2)文本聚类将数据挖掘中的聚类算法用于文本类别生成。常见方法包括划分聚类、层次聚类、基于统计分类、基于神经网络分类和基于遗传算法分类等多种算法。,7.1.4 自动摘要方法,自动摘要方法如表7.4所示。,表7.4 自动摘要方法,第七章 非结构化数据挖掘,7.1 文本挖掘7.2 Web数据挖掘7.3 空间群数据挖掘7.4 多媒体数据挖掘,7.2 Web数据挖掘,Web挖掘是利用数据挖掘技术从Web文档及Web服务中自动发现并提取人们感兴趣的信息。Web挖掘是一项综合技术,涉及Internet技术、人工智能、计算机语言学、信息学、统计学等多个领域

14、。通常Web挖掘过程可以分为以下几个处理阶段:资源发现、数据抽取及数据预处理阶段、数据汇总及模式识别阶段、分析验证阶段。,7.2 Web数据挖掘,7.2.1 非结构化Web数据挖掘7.2.2 Web挖掘分类7.2.3 Web内容挖掘7.2.4 Web结构挖掘7.2.5 Web访问挖掘7.2.6 利用Web日志的聚类算法*7.2.7 电子商务中的Web挖掘,7.2.1 非结构化Web数据挖掘,(1)Web数据挖掘的难点Web上的数据最大特点就是半结构化。由于Web的开放性、动态性与异构性等固有特点,要从这些分散的、异构的、没有统一管理的海量数据中快速、准确地获取信息成为Web挖掘所要解决的一个难

15、点,也使得用于Web的挖掘技术不能照搬用于数据库的挖掘技术。开发新的Web挖掘技术以及对Web文档进行预处理以得到关于文档的特征表示是Web挖掘的重点。,7.2.1 非结构化Web数据挖掘,Web数据挖掘应考虑以下问题:1)数据来源分析在对网站进行数据挖掘时,所需要的数据主要来自三个方面:Web服务器中的日志文件、Web服务器中的其他信息以及客户的背景信息。2)异构数据环境Web上的每一个站点就是一个数据源,每个数据源都是异构的,因而每一个站点之间的信息和信息的组织都不一样,这就构成了一个巨大的异构数据库环境。要想利用这些数据进行挖掘,第一要研究站点之间异构数据的集成问题;第二要解决Web上的

16、数据查询问题。,7.2.1 非结构化Web数据挖掘,3)半结构化的数据结构Web上的数据没有特定的模型描述,每一个站点的数据都各自独立设计,并且数据本身具有自述性和动态可变性。4)解决半结构化的数据源问题面向Web的数据挖掘必须以半结构化模型和半结构化数据模型抽取技术为前提。5)文本总结文本总结的目的是对文本信息进行浓缩,给出它的紧凑描述。文本总结是指从文档中抽取关键信息,用简洁的形式对文档内容进行摘要或解释。这样用户不需要浏览全文就可以了解文档或文档集合的总体内容。,7.2.1 非结构化Web数据挖掘,(2)XML与Web数据挖掘技术XML是Web应用服务的SGML(standard gen

17、eral markup language, SGML)的一个重要分支,是一种中介标注语言,可以提供描述结构化资料的格式。XML提供了一种独立的运行程序的方法来共享数据,它是用来自动描述信息的一种新的标准语言,它由若干规则组成,这些规则可用于创建标记语言,并能用一种被称作分析程序的简明程序,处理所有新创建的标记语言。XML能够完成那些标准的HTML无法完成的Web应用:需要Web客户端在两个或多个异质数据库之间进行通信的应用;试图将大部分处理负载从Web服务器转到Web客户端的应用;需要Web客户端将同样的数据以不同的浏览形式提供给不同的用户的应用;需要智能Web代理根据用户个人的需要裁剪信息内

18、容的应用。,7.2.2 Web挖掘分类,Web数据有三种类型:HTML标记的Web文档数据、Web文档内的连接的结构数据和用户访问数据。按照对应的数据类型,Web挖掘可以分为三类,如图7.1所示:内容挖掘、结构挖掘、用户访问模式挖掘。,7.2.2 Web挖掘分类,图7.1 Web挖掘分类,7.2.2 Web挖掘分类,表7.5 Web挖掘三种方法比较,7.2.2 Web挖掘分类,Web挖掘的基本构架如图7.2所示。,图7.2 Web挖掘的基本构架,7.2.2 Web挖掘分类,Web挖掘一般分为以下几步:1)资源发现。用爬虫(crawler)和蜘蛛(spider)从www上在线收集页面。浏览页面是

19、用户请求的页面,一个页面中包括几个框架、图片和脚本。由于服务器记录的是下传到客户端的一个个文件流,在确定提取浏览页面时,通常结合网站的拓扑结构,将图片(gif, jpeg, jpg)文件过滤掉。2)信息选择与预处理。如英文单词的词干提取、高低频词过滤,汉语词的切分和索引库的建立;对Web日志文件及Web数据库/数据仓库中的数据进行数据预处理。从Web Server数据库中抽取相关数据,进行二义性分析,消除不一致性。确定浏览页面、用户、用户期间(sessions)和用户访问序列等,将用户访问网站留下的原始日志整理成事务数据库,以供数据挖掘阶段使用。,7.2.2 Web挖掘分类,3)综合过程。发现

20、Web站点的共有模式。4)分析过程。对挖掘到的模式进行验证和可视化处理。,7.2.3 Web内容挖掘,Web内容挖掘按实现方法分为两大类:信息检索(information retrieve,IR)方法和数据库方法。两种策略:直接挖掘文档内容和在其他检索工具搜索的基础上进行改进。IR方法主要处理非结构数据和Web中由HTML标记的半结构化数据。处理非结构数据一般采用词集(bags of words)方法,用一组组词条来表示无结构的文本。首先对文本预处理,用相应的模型表示。用布尔模型表示某词在文本中是否出现,用向量模型表示出现的概率,用概率模型表示出现的频率与是否独立出现,还可用最大序列长度、划分

21、段落和概念分类等方法表示文本。对词集的处理方法有TFIDF、Hidden Markov Model、统计方法、决策树和最大熵等。,7.2.3 Web内容挖掘,处理由HTML标记的半结构化数据主要利用传统的数据挖掘技术:如关联规则、分类算法、演绎逻辑和规则学习等。数据库方法,推导出Web站点的结构或把它变成一个数据库。一般用OEM(Object exchange model, OEM)表示半结构化数据,它使用带标记的图来表示。其中对象为结点,标记为边,对象由唯一的对象标记符和值组成。直接挖掘文档内容:采用这种策略比较好的Web查询语言有WebSQL,Ahoy!等。对搜索引擎查询结果的进一步处理:

22、对搜索引擎返回的结果进行挖掘可提供给用户更为准确的查询结果。,7.2.4 Web结构挖掘,Web结构挖掘是从WWW上的组织结构和链接关系中推导知识。由于超文本文档间的关联关系,使得WWW不仅可以揭示文档中所包含的信息,同时也可以揭示文档间的关联关系所代表的信息。利用这些信息可以对页面进行排序,来发现重要的页面。挖掘Web结构的目的是发现页面的结构和Web结构,在此基础上对页面进行分类和聚类从而找到权威页面。PageRank方法就是利用文档间链接信息来查找相关的Web页面。,7.2.4 Web结构挖掘,Page-Rank方法(Brine and Page 1998)Page-Rank的基本思想是

23、:一个页面被多次引用,则这个页面很可能是重要的;一个页面尽管没有被多次引用,但被一个重要页面引用,该页面也可能是很重要的;一个页面的重要性被均分并被传递到它所引用的页面中。,7.2.5 Web访问挖掘,用户使用Web获取信息的过程中,需要不停地从一个Web站点通过超文本链接跳转到另一个站,这种过程在Web上每一个提供信息资源的服务器上都有一个结构好的记录集,即Web访问log日志,包括服务器端的server log、proxy server log和客户端的cookie log等。每当有获取资源的请求到来时,Web服务器都将记录和积累了所访问的页面、时间和用户ID等信息,如表7.6所示。,7.

24、2.5 Web访问挖掘,表7.6 服务器日志格式,7.2.5 Web访问挖掘,表7.6 服务器日志格式-续,7.2.5 Web访问挖掘,表7.6 服务器日志格式-续,7.2.5 Web访问挖掘,分析不同的Web站点和Web访问日志可帮助人们理解用户行为和Web的结构。Web访问挖掘一般分成两种:一般访问模式跟踪和定制使用跟踪。一般访问模式跟踪通过分析Web日志来理解用户的访问模式和倾向。定制使用跟踪分析单个用户的偏好,根据其访问模式为每个用户定制符合其个人特色的Web站点。对log数据挖掘采用的算法有:路径分析、关联规则及有序模式的发现、聚类分析等。Web访问挖掘主要的应用体现在个性化、系统改

25、进、站点修改、商业智能和页面推荐上。,7.2.5 Web访问挖掘,通过分析和探究Web日志记录中的规律可以识别用户,增强对最终用户因特网信息服务的质量并改进Web服务系统的性能和结构。网站Web日志的分析流程如图7.3所示。,图7.3 Web日志的分析流程,7.2.5 Web访问挖掘,1)预处理主要包括对Web日志进行清理、过滤和转换以及剔除无关记录。2)用户访问模式的发现。可以采用统计学、模式识别、人工智能、数据库数据挖掘等领域的成熟技术在Web的使用记录中挖掘知识。3)Web使用挖掘中的模式分析,主要是为了在模式发现算法找到的模式集合中发现有趣模式。,7.2.6 利用Web日志的聚类算法,

26、客户群体聚类主要是对Web用户行为模式进行分析,从WWW服务器的日志文件中选取合适的会话向量,归一化处理后得到模式向量,最后生成用户聚类的过程。(1)客户群体的模糊聚类算法用C表示客户集合,C=C1,C2,Cm;U表示某一站点URL集合, U=U1,U2,Um;客户Ci的浏览图 可用站点的URL表示:,7.2.6 利用Web日志的聚类算法,式中n为URL的数量,hits(Uj)表示客户Ci访问URL(Uj)的次数。,7.2.6 利用Web日志的聚类算法,(2)用户访问兴趣的算法K-Paths聚类方法是一种分割而非分层的聚类算法。它是按照路径的相似性进行聚类的算法。以一个用户访问事务T为例,它具

27、有n个事务, K-Paths聚类方法将T分为k个聚类(kn),并使在每一个聚类中所有事务与该事务所在的聚类中心相似度的总和最小。,7.2.6 利用Web日志的聚类算法,(3)客户群体聚类的Hamming距离算法,以Web站点的URL为行、UserID为列建立User-ID关联矩阵,元素值为用户的访问次数,则有URL-UserID关联矩阵Mmn代表客户访问该站点的记录,具有相似记录的客户即为相似客户群体。若客户仅做了浏览而并未与商家成交,即列向量中的值是未成交的浏览次数,则此相似客户群为潜在客户群体,否则为在册客户群体Hd。,7.2.6 利用Web日志的聚类算法,7.2.6 利用Web日志的聚类

28、算法,(4)基于模糊理论的Web页面聚类算法,7.2.6 利用Web日志的聚类算法,(5)Web页面聚类的Hamming距离算法,7.2.7 电子商务中的Web挖掘,(1)电子商务中Web挖掘的作用Web挖掘有利于合理建造网站及合理设计服务器,如辅助改进分布式网络系统的设计性能,在高度相关的站点间提供快速有效的访问通道;帮助更好地设计Web主页;帮助改善市场营销决策,如把广告放在适当的Web页上或更好地理解客户的兴趣,这样的知识有助于商家制定促销策略。,7.2.7 电子商务中的Web挖掘,(2)电子商务中Web挖掘的基本问题按电子商务目标的不同,Web挖掘大致可分为3类:以分析系统为目标;以设

29、计系统为目标;以理解用户意图为目标。由于各目标针对的功能不同,采取的主要技术也不同。1)用户的确定。用户是指通过一个浏览器访问一个或几个服务器的个体。在Web挖掘中对于实际使用中唯一确定一个用户很难,有时候可以把服务器日志、代理(agent)和参照(reference)页面日志结合起来确定一个用户。,7.2.7 电子商务中的Web挖掘,2)用户访问序列的确定就是按照时间顺序找出用户请求的一系列页面。一般服务器日志是以访问用户的IP地址为辅键、访问时间为主键排列的,因此找出统一的IP按时间访问的页面序列,就构成了用户访问序列。用户session的确定,一次访问中用户访问所有的页面,最简单的方法是

30、按时间的长度确定。3)完善访问路径由于存在着客户端的缓存,用户浏览页面时能使用浏览器的后退功能,要根据用户访问的前后页面进行推理,将其疏漏的页面补在路径里。另外,执行CGI程序时,由于其传递的参数不同,最后的输出结果不同,必要时还要结合参数确定显示的页面内容。,7.2.7 电子商务中的Web挖掘,(3)电子商务中的数据挖掘工具Web数据挖掘工具按其用途可有以下几种类型:1)文本信息挖掘工具2)用户访问模式挖掘工具3)用户导航行为挖掘工具4)综合性的Web分析工具,第七章 非结构化数据挖掘,7.1 文本挖掘7.2 Web数据挖掘7.3 空间群数据挖掘7.4 多媒体数据挖掘,7.3 空间群数据挖掘

31、,7.3.1 空间数据挖掘的概念7.3.2 空间数据挖掘的分类7.3.3 空间数据挖掘的体系结构,7.3.1 空间数据挖掘的概念,空间数据挖掘(spatial data mining, SDM)是指从空间数据中抽取隐含的知识、空间关系、空间及与非空间之间的有意义的特征或模式。空间数据挖掘功能可用于分析和解释地理特征间的相互关系及空间模式。海量的空间数据、复杂的空间数据类型和空间访问方法及对空间特征间关系能力的描述都是空间数据挖掘的难点。,7.3.2 空间数据挖掘的分类,(1)空间分析的层次第一是空间检索,包括从空间位置检索空间物体及其属性和从属性条件集检索空间物体。“空间索引”是空间检索的关键

32、技术,是否能有效地从大型GIS数据库中检索出所需信息,将影响GIS的分析能力。另一方面,空间物体的图形表达也是空间检索的重要部分。第二是空间拓扑叠加分析,空间拓扑叠加实现了输入特征的属性的合并以及特征属性在空间上的连接。第三是空间模拟分析,这方面的研究刚刚起步。,7.3.2 空间数据挖掘的分类,(2)空间模型分析目前多数研究工作着重于如何将GIS与空间模型分析相结合,其研究可分三类:一类是GIS外部的空间模型分析,将GIS当作一个通用的空间数据库,而空间模型分析功能则借助于其他软件;第二类是GIS内部的空间模型分析,试图利用GIS软件来提供空间分析模拟以及发展适用于问题解决模型的宏语言,这种方

33、法一般基于空间分析的复杂性与多样性,易于理解和应用,但由于GIS软件所能提供的空间分析功能极为有限,这种紧密结合的空间模型分析方法在实际GIS的设计中较少使用;第三类是混合型的空间模型分析,其宗旨在于尽可能地利用GIS所提供的功能,同时也充分发挥GIS使用者的能动性。,7.3.2 空间数据挖掘的分类,1)空间数据挖掘知识类型一般几何知识:目标的数量、大小、特征的统计特征值及直方图等可视化描述;空间分布规律:垂直向、水平向及其联合向的分布规律。空间关联规则:空间相邻、相连、共生、包含等空间关联规则。空间聚类规则、空间特征规则、空间区分规则、空间演变规则、空间序贯模式、空间混沌模式。2)空间数据挖

34、掘方法统计方法、泛化方法、聚类方法、空间分析方法、探测性的数据分析、粗集方法、云理论、图象分析和模式识别。,7.3.3 空间数据挖掘的体系结构,数据挖掘的体系结构可将其扩展到数据挖掘。如图7.4所示为空间数据挖掘的体系结构。,第七章 非结构化数据挖掘,7.1 文本挖掘7.2 Web数据挖掘7.3 空间群数据挖掘7.4 多媒体数据挖掘,7.4 多媒体数据挖掘,7.4.1 多媒体数据挖掘的概念7.4.2 多媒体数据挖掘的分类7.4.3 多媒体数据挖掘的体系结构,7.4.1 多媒体数据挖掘的概念,多媒体数据挖掘(multimedia mining)指从大量的图像、视频、音频等多媒体数据集中,通过分析

35、视听特征和语义,发现隐含的、有效的有价值的、可以理解的模式,为用户提供问题层次的决策支持能力。多媒体数据挖掘与计算机视角图像处理的区别:前者的焦点是从多媒体中抽取一定的模式,后者的焦点是从单个图象中分析和提取特定的特征。传统的数据挖掘与多媒体数据挖掘的区别:前者处理的是关系数据库的结构化数据,后者处理的是非结构化的多媒体数据,多媒体的时间、空间、视听对象、运动特征是多维的,模式的表示是建立在丰富的视觉环境下。,7.4.2 多媒体数据挖掘的分类,图像数据挖掘:从图像的视觉和空间特性中抽取有意义的语义信息,即知识。其根本的问题在于将底层特征如何关联转换为高层对象和语义概念。视频数据挖掘:从含有图像视觉和空间特性、时间特性、视频对象特性、运动特性等的内容获取有意义的知识。如从交通监视视频中分析出交通拥塞的趋势。音频数据挖掘:从听觉特性中的基音、音调、旋律、音频事件和对象的结构中挖掘出隐含在音频流中的信息线索、规律和特性。,7.4.3 多媒体数据挖掘的体系结构,大多是采用功能驱动的多媒体挖掘体系结构,如图7.5所示。,图7.5 功能驱动的多媒体挖掘体系结构,7.4.3 多媒体数据挖掘的体系结构,基于信息驱动的多媒体挖掘系统分为四个层次:最底层为物理级,为像素;第二层为对象级;第三层为语义级;最高层为模式和知识级,如图7.6所示。,图7.6 信息驱动的多媒体挖掘体系结构,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号