毕业设计（论文）Web挖掘关键技术及研究.doc

资源描述

《毕业设计（论文）Web挖掘关键技术及研究.doc》由会员分享，可在线阅读，更多相关《毕业设计（论文）Web挖掘关键技术及研究.doc（26页珍藏版）》请在三一办公上搜索。

1、Web挖掘关键技术及研究摘要：近年来，随着计算机的快速发展，利用计算机从庞大的数据中智能地、自动地抽取有价值的知识模式，以满足人们不同应用的需要。随着互联网的普及和迅猛发展、Web上信息量的爆炸式增长, 网上的资源得到极大丰富, 但也充斥着大量的垃圾信息, 人们迫切需要能从这些纷繁芜杂的信息中找到有用知识的工具。鉴于数据挖掘工具的日益成熟完善, 人们自然而然想到了要把数据挖掘技术应用到Web上来。 Web挖掘指在WWW 上挖掘潜在的、有用的模式及隐藏的信息过程。该文首先概述了数据挖掘的概念、挖掘算法及其主要应用领域，然后对Web分类以及方法进行了科学的概述，通过对Web内容挖掘、Web结构挖

2、掘和Web日志挖掘详细分析和对主要的挖掘算法及最新研究进展的综合表述，最后介绍了Web挖掘的研究方向和发展趋势。关键词：Web挖掘；Web内容挖掘；Web结构挖掘；Web日志挖掘；结构算法Web mining key technology and applicationAbstract ：In recent years, with the rapid development of computer Usecomputer data from a large intelligently and automatically extract valuableknowledge models to m

3、eet people of different applications. With the popularity of the Internet and rapid development, Webs explosive growth on the amount of information, online resources are extremely abundant, but also filled with a lot of spam, it is the urgent need for the information from these numerous Wuza find us

4、eful knowledge Tools. In view of the increasingly sophisticated data mining tools improve, people naturally think of data mining technology should be applied to Web up. Web mining refers to the WWW on the mining potential, useful patterns and hidden information process.This paper first outlines the

5、concept of data mining, mining algorithm and its major application areas, and then Web classification and an overview of scientific method, through the Web content mining, Web structure mining and Web log mining detailed analysis and the main excavation algorithm and integrated presentation of the l

6、atest research advances, finally introduced a Web mining research and development trends.Key words: Web Mining; Web content mining；Web Structure Mining；Web log mining；Structure Algorith目录一、引言1二、WEB数据挖掘的概述2（一）数据挖掘的基本概念2（二）Web数据挖掘分类2(三) 数据挖掘的技术方法3(四)Web数据挖掘与相关技术41.Web挖掘与传统挖掘42.Web 挖掘与信息检索53.Web 挖掘与信

7、息抽取5三、 Web挖掘的步骤6四、Web挖掘的分类6(一)Web内容挖掘71.Web 内容挖掘72.从资源查找的观点挖掘非结构化文档83.用资源查找的观点挖掘半结构化文档94.从数据库（Database）的观点挖掘非结构化文档95.目前Web 内容挖掘的主要应用有：10（二）.Web结构挖掘：111.Web结构挖掘的对象122.Web结构挖掘在一定程度上得益于社会网络和引用分析的研究123. Web结构挖掘主要应用领域124.Web结构挖掘领域开展的研究13(三)Web用法挖掘（Web usage Mining）14五、WEB挖掘相关技术16（一）统计分析方法16（二）关联规则挖掘技术16（

8、三）序列模式挖机技术17(四) 分类技术17（五）聚类技术18六、 WEB挖掘的发展方向18七、结束语19八、参考文献20一、引言Web作为一个巨大的信息源，不仅内容复杂、而且形式各异。随着Web站点自身信息越来越丰富和拓扑结构越来越复杂，目前信息服务中普遍存在着“信息过载”和“资源迷向”的状况。近年来，因特网的飞速发展与广泛应用，使得Web上的量以惊人的速度增长，未来Web将包含人类信息的主要部分，因此，如何从Web中找到感兴趣的内容变得越来越重要。为数据挖掘提供了丰富的数据源和新的研究课题。面对Web丰富的信息内容，巨大的数据量，加之万维网分布、动态、海量、异质、复杂、开放性的特点，人们

9、如何从海量的数据中，查找自己想要的数据和有用信息，迫切需要一种新的技术能自动地从Web资源上发现、抽取盒过滤信息，随之Web挖掘技术应运而生。 Web挖掘就是从与WWW相关的资源和用户浏览行为中发现、抽取感兴趣的潜在的有用模式和隐藏的信息。它以从Web上挖掘有用知识为目标，以数据挖掘，内容挖掘、多媒体挖掘为基础，并综合运用计算机网络、数据库、人工智能、信息检索、可视化等技术，将传统的数据挖掘技术与Web结合起来。但是，Web挖掘与传统挖掘的数据挖掘相比又有很多独特之处。首先，Web 挖掘的对象是大量、异质、分布的Web 文档；其次，Web在逻辑上是一个由文档节点和超链接构成的图，因此Web挖掘

10、所得到的模式可能是关于Web内容的，也可能是关于Web结构的；此外，由于文档本身是半结构化或无结构的，且缺乏机器可理解的语义，而数据挖掘的对象局限于数据库中的结构化数据，并利用关系表格等够来发现知识，因此数据挖掘技术要应用于Web挖掘，应当对Web文档进行预处理。这样，开发新的Web挖掘技术，以及对Web文档进行预处理以得到关于文档的特征表示，便成为Web挖掘研究的重点。 Web挖掘可在多方面发挥作用，如电子商务中销售搭配、营销策略，搜索引擎结构的挖掘，搜索引擎的的开发，改进网站结构，确定权威界面，Web文档分类，只能查询，个性化信息服务等。二、Web数据挖掘的概述（一）数据挖掘的基本概念数

11、据挖掘（Data Mining）就是从大量的、不安全的、有噪声的、模糊的、随机的实际应用数据中，提取潜在的、不为人知的有用信息、模式和趋势，是一种新兴的处理技术。（二）Web数据挖掘分类从挖掘对象、挖掘任务、挖掘方法等几个方面，将数据挖掘划分一下类型。根据挖掘任务分：分类或预测行知识发展、依赖关系或依赖模型发展、异常和趋势发展等等。根据挖掘对象分，有如下若干种数据库或数据源：关系数据库、面向对象数据库、空间数据库、时态数据库、文本数据库、多媒体数据库、异构数据库、遗产数据库、Web等。根据挖掘方法可粗分为：统计方法、机器学习方法、神经网络方法和数据库方法。统计方法中可细分为：回归分析（多

12、元回归、自回归等）、判别分析（贝叶斯判别、费歇尔判别、非参数判别等）、聚类分析（体统聚类、动态聚类等）、探索性分析（主元分析法、相关分析法等）等。机器学习中可细分为：归纳学习方法（决策树、规则归纳等）、基于范例学习、遗传学习方法等。神经网络方法可细分为：前向神经网络（BP算法）、自组织神经网络(自组织特征映射、竞争学习等)等。(三) 数据挖掘的技术方法数据挖掘的方法通常可以分为两大类：一类是统计型，常用的技术概率分析、相关性、聚类分析和判别分析等：另一类是人工智能中的机器学习型。通过训练和学习大量的样品集得出需要的模式或参数。数据挖掘的应用中，最终的目标都是发现有价值的知识信息，有共同的思路和

13、步骤，但是存在很大的差异和区别。由于各种方法有自身的功能特点及应用领域，数据挖掘技术的选择将影响最后结果地质量和效果。下面对数据挖掘中常用的关联分析、决策树和神经网络等几种技术方法进行讨论，包括技术的基本思想、优势与缺点和主要应用领域（见表1）表1技术方法主要功能和特点主要应用领域关联分析分类、聚类零售业、保险业和通讯业决策树归纳分类、直观制造业、医药和零售业等遗传算法聚类、优化、高效性金融业、保险业和农业等贝叶斯网络分类、聚类和预测；易理解医学、制造业和电信等粗糙集方法不去定性分类零售业、金融业和制造业等神经网络预测、分类和聚类；解释性差金融业、保险业和制造业等统计分析聚类；结果精确、易理解

14、金融业、制造业和医学等 (四)Web数据挖掘与相关技术1.Web挖掘与传统挖掘Web挖掘从传统的数据挖掘发展而来, 但是与传统的数据挖掘相比有许多不同之处。传统的数据挖掘是以数据仓库为基础, 对结构化的数据源进行信息的加工、分析和模式挖掘。而Web 挖掘的对象是半结构化或无结构的Web 文档,Web 使用信息以及大量的动态的超链接信息, 缺乏机器可理解的语义。因此有些数据挖掘技术并不适用于Web 挖掘, 即使可用也需要建立在对Web 信息进行预处理的基础之上。2.Web 挖掘与信息检索信息检索与Web 挖掘类似, 都可帮助用户选择感兴趣的文档。但是两者之间仍然有很大的差异。Web 信息检索通常

15、只针对静止的文档集进行操作, 采用短术语表示用户的信息需求, 着重于文档中显式存储的字词和链接实现快速信息检索, 而且用户常会提出查询要求。而Web 挖掘除了关注静止的文档集之外, 还要分析用户的访问行为, 从连续变化的文档流中识别出用户的兴趣, 并做出相应的响应。与信息检索相比,Web 挖掘更加注重的是网页内容和结构, 挖掘结构独立于用户的需求, 是用户无法预知的。3.Web 挖掘与信息抽取信息抽取是把信息检索获得的文档集合转换成利于摘要和分析的信息。它侧重的是从文档中抽取有关事实。由于Web 庞大, 大多数信息抽取系统是针对特定的Web 站点设计, 系统扩展性差。信息抽取是数据挖掘前的处理

16、阶段,Web 挖掘同样采用了信息抽取中的部分技术。三、 Web挖掘的步骤信息选择与预处理资源发展模式分析模式发现图1 Web挖掘的步骤(1)资源发现，即搜集所需的网络文档；（2）信息选择和预处理，即从检索到的网络资源中自动选择和预先处理得专门的信息;(3)模式发现，即从单个的Web站点以及多个站点之间发现普遍的模式；（4）分析，对挖掘出的模式进行确认或者解释。Web挖掘不同于传统的数据挖掘，它可以随互联网中的非结构化得异构的Web文档集合进行有效地挖掘。Web挖掘通常分为内容挖掘（WCM）、Web结构挖掘（WSM）和Web使用记录挖掘（WUM）。Web内容挖掘时冲Web文档内容或其描述中抽取

17、知识的过程。它主要研究隐藏在半结构化数据中的模式和数据实体。研究方法有词频统计、分类计算、机器学习、模式识别、元数据等。Web使用记录挖掘是从Web使用记录中抽取感兴趣的模式，其研究的重点是数据预处理和日志挖掘算法。如下图所示。四、Web挖掘的分类Web 数据有三种类型：Web数据，即人们通常所说的Web文档（主要是HTML或XML格式的）、Web结构数据（如Web文档中的超链接）、用户访问数据（如服务器上的日志信息）。相地，Web挖掘也分为三类：Web内容挖掘、Web结构挖掘、Web使用挖掘。如图2所示Web挖掘Web日志挖掘Web内容挖掘内容挖掘Web结构挖掘结构挖掘自适应Web站点站点

18、用户访问模式分析搜索结构归纳Web文档的自动分类图2 Web挖掘的分类(一)Web内容挖掘1.Web 内容挖掘Web内容挖掘是从文档内容或其描述中抽取知识的过程。Web文档文本内容的挖掘，是基于概念索引的资源发现。Web内容挖掘有两种策略：直接挖掘文档的内容，或在其它工具搜索的基础上进行改进。采用第一种策略的有针对Web的查询语言Web Log, WebOQL等，利用启发式规则来寻找个人主页信息等等。采用第二种策略的方法主要是对搜索引擎的查询结果进行第一步的处理，得到更为精确和有用的信息。属于该类的有WebSQL。及对搜索引擎的返回结果进行聚类的技术等。Web内容挖掘的数据对象即可以是结构化的

19、也可以是非结构化的、半结构化的。Web内容挖掘的结果既可以是对某个文件内容的概括，也可以是对整个文本集合的分类结果或聚类结果等等。目前Web内容挖掘的主要研究内容是对Web上大量文档集合的内容进行总结、分类、聚类、关联、分析、科学文献资料浏览导航，以及利用Web文档进行趋势预测。Web内容挖掘一般从两个不同的观点来进行研究。从资源查找（IR）的观点来看，Web内容挖掘的任务是从用户的角度出发，怎样提高信息质量和帮助用户过滤信息。而从DB的角度讲Web内容挖掘的任务主要是试图对Web上的数据进行集成、建模，以支持对Web数据的复杂查询。2.从资源查找的观点挖掘非结构化文档非结构化文档主要指Web

20、上的自由文本，包括小说、新闻等。在这方面的研究相对比较多一些，大部分研究都是建立在词汇袋（bag of words）或称向量表示法（vector representation）的基础上，这种方法将单个的词汇看成文档集合中的属性，只从统计的角度将词汇孤立地看待而忽略该词汇出现的位置和上下文环境。属性可以是布尔型，根据词汇是否在文档中出现而定，也可以有频度，即该词汇在文档中的出现频率。这种方法可以扩展为选择终结符、标点符号、不常用词汇的属性作为考察集合。词汇袋方法的一个弊端是自由文本中的数据丰富，词汇量非常大，处理起来很困难，为解决这个问题人们做了相应的研究，采取了不同技术，如信息增益，交叉熵、差

21、异比等，其目的都是为了减少属性。另外，一个比较有意义的方法是潜在语义索引（Latent Semantic Indexing），它通过分析不同文档中相同主题的共享词汇，找到他们共同的根，用这个公共的根代替所有词汇，以此来减少维空间。例如：“informing”、“information”、“informer”、“informed”可以用他们的根“inform”来表示，这样可以减少属性集合的规模。其他的属性表示法还有词汇在文档中的出现位置、层次关系、使用短语、使用术语、命名实体等，目前还没有研究表明一种表示法明显优于另一种.3.用资源查找的观点挖掘半结构化文档与非结构化数据相比，Web上的半结构化

22、文档挖掘指在加入了HTML、超连接等附加结构的信息上进行挖掘，其应用包括超连接文本的分类、聚类、发现文档之间的关系、提出半结构化文档中的模式和规则等。4.从数据库（Database）的观点挖掘非结构化文档数据库技术应用于Web挖掘主要是为了解决Web信息的管理和查询问题。这些问题可以分为三类：Web信息的建模和查询；信息抽取与集成；Web站点建构和重构.从数据库的观点进行Web内容挖掘主要是试图建立Web站点的数据模型并加以集成，以支持复杂查询，而不止是简单的基于关键词的搜索。这要通过找到Web文档的模式、建立Web数据仓库或Web知识库或虚拟数据库来实现。相关研究主要是基于半结构化数据进行的

23、。数据库观点主要利用OEM(Object Exchange Model)模型将半结构化数据表示成标识图。OEM中的每个对象都有对象标识（OID）和值，值可以是原子类型，如整型、字符串型、gif、html等，也可以是一个复合类型，以对象引用集合的形式表示。由于Web数据量非常庞大，从应用的角度考虑，很多研究只处理办结构化数据的一个常用自集。一些有意义的应用是建立多层数据库（MLDB），每一层是它下面层次的概化，这样就可以进行一些特殊的查询和信息处理。对于在半结构化数据上的查询语言研究也得到了人们的重视并做了专题研究。由于在数据库观点下数据的表示方法比较特殊，其中包含了关系层次和图形化的数据，所

24、以大部分建立在扁平数据集合之上的数据挖掘方法不能直接使用，目前已经有人针对多层数据库挖掘算法进行研究。5.目前Web 内容挖掘的主要应用有：n 超文档的分类；n 学习Web 文档的之间的关系；n 学习模式或规则；n 半结构查询语言与模式抽取（Lorel，DIPRE 迭代算法等）n 半结构化模式（schema）抽取；n Web 异构数据集成（Information integration）；n 基于Ontology 的语义Web 和半结构化文档的信息获取；n 文本挖掘中文本分类和归类，决策树算法和贝叶斯网络的应用；n 主题抽取和文本分类；n 文本数据库的知识发现；定制化的内容过滤。（二）.Web

25、结构挖掘：Web结构包括不同网页之间的超链接结构和一个网页内部的可以用HTML或XML表示成的树形结构，以及文档URL中的目录路径结构等。Web结构挖掘是从WWW的组织结构和链接关系中推导知识。主要是通过对Web站点的结构进行分析、变形和归纳，将Web页面进行分类，以利于信息的搜索。由于文档之间的互联，WWW能够提供除文档内容之外的有用信息。利用这些信息，可以对页面进行排序，发现重要的页面。这方面的工作的代表有PageRank和CLEVER。除此之外，在多层次Web数据仓库(MLDB)中也利用了页面的链接结构。Hits、Pagerank以及在链接结构中增加了Web内容信息的hits改进算法等，

26、主要用于模拟Web站点的拓扑结构，计算Web页面的等级和Web页面之间的关联度，电信的例子是CLVEAVER system和Google。Web结构挖掘所有得到的模式，可以揭示许多蕴含在Web内容之外的隐含着的有用信息。如通过文档之间的超链接，可以挖掘出文档之间的引用关系，从而有助于找到与用户请求相关的权威页面；通过分析Web网页内部树形结构，可以发现与给定叶面集合相关的其它页面；Web页面的URL同样可以反映页面的类型以及页面之间的从属关系，通过分析页面的URL信息，可以找到改变了位置的Web页面的新位置。1.Web结构挖掘的对象Web结构挖掘的对象是Web本身的超连接，即对Web文档的结

27、构进行挖掘。对于给定的Web文档集合，应该能够通过算法发现他们之间连接情况的有用信息，文档之间的超连接反映了文档之间的包含、引用或者从属关系，引用文档对被引用文档的说明往往更客观、更概括、更准确。2.Web结构挖掘在一定程度上得益于社会网络和引用分析的研究把网页之间的关系分为incoming连接和outgoing连接，运用引用分析方法找到同一网站内部以及不同网站之间的连接关系。在Web结构挖掘领域最著名的算法是HITS算法和Page Rank算法。他们的共同点是使用一定方法计算Web页面之间超连接的质量，从而得到页面的权重。著名的Clever和Google搜索引擎就采用了该类算法。3. Web

28、结构挖掘主要应用领域Web结构挖掘主要应用于WWW上的信息检索领域，HITS算法和Page Rank算法都是利用网页间的超链接信息对搜索引擎的检索结果进行相关度排序。另外，在信息检索领域的应用还包括寻找个人主页和相似网页等。除此之外，Web结构挖掘可以提高搜索蜘蛛在网上的爬行效率，其搜索策略是沿着超链接优先爬行具有最高PageRank值的网页，从而使其以最短的路径、最少的时间发现最多最新的文档信息。Web主机的镜像使得搜索引擎为镜像网页建立了大量重复的索引，不仅造成了存储空间的浪费，而且直接导致了检索结果的重复。由于近似镜像Web页的主机在链接结构上非常近似，因此Bharat等人通过将IP地址

29、分析、URL模式分析和链接结构分析相结合的方法，可以检测到大量的近似镜像Web页。近似镜像检测算法已经被成功地应用于消除“搜索引擎”系统的重复网页，成为提高搜索引擎服务质量的关键技术之一。另外，Web结构挖掘还可以用于对Web页进行分类、预测用户的链接使用及链接属性的可视化、对各个商业搜索引擎索引的Web页数量进行统计分析等4.Web结构挖掘领域开展的研究(1) 理解用户偏好的Web 检索系统。可以从用户查询的上下文环境（context）发现用户的查询目标文档范围和分类并在该分类上做进一步的查询和多次反馈；(2) Web 文档的分类与聚类。根据查询词可能属于的分类范畴或相关类别的聚类，分别生成

30、局部专题提供给查询用户，这样可以提高主题挖掘的深度和准确性.(3) 基于Web 数据抽取的知识搜索引擎。Web 数据抽取技术运用机器学习算法，分析HTML 标签和数据的关系，建立半结构化数据schema，按照定义的schem把页面中有价值的数据抽取出来并保存在数据库中以提供结构化查询服务；(4) 基于自然语言理解的搜索引擎。利用自然语言进行Web 查询需要解决如文本挖掘（Text Mining）和NLP 等关键技术，目前提供自然语言查询的Web 搜索引擎如AskJeeves能提供一些最基本的理解能力。随着NLP 技术的发展和成熟，利用人类语言查询将成为重要的信息获取手段；(5) 基于语义Web

31、（Semantic Web）的信息检索。语义WebLee98是从传统HTML Web过渡到知识化Web 下一代信息组织和表达方式。与HTML 不同，语义Web 利用可扩展标识语言XML 编写，所有数据都有确定的语义而不是像HTML 那样各个标签之间无法区分。通过XML 和RDF 框架，可以建立起对知识进行描述和管理的有效方法，使得Web 上的数据可以被机器所理解并集成到各个不同的应用程序中。由于语义Web 规范化的定义和数据的自描述特性，对数据的推理和联想成为可能，基于语义Web 的信息检索和知识发现将成为下一代智能信息检索的重要研究方向。(三)Web用法挖掘（Web usage Mining

32、）除了Web内容和Web链接结构，Web挖掘的另一个重要任务是Web日志挖掘，它通过挖掘Web日志记录来发现用户访问Web页面的模式。通过分析和探究Web日志记录中的规律，可以识别电子商务的潜在用户，增强对用户的因特网信息服务的质量和交付，并改进Web服务器系统的性能和结构。目前研究较多的Web日志挖掘技术和工具可分为两大类：模式发现和模式分析。在模式发现中，首先要解决的额问题就是数据的预处理，它主要包括如下两个部分：数据清洗（data cleaning）包括无关记录的剔除、判断是否有重要的额访问没有被记录、用户的识别等问题；事务识别（transaction identification）是指

33、将页面访问序列划分为代表Web事务或用户会话的逻辑单元。在对事务进行划分后，就可以根据具体的分析需求选择访问模式发现的技术，如路径分析、关联规则挖掘、时序模式以及聚类和分类技术。路径分析（path analysis）可以用来分析Web站点中最常被访问的路径，从而可以调整站点的结构。模式分析利用领域专家的知识以及其它一些可用的标准来分析这些模式，并过滤掉那些没有利用价值以及有偏差的模式，将发现的有价值的用户浏览模式以表格、饼图、曲线图、趋势图、直方图或者其它特殊形式表现形式显示出来。如果没有适合的技术和工具来辅助分析人员的理解，采用各种技术挖掘出来的模式将不能得到的很好的利用。五、Web挖掘相关

34、技术模式发现是Web挖掘的主要阶段，采用的算法有统计分析、关联规则挖掘、路径分析、时序模式发现、聚类和分类算法等。（一）统计分析方法它是抽取有关网站访问者知识的最常用方法。通过分析会话文件或事物数据库，可对诸如网页视图、浏览时间、导航路径长度等做出不同的描述性统计分析。很多WebTraffic分析工具还提供定期的报告，其中包含最大频繁访问页面、平均浏览时间、通过站点的路径的平均长度统计信息。此类报告还能提供有限的低层次的错误分析，比如检测未授权入口点、找出最常见不变的URL等。尽管这种分析缺乏深度，但这类知识有助于改进系统性能、提高系统的安全性、便于站点修改，并能提供决策支持。（二）关联规则挖

35、掘技术关联规则主要关注事务内的关系。在网络用法挖掘中，关联规则挖掘就是挖掘用户在一个访问期间（Session）从服务器上访问的页面/文件之间的关系，找出在某次服务器会话中最经常一起出现的相关页面。挖掘发现的相关规则往往是指支持度超过预设值的一组访问页，这些网页之间可能并不存在直接的应用（Reference）关系。例如，用Apriori算法发现关联规则有可能发现访问包含网络搜索引擎网页的用户和访问有关NASDAQ（纳斯达克）市场页面的用户之间的常用技术，可从事务数据库中挖掘出最大频繁访问项集，该项集就是关联规则挖掘出来的用户访问模式。（三）序列模式挖机技术时序模式主要关注事务之间的关系。序

36、列模式挖掘就是挖掘出交集之间序列关系的模式，在Web Log中发现所有满足用户规定的最小支持度的大序列模式。在网站服务器日志中，用户的访问是以一段是按金为单位记载的，经过数据精简事件交易确认以后是一个间断的时间序列，有助于网站管理人员：a.改善网站的组织；b.根据具有相同浏览器模式的访问者说访问的内容来裁减用户与Web信息空间的交互，减少用户过滤信息的负担；c.预测未来的访问模式，了解Web正在发生的变化。相关序列模式的存取的分析，可对服务器的缓存、预取和交换参数进行调整。(四) 分类技术分类计数主要是根据用户的特征用户群的访问特征（某些共同点额特性）。这些特征可用于把数据项映射到预先定义好

37、的类中去。即对新添加到数据库里的数据进行分类。在网络数据挖掘中，分类计数可以根据访问这些用户而得到的个人信息或共同访问模式得出访问某一服务器文件的用户特征。分类方法有很多种，常使用归纳学习算法，如决策树技术、贝叶斯分类法、K-邻近分类法。（五）聚类技术局累计数是否合某一访问规律特征用户进行用户特征挖掘。在网络用法挖掘中，存在两种类型的聚类：使用聚类（用户聚类）和网页聚类。用户聚类主要是把所有用户划分为若干组，具体有相似特性（或浏览模式）的用户分在一组，这类知识对为用户提供个性化服务特别有用。网页类聚可以找出具有相关内容的网页组，这对网上搜索引擎及提供上网帮助的应用特别有用。上述两类应用都能根

38、据用户的询问或过去所需求的信息的历史生成静态或动态HTML，从而向用户推荐相关的超链接。目前许多知名的门户网站如搜狐，新浪等均在用户浏览网页后给出相关链接服务，就是运用了这类技术。六、 Web挖掘的发展方向目前，在国内外Web挖掘的研究处于初级阶段，是前沿性的研究领域。在Web挖掘领域中面临下列诸多方面的挑战：（1）在数据预处理方面，数据的收集机制也技术开发（2）研究和开发多种数据的智能集成系统，以期能提供完善的查询、优化和维护机制。（3）高效、多能、自动导航的搜索引擎的研究。（4）基于半结构化的Web数据查询语言及查询系统的研究（5）现有挖掘方法与技术改进。（6）模式发现与分析智能

39、化工具的研究与开发。（7）新的数据模型与算法研究。七、结束语Web挖掘是当今世界上的热门研究领域，其研究有助于网络资源的开发利用，具有广阔的应用前景和巨大的现实意义。目前国内的Web挖掘尚处于学习、跟踪和探索阶段，许多问题有待于进一步的研究和深化。随着XML技术的发展，页面会蕴含更多的结构化个语义信息，者会使Web挖掘工作变得更有效，也更容易。八、参考文献1 朱丽红, 赵燕平. Web 挖掘研究综述J . 情报技术, 2006 .72 陈新中, 李岩, 杨炳儒, 等.Web 日志挖掘技术进展J . 系统工程与电子技术, 2006.43 涂承胜, 鲁明羽, 陆玉昌. Web 挖掘研究综述J. 计

40、算机工程与应用, 2008 .104 蒋良孝, 蔡之华. Web 挖掘及其应用研究. 现代计算机, 20055毛国君. 数据挖掘原理与算法M.清华大学出版社.2009.16 Kosala R , Blockeel H. Web Mining Research : A Survey. SIGKDDExlloration , 20077Bing liu.Web Data MiningM.清华大学出版社.2009.48 ZHU Lihong, Zhao Yanping. Web Mining Research SurveyJ. Information Technology.2006.79 Guojun Mao. Data mining principles and algorithms M. Tsinghua University Press.2009.110 Yu-Chang Lu. Web Mining Research SurveyJ. Computer Engineering and Applications.2008.10

展开阅读全文