《Web挖掘基础》PPT课件.ppt

上传人:小飞机 文档编号:5454451 上传时间:2023-07-08 格式:PPT 页数:27 大小:576.50KB
返回 下载 相关 举报
《Web挖掘基础》PPT课件.ppt_第1页
第1页 / 共27页
《Web挖掘基础》PPT课件.ppt_第2页
第2页 / 共27页
《Web挖掘基础》PPT课件.ppt_第3页
第3页 / 共27页
《Web挖掘基础》PPT课件.ppt_第4页
第4页 / 共27页
《Web挖掘基础》PPT课件.ppt_第5页
第5页 / 共27页
点击查看更多>>
资源描述

《《Web挖掘基础》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《Web挖掘基础》PPT课件.ppt(27页珍藏版)》请在三一办公上搜索。

1、Web挖掘基础,提纲,Web挖掘的概念Web内容挖掘Web结构挖掘Web日志挖掘,Web 挖掘的挑战,Web数据量太庞大:Server Level Collection、Client Level Collection和 Proxy Level CollectionWeb数据的复杂性高于传统的文本文档Web是一个动态性极强的信息源Web面对的是一个广泛的用户群体Web上的信息只有很小的一部分是相关的或有用的,Web挖掘与IR,Web上的IR是Web挖掘的一个方面,仅是对信息有序化。Web挖掘是智能化的IR,IR出现早,技术成熟。,Web挖掘概念,Web挖掘是从大量Web文档的集合C中发现隐含的、

2、有用的模式P的过程:CP。Web挖掘主要处理文本、图形和图像等半结构、非结构化的数据,这些数据分布在Web文档、Web服务器的日志、用户cookies等。,Web挖掘分类,Web内容挖掘,基于网页内容或其描述中抽取知识的过程。Web内容挖掘主要包括文本挖掘和多媒体挖掘两类,其挖掘对象包括文本、图像、音频、视频和其他各种类型的数据。,日志的预处理,Web文本挖掘,Web文本挖掘针对包括Web页面内容、页面结构和用户访问信息等在内的各种Web数据,应用数据挖掘方法发现有用的知识帮助人们从大量Web文档集中发现隐藏的模式。,Web文本挖掘的方法,文本概括:从文本(集)中抽取关键信息,用简洁的形式总结

3、文本(集)的主题内容。例如搜索引擎在向用户返回查询结果时,通常需要给出文本摘要。文本分类:把一些被标记的文本作为训练集,找到文本属性和文本类别之间的关系模型,然后利用这种关系模型判断新文本的类别。召回率和精度。文本聚类:根据文本的不同特征划分为不同的类。从大量文档中发现一对词语出现模式的关联分析以及特定数据在未来的情况预测。,Web文本挖掘的应用,搜索引擎领域:利用Web文本挖掘可以更合理地组织搜索结果:按照页面之间的相似程度分为若干簇。自然语言理解领域:结合自然语言处理技术和Web文本挖掘技术。,文本挖掘在垃圾邮件过滤中的应用,Web多媒体挖掘,Web多媒体挖掘是从大量多媒体数据中通过综合分

4、析视听特性和语义,发现隐含的、有价值的和可理解的模式,得出事件的趋向和关联,为用户提供决策支持。多媒体挖掘包括图像挖掘、视频挖掘和音频挖掘等类别。,多媒体挖掘系统的结构,多媒体挖掘的典型应用,视频挖掘:从电影、监控录像等视频数据中提取视频场景内容和其中运动对象的特征及其时空位置变化,并在此基础上发现场景的内容特征,运动对象的行为模式和事件模式等。在线诊疗系统:对新产生的医学图像进行分类,从而对病人进行疾病的诊断。,Web结构挖掘,有用的知识不仅存在于Web页面间的链接结构和Web页面内部结构,而且也存在于URL中的目录路径结构(页面之间的目录结构关系)。Web结构挖掘是指挖掘Web链接结构模式

5、,即通过分析页面链接的数量和对象,从而建立Web的链接结构模式。,Web结构挖掘主要方法,PageRank算法HITS算法,PageRank算法,PRi:the PageRank value of page iPRj:the PageRank value of page jkj:number of the pages j refer tod:a parameter ranging 0,1.,Web结构挖掘的应用,信息检索 社区识别 网站优化,Web日志挖掘,Web日志挖掘是从用户访问日志(包括搜索引擎日志等)中获取有价值的信息,即通过分析Web日志数据,发现访问者存取Web页面的模式。理解用户

6、的行为,改进站点结构,发现潜在用户,为用户提供个性化的服务,增强网站的竞争力。,Web日志挖掘的应用,获取用户访问模式信息,理解用户的意图和行为分析用户的存取模式,为用户提供个性化的服务确定网站的潜在客户群,合理制订网络广告策略等改进Web站点的结构,使网站点随时间、用户需求的变化而不断调整对日志数据进行多种统计,包括频繁访问页、单位时间访问频度、访问量的时间分布等利用关联规则确定相关Web查询(查询修正),隐私保护数据挖掘,数据挖掘可能会违反用户的隐私在原始数据库中,类似于标识符、姓名、地址和喜好等数据作为用户的隐私应该被保护。对用户的敏感的原始数据进行变换,以便数据的使用者不能对用户的原始数据进行查看,以此保护用户的私有数据。,病人原始病历,转换后的病历信息,医疗数据挖掘隐私保护,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号