毕业设计数据挖掘技术开题报告.doc

上传人:laozhun 文档编号:2396298 上传时间:2023-02-17 格式:DOC 页数:8 大小:35.50KB
返回 下载 相关 举报
毕业设计数据挖掘技术开题报告.doc_第1页
第1页 / 共8页
毕业设计数据挖掘技术开题报告.doc_第2页
第2页 / 共8页
毕业设计数据挖掘技术开题报告.doc_第3页
第3页 / 共8页
毕业设计数据挖掘技术开题报告.doc_第4页
第4页 / 共8页
毕业设计数据挖掘技术开题报告.doc_第5页
第5页 / 共8页
点击查看更多>>
资源描述

《毕业设计数据挖掘技术开题报告.doc》由会员分享,可在线阅读,更多相关《毕业设计数据挖掘技术开题报告.doc(8页珍藏版)》请在三一办公上搜索。

1、毕业设计(论文)开题报告基于数据挖掘技术的WWW推荐系统设计摘要 在Internet飞速发展的今天,人们已经将互联网作为一个日常沟通,生活不可或缺的平台。随之而生的网上购物这一电子商务的具体模式之一,自然而然地便成为一种时尚、流行的购物方式。一个好的网上购物系统除了基本的商品浏览、搜索、购买和评价等功能外,还要具备一些数据挖掘的功能,这是在系统后台运行中实现的功能,能够从日常的客户资料,交易数据中得到挖掘分析的结果,给客户提供与他们选购的商品相关联的商品信息,给购物系统的经营者提供商业分析的决策支持,从而提高购物系统的交易量和客户的光顾频率。本文从关联规则和聚类分析这两种数据挖掘技术中得到启示

2、,将商品之间按照一定的规则进行匹配连接,将用户按照层层条件进行分类,从而实现了商品推荐和目标用户群邮件投递的功能。在购物系统这个主体功能实现的基础上,加以修饰,完善系统功能。数据挖掘思路与B/S结构的网页设计的相结合,是这个网上购物系统的核心技术。关键词:网上购物系统;数据挖掘;决策支持AbstractNowadays, with the rapid development of Internet, people have regarded WEB as an indispensable platform for everyday communication and life. Thus, o

3、n-line shopping, one concrete pattern of E-business is becoming a fashionable and popular way of shopping naturally. Except for searching for, purchasing, evaluating goods, an advanced on-line shopping system should have the function of data mining. Data mining is implemented at background, which ca

4、n produce an analysis result on the basic of the clients information and the data of transaction. It provides clients with the information of goods, which are related to the goods they are purchasing; it supplies decision support to the on-line shopping systems manager. All these are in order to bri

5、ng up the transaction and increase the frequency of shopping for clients. Based on the thought of rule induction and cluster analysis, it makes connection with goods according some rule and divides clients into different clusters in this paper. Thus, the functions of recommending goods and sending e

6、mail come true and the whole systems functions are improved. Data mining and B/S structure designing are the two key techniques of this on-line shopping system.Key words: on-line shopping system; data mining; decision support学位论文题目:基于数据挖掘技术的WEB推荐系统设计课 题 来 源:指导老师协商分配1、课题意义及国内外研究现状综述课题意义近年来,Internet使计

7、算机、网络、通信合而为一。网络经济、注意力经济等新概念的出现,以其巨大的社会效益和极富挑战与机遇的内涵,成为信息科学最引人注目的研究课题。然而,网络在快捷、方便地带来大量信息的同时,也带来了一大堆的问题:诸如信息过量难以消化;信息真假难以辨识;信息安全难以保证;信息形式不一致,难以统一处理等等。如何快速、准确地获得有价值的网络信息,如何理解已有的历史数据并用于预测未来的行为,如何从这些海量数据中发现知识,导致了知识发现和数据挖掘领域的出现。知识发现(Knowledge Discovery,简称KD)和数据挖掘(Data Mining,简称DM)是集统计学、人工知识、模式识别、并行计算、机器学习

8、、数据库等技术的一个交叉性的研究领域。知识是当今世界一种最重要的财富。数据库中的知识发现(Knowledge Discovery in Database,即KDD)方法和数据挖掘技术,近几年受到人们的高度重视,并对其进行了深入的研究,得到了许多有效的方法和技术。随着Internet技术的迅猛发展,WEB(World Wide WEB)已发展成为拥有3亿页面的分布式信息空间,而且这个数字仍以每4至6个月翻一番的速度增加着。面对这海量的数据和信息,人们却感知识的匮乏,难怪John Naisbett感叹道:“We are drowning in information, but starving f

9、or knowledge”(“信息爆炸但知识匮乏”)。现代社会的竞争趋势要求必须对WEB大量复杂的信息进行实时的和深层次的分析,从中找出真正有价值的信息知识,用于科学研究、决策支持、过程控制、趋势预测、偏差预防等,但是,现有的KDD方法和技术已不能满足人们从WEB获取知识的需要,这是因为:WEB数据是异质、异构、动态、模糊的半结构化、非结构化或数据库信息;异质、异构以及动态性给数据仓储带来极大困难;语义理解难度加大,造成基于内容的信息检索难以实现;挖掘算法、信息模型的动态性以及大样本空间搜索能力要求很高;现有的DM方法和技术不能直接运用于WEB挖掘。因此,人们迫切感到需要一种新的技术基于WEB

10、的数据挖掘技术,以便从WEB海量的数据中自动地,智能地抽取隐藏于这些数据中的知识。国内外研究现状综述DM是近年来一个十分活跃的研究领域。从数据库中发现知识(Knowledge Discovery in database,简称KDD)一词首先出现在1989年举行的第十一届国际联合人工智能学术会议上。到目前为止,由美国人工智能协会主办的KDD国际研讨会已召开了8次,规模由原来的专题讨论会发展到国际学术大会,仅以1999年为例,就有近20个国际会议列有DM专题。这两年国内也有相当多的数据挖掘和知识发现方面的研究成果,许多学术会议上都设有专题进行学术交流。目前, DM的研究重点逐渐从发现方法的研究转向

11、实际的系统应用,国际上有影响的典型数据挖掘系统有SAS公司的Enterprise Miner, IBM公司的Intelligent Miner, SGI公司的Set Miner等。现有的数据挖掘技术分为5类,即预测模型化、聚类、数据归纳、依赖模型化以及发现变化和偏差。从国内外目前的研究进展来看,各学科的研究自成一派,没有突破各个领域的技术界限;没有融合各领域的不同方法;尤其是未将并行优化的诸方法集成用于数据库中的数据挖掘,从而提高实时性,并解决随机的、动态的、不完全的及混沌数据的数据挖掘,即所谓智能数据挖掘。而且以往多数技术都是在驻留于内存的数据之上进行挖掘,没有把这些技术与数据库技术相集成。

12、近年来,有些技术已开始定位于大型数据库上的挖掘,即基于磁盘存贮进行挖掘。从而出现了关系数据库的数据挖掘、面向对象数据库的数据挖掘等。由于Internet和WEB的广泛应用,出现了基于异构数据源的数据挖掘,如文档数据挖掘、时间序列数据挖掘、电子商务系统中的数据挖掘。伴随数据库技术的发展,多媒体数据库的数据挖掘、时态数据库的数据挖掘、空间数据库的数据挖掘等也引起了许多人的关注。预计在21世纪还会形成更大的高潮,研究焦点可能会集中到以下几个方面:研究专门用于知识发现的数据挖掘语言,也许会像SQL语言一样走向形式化和标准化;寻求数据挖掘过程中的可视化方法,使得知识发现的过程能够被用户理解 ,也便于在知

13、识发现过程中的人机交互;研究在网络环境下的数据挖掘技术,特别是在Internet上建立DM服务器,与数据库服务器配合,实现数据挖掘;加强对各种非结构化数据的挖掘,如文本数据、图形图像数据、多媒体数据。但是,无论怎样,需求牵引,市场驱动是永恒的,DM将首先满足信息时代用户的急需,大量基于DM的决策支持软件工具产品将会问世 。2、学术构想与思路、主要实现内容及拟解决的关键技术学术构想与思路研究内容主要包括:WEB上数据挖掘的用途、WEB上数据挖掘的分类、WEB上数据挖掘的实现与工具、WEB数据挖掘的BN实现方法。最后给出了一个WEB数据挖掘在电子商务网站中的应用实例。毕业设计充分的将理论研究和实际

14、应用结合起来,做到了理论和实践的相结合。该电子商务网站是基于Jsp/JavaBean的模式的一个网络购物系统,这种模式以其稳定性和优越的速度,被全球企业证明公认为可以高效稳定的进行企业运算开发的平台。这种平台最大的优势在于可以跨系统,真正的“一次编写、 到处运行”的特点,在这种平台上开发的产品,可以轻松移植到其他的平台,例如:Unix、Linux、Windows系统,这样,在企业更换平台的时候可以最大的节约成本,提高运算质量。 Jsp网络购物系统基于jsp+javabean+数据库三层结构的动态购物网站。网站用户接口(即界面)由jsp完成,数据和逻辑处理由beans完成,数据储存由数据库完成。

15、因为beans独立负责处理整个网站的全部数据逻辑运算,所以整个网站的负载量和速度都将大大提高,所以基于这种语言和结构开发的购物系统的优势是其它语言无法比拟的。这就更进一步保证了网站的稳定性和安全性,而这些,对于一个购物网站来说是非常重要的!主要实现内容主要功能介绍: (1)网站前台功能: 产品列表:详细介绍(名称,图片,市场价,会员价,是否推荐,功能介绍)等产品搜索:关键字模糊搜索 定购产品:选择商品确认定购填写收货人信息选择付款方式订单号自动生成(限登录用户)用户管理:修改资料 查看购物车(限登录用户) 数据挖掘:通过对用户浏览商品的情况进行分析进而向用户推荐商品(2)网站后台功能: 商品管

16、理:添加 删除 修改 图片上传用户管理:查看修改用户资料,删除用户拟解决的关键技术WEB挖掘是数据挖掘在WEB上的应用,它利用数据挖掘技术从与WEB相关的资源和行为中抽取感兴趣的、有用的模式和隐含信息,涉及WEB技术、数据挖掘、计算机语言学、信息学等多个领域,是一项综合技术。WEB内容挖掘。WEB内容挖掘是指对WEB页面内容及后台交易数据库进行挖掘,从WEB文档内容及其描述中的内容信息中获取有用知识的过程。同时还可以对WEB的组织结构和链接关系进行挖掘,从人为的链接结构中获取有用的知识。由于文档之间的互连,WEB能够提供除文档内容之外的有用信息。利用这些信息,可以对页面进行排序,发现重要的页面

17、。WEB使用记录挖掘。WEB使用记录挖掘是通过挖掘相应站点的日志文件和相关数据来发现该站点上的浏览者的行为模式,获取有价值的信息的过程。如何实现WEB挖掘WEB挖掘发展自数据挖掘。数据挖掘方法通常可以分为两类:一类是建立在统计模型的基础上,采用的技术有决策树、分类、聚类、关联规则等;另一类是建立一种以机器学习为主的人工智能模型,采用的方法有神经网络、自然法则计算方法等。WEB内容挖掘实现技术WEB上的内容挖掘多为基于文本信息的挖掘,它和通常的平面文本挖掘的功能和方法比较类似。利用WEB文档中部分标记,如Title、Head等包含的额外信息,可以提高WEB文本挖掘的性能。a) 文本总结。文本总结

18、是指从文档中抽取关键信息,用简洁的形式对文档内容进行摘要或解释。其目的是对文本信息进行浓缩,给出它的紧凑描述。这样,用户不需要浏览全文就可以了解文档或文档集合的总体内容。b) 文本分类。分类是在已有数据的基础上学会一个分类函数或构造出一个分类模型,即通常所说的分类器。c) 文本聚类。文本聚类把一组文档按照相似性归成若干类别。方法大致可分为层次凝聚法和平面划分法两种类型。d) 关联规则。发现关联规则的算法通常要经过以下三个步骤:连接数据,作数据准备;给定最小支持度和最小可信度,利用数据挖掘工具提供的算法发现关联规则;可视化显示、理解、评估关联规则。WEB使用记录挖掘实现技术在挖掘WEB用户使用记

19、录时描述用户访问的数据包括:IP地址、参考页面、访问日期和时间、用户WEB站点及配置信息。发现用户使用记录信息的方法有两种。一种方法是通过对日志文件进行分析,包含两种方式:一是先进行预处理,即将日志数据映射为关系表并采用相应的数据挖掘技术来访问日志数据;二是直接访问日志数据以获取用户的导航信息。另一种方法是通过对用户点击事件的搜集和分析发现用户导航行为。能挖到什么获取竞争对手和客户信息。WEB不仅由页面组成,而且还包含了从一个页面指向另一个页面的超链接。一个WEB页面的作者建立指向另一个页面的指针,就可以看作是作者对另一页面的认可。把另一页面的来自不同作者的注解收集起来,就可以用来反映该页面的

20、重要性,并可以很自然地用于权威页面的发现。另外一种重要的WEB页面是一个或多个WEB页面,它提供了指向权威页面的链接集合,称为Hub。Hub页面本身可能并不突出,或者说可能没有几个链接指向它们,但是 Hub页面却提供了指向就某个话题而言最为突出的站点的链接。通过分析这类信息,企业可以获得零售商、中间商、合作商以及竞争对手的信息。发现用户访问模式。通过分析和探究WEB日志记录中的规律,可以识别电子商务的潜在客户,提高对最终用户的服务质量,并改进WEB服务器系统的性能。 WEB日志记录数据库提供了有关WEB动态的,基于URL、时间、IP地址和WEB页面内容的丰富信息,对它们进行分析,有助于发现潜在

21、客户、用户和市场,有助于聚类用户并将用户分门别类,以实现个性化的市场服务。3、所需实验手段、研究条件和实验条件硬件环境要求:计算机必须满足的条件:1 CPU: Intel Pentium 1GHz或更高的处理器(推荐酷睿2或更高的处理器),或任何运行于Microsoft Windows NT Workstation的Alpha的处理器。2 操作系统: Microsoft Windows XP/vista/7或 Microsoft Windows NT Service/Workstation 4.0(推荐Service Pack 5)或更高版本,或者Unix,Linux操作系统。3监视器: Mi

22、crosoft Windows支持的VGA或分辨率更高的监视器。4内存:512MB内存以上。软件环境要求: 本系统适用于Microsoft Windows XP/vista/7 或者Unix,Linux 下开发的,所采用的开发工具是JSDK1.60 及 Tomcat 6.0。由于考虑到该企业每天的数据处理量,我们后台采用SqlSever2008 。浏览器推荐Microsoft IE8.0 浏览器推荐桌面显示方式:1280*800像素4、计划进度3月 1日3月9日 完成毕业设计开题报告3月 10日3月25日 调研,准备各种参考资料、充实所需知识;3月26 日4月5日 阅读相关书籍资料,提出可行性

23、的设计方案;4月 6 日4月25日 具体设计与制作工作;4月26 日5月25日 毕业设计论文的撰写,交由指导老师修改;5月25日以后 论文答辩5、主要参考文献1 陈国青.企业资源计划教程.清华大学出版社,20082 吴建安.市场营销学(第二版).高等教育出版社, 20043 刘业政.电子商务概论. 高等教育出版社,20074 (美)齐克芒德 吉尔伯特.客户关系管理. 中国人民大学出版社,20055 韩佳炜.数据挖掘概念与技术(第二版).机械工业出版社,20076 贝里.数据挖掘客户关系管理的科学与艺术.中国财经出版社,20047 纪希禹.数据挖掘技术应用与实例.机械工业出版社,20098 王永贵.客户关系管理.清华大学出版社,20079 武延军 黄飞跃. 精通JSP编程技术M. 北京:人民邮电出版社,2001.810 柏亚军. JSP编程基础及应用实例集锦M.北京:人民邮电出版社,2001.711 清宏计算机工作室.JSP编程技巧M.北京:机械工业出版社,2000.112 周影 .网络编程语言JSP实例教程M.北京:电子工业出版社,2003.6备注指导老师意见: 签 名:年 月 日学院毕业设计( 论文)工作领导小组意见: 签 名:年 月 日

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 建筑/施工/环境 > 项目建议


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号