数据挖掘技术在高校科研管理系统中的应用研究.doc

上传人:仙人指路1688 文档编号:2396301 上传时间:2023-02-17 格式:DOC 页数:33 大小:126.50KB
返回 下载 相关 举报
数据挖掘技术在高校科研管理系统中的应用研究.doc_第1页
第1页 / 共33页
数据挖掘技术在高校科研管理系统中的应用研究.doc_第2页
第2页 / 共33页
数据挖掘技术在高校科研管理系统中的应用研究.doc_第3页
第3页 / 共33页
数据挖掘技术在高校科研管理系统中的应用研究.doc_第4页
第4页 / 共33页
数据挖掘技术在高校科研管理系统中的应用研究.doc_第5页
第5页 / 共33页
点击查看更多>>
资源描述

《数据挖掘技术在高校科研管理系统中的应用研究.doc》由会员分享,可在线阅读,更多相关《数据挖掘技术在高校科研管理系统中的应用研究.doc(33页珍藏版)》请在三一办公上搜索。

1、数据挖掘技术在高校科研管理系统中的应用研究 论 文 摘 要随着高校规模的不断扩大,各大院校的信息数据库积累了越来越多的历史数据,传统的一些方法很难从这些历史数据中找出潜在的有用的规律,而数据挖掘技术可以解决数据丰富但知识贫乏的问题,它可以从事务性数据库中提取潜在的有用规则,通过这些规则可以辅助领导层做出科学有效的决策促进学校的发展。 目前数据挖掘被广泛的应用于社会的各个领域,是一个数据库方向的一个研究热点。国内外也都一些成功 的应用案例,比如在 金融、保险、民航、电信等社会领域,但在 教育领域的应用却比较少见。本文就是尝试把数据挖掘技术应用于高校中的科研管理中去,给学校的科研工作的管理者提供可

2、靠的决策支持。 本文以江西教育学院为背景,首先对本次挖掘所要用到的理论基础作出了简单的概述,对几种典型的关联规则算法的性能作出了分析和比较,并找到一种适合本次数据挖掘的关联规则算法- 多维 Apriori 算法;再次对本次江西教育学院的科研现状做出了分析,提出了数据挖掘的需求,给出了数据挖掘的任务,本次挖掘的任务为:教师科研工作中的论文、论著和课题 与教师自身素质之间有何种关联规则;最后实施整个数据挖掘过程,对江西教育学院科研管理系统中的数据库进行了清理、集成、转换 等预处理,应用了多维 Apriori 算法,再 对最后的挖掘结果进行了分析,发现科研工作引导力度的问题,为下一步科研管理工作作出

3、有效的参考。关 键词 : 数据挖掘, 关联规则,预处理,科研管理,多维 Apriori 算法 V ABSTRACT With the constant expansion of colleges , colleges have accumulated more and more information on the database of historical data, some of the traditional methods is difficult to find some potential and useful laws from these historical data,

4、but data mining technology can solve the problem of rich data and lack of knowledge, it can extract potential and useful rules from the transactional database , these rules can be assisted by the leadership to make effective and scientific decisions to promote the development of the schoolNow data m

5、ining is widely used in all social fields, and is a research hotspot in the direction of a database. it has a number of successful application cases at home and abroad , such as finance, insurance, civil aviation, telecommunications and other social fields, but the application in education field is

6、relatively rare. in this paper we are trying to bring data mining technology into the research management of the college,and it can provide reliable decision support to the research manager of collegeThis papers the background is Jiangxi Institute of EducationFirstly I make a brief overview of the t

7、heoretical foundation for the date mining,and I analyze and compare some typical association rule algorithms performance , and I find a suitable the association rule algorithm in this data mining - Multidimensional Apriori algorithm; secondly analysis the status of Jiangxi Institute of Educations re

8、search, propose the demand for data mining, determine the data mining task ,In this data mining, the task is to find the association rules between the teachersquality and teacherspapers 、 VI teachersbooks 、teachersprojects in researchs work;finally execute the entire data mining process, and clean-u

9、p 、 integrate 、converse and other pre-process works for the databases which is in the Jiangxi Institute of Education research management system , and use for the multi-dimensional Apriori algorithm , thenanalyze the mining result, and finds the research guide problems,it can assistthe managers to ma

10、ke a valid reference in the next step KEY WORD: Data mining ,Association rule, pre-process works , research management ,multidimensional Apriority algorithmVII 目录 第 一章 绪论. 1 1.1 研究背景和意义. 1 1.2 数据挖掘的研究现状 1 1.2.1 国外的研究现状 1 1.2.2 国内的研究现状 2 1.3 本课题研究的意义3 1.4 本文的组织结构. 4 第 二章 数据 仓库 和数据 挖掘 概述 5 2.1 数据仓库技术

11、5 2.1.1 数据仓库概述5 2.1.2 数据仓库的系统结构5 2.1.3 数据仓库的实施策略6 2.1.4 OLAP联机分析处理技术. 7 2.1.5 OLAP 的基本概念8 2.1.6 OLAP 多维数据分析 8 2.2 数据挖掘技术 9 2.2.1 数据挖掘概述9 2.2.2 数据挖掘的功能 9 2.2.3 数据挖掘的步骤10 2.2.4 数据挖掘工具. 11 2.2.5 数据挖掘的应用领域. 12 第三 章 关联 规则 算法14 3.1 关联规则概述14 3.1.1 关联规则的基本概念. 14 3.1.2 关联规则挖掘的分类. 14 3.1.3 关联规则挖掘的步骤. 15 VIII

12、3.2 几种经典的关联规则及其性能的比较 16 3.2.1.Apriori 算法. 16 3.2.2 AprioriTid 算法. 18 3.2.3 AprioriHybrid 算法. 21 3.3 改进的关联规则算法-多维APRIORI 算法 21 第 四章 江西 教育 学院科 研管 理系统 及其 数据挖 掘需 求25 4.1 科研管理系统介绍. 25 4.1.1 科研管理系统的需求分析 25 4.1.2 科研管理系统系统结构26 4.1.3 科研管理系统相关技术介绍. 27 4.1.4 科研管理系统简介 29 4.1.5 科研管理系统用户可实现的主要功能30 4.2 科研管理的数据挖掘需求

13、. 32 4.2.1 科研管理的重要性 32 4.2.2 科研管理的作用32 4.2.3 科研管理的现状32 4.2.4 数据挖掘技术在科研管理中的应用研究 33 第 五章 关联 规则 在江西 教育 学院科 研管 理中的 应用. 35 5.1 数据挖掘的任务定义35 5.2 数据预处理. 36 5.3 数据挖掘 45 第 六章 总结 与展 望. 55 参 考 文 献. 57 致 谢 60 IX数据挖 掘技 术在 高校 科研 管理系 统中 的应 用研 究第一章 绪论 1.1 研究 背景和意义 随 着 计 算 机 技 术 的 不 断 发 展 , 数 据 库 已经 被 广 泛 应 用 于 金 融 、

14、 保 险 、 民航、电信 、医学 等 社 会 的 各 个 领 域 , 面 对 越 来 越 多 的 数据库 信 息 , 如 何 提 高 信息的利用率 是 当 前 的 一 个 重 要 问 题 。 以前, 我们 只 是 对 数 据 库 中 已 有 的 数 据 进行存取、查询 或 统计 等 一 系 列 事务性的 操 作 , 人 们 也只是 仅仅 从中 获取 了 一些简单的 表面 数据 ,而 无 法 提 取 真正隐含在数据 的 有用 信息 , 这 部 分 信 息 又 恰 恰是决策者 目前 最 需 要 的 , 它是 在制 定 决 策 过 程 中 最 有 参 考 价 值 的 信 息 , 我们可1以利用这部分

15、重要的、有价值的信息 辅助 决 策 者 做出有效的决策 。 比 如 : 超级市场 的 经理人 可以 从 过 去 几 年 的 销 售 记 录 中 分 析 出 顾 客 的 一些 消 费 习 惯 和 行为,以 制定 营 销 策 略 ; 股 票 经 纪 人 可以 从 日 积 月 累 的 大 量 股 票 行 情 的 记 录 中 找出 它的变化规律,预测未来股票发展趋势; 还有 地质学家 也 希望从 地 球 资 源 卫星发回的大量数据和照片 中 分析 和 发 现 有 开 采 价 值 的 矿 物 资 源 等 等 。 所以 , 数2据挖掘 技术 它 具 有 巨 大 的 应 用 价 值 和 广 阔 的 应 用

16、前 景 。 人们 都 希望通过 数据挖掘技术 从 大量 的 数据 记录中 获得 一系列 有用的信息, 以 达 到 不 可估量的效益, 这也是数据挖掘技术产生的主要原因 所在。 经过 了 十几年的 努力 , 数 据 挖 掘 技 术 现在 在 国 外 的研究已经 获 得 了 大 量 成果, 已经有 越 来 越 多 的 大 中 型 企 业 利 用 这 项 技 术 来 分析公司的数据,以辅助决策。 同时在 国 内 , 数 据 挖 掘 也 已 经 从 单 纯 的 研 究 逐渐 走向 了 产 品 开 发 及 技 术 应用 阶段,我国对数据挖掘 技术的需求正在不断增 长。 1.2 数据 挖掘 的 研究现状

17、1.2.1 国外 的研究 现状 知识发现(KDD) 一词最早出现于在1989 年美国底特律市举办的第十一届国际联合人工智能学术会议 。到目前止, 由美国人工智能协会主办的 KDD 国际研讨会已经 召开了十几次,规模 越来越大,由原先 的专题讨论会发展到国际学1 数据挖 掘技 术在 高校 科研 管理系 统中 的应 用研 究术大会, 参加的人数逐年增 加,由最初的二三十人发展到千人 以;收录的 论文数量 越来越多,研究重点 从数据挖掘理论的研究 逐渐转向到社会生产中的实际3应用 ;重视多种发现策略和技术的集成,以及多学科间的相互渗透。 。 世界上研究数据挖掘的组织机构和大学很多。比较 有名的有斯坦

18、福大学、麻省理工学院、卡内基梅隆大学(多媒体数据库 DM、有机器制造DM、互连网DM 三个研究中心) 。著名研究机构有:KDNet the European Knowledge Discovery Network of Excellence 、ACM(ACM Special Interest Group on Knowledge Discovery in Data and Data Mining)、NCDM(The National Center for Data Mining ) ,这些大学研究机构的 学者在该领域所做的研究对数据4挖掘的发展起着重要的作用 。1.2.2 国内 的研究 现状就

19、国外而言,我国对数据挖掘的研究起步相对较晚, 开始于 20 世纪 90 年代中期, 从 事 数 据 挖 掘 的 研 究 人 员 主 要 在 高校 和研 究机构 , 他们 对 数 据 挖 掘 的理论以及 数 据 挖 掘 在 各 个 领 域 的 应 用 进 行 了 大 量 的 研 究 , 比 如 : 复 旦 大 学 、 浙江大学、华中科技大学、中国科技大学以及吉林大学等单位一起开展 了对关联规 则 算 法 的改 进 和优 化研 究 ; 四川 大 学、 南京 大 学 以 及上 海 交通 大学 等 单 位 对非结构化数据的知识发现和 Web 数据挖掘方面的内容展开了研究;北京系统工程研究所也对模糊方法

20、在知识发现中的应用进行了较为深入的研究 ; 南 京 大 学国家重点实验室的 研究 人员开发出了一个 通用 数据挖掘工具 Knight ,该系统可用来处理不同领域的知识发现任务,比如关联规则发现、分类规则发 现、聚类分 析等。 这 些 研 究 项 目 大 部 分 都 是 由 国 家 政 府 资 助 的 , 比 如 :863 计 划 、 国 家自然科学基金等。可以说数据挖掘方面的研究越来越受到学术界、政 府部门的重视 , 数据挖掘的研究 成果明显递增, 但 是 高 质 量 的 有 突 破 性 的 科研 论文 仍然占少数,大部分的论文仅限于一般性的理论介绍、综述和数据挖掘算 法的改进和应用。 另外

21、与 国 外 相 比 , 我 国 就 当 前 的 应 用 来 看 , 还 处 于 初 级 阶 段 , 虽然有2 数据挖 掘技 术在 高校 科研 管理系 统中 的应 用研 究一些成功的案例,比如宝钢公司使用数据挖掘系统辅助生产决策,每 年为公司节省了上千万元的资 金,但总体来看 企 业 大 规 模 的 应 用 数 据 挖 掘 技 术 还 不 完善。 总得来说,我国的科技 工作者在数据 挖 掘 领 域 通 过 不 断 的 努 力 已 经 取 得 了一定的进展,但仍然面临着许多新的挑战。 1.3 本课题研究的 意义 现在 数据挖掘在商业方 面的应用比较广泛,但 是在教育行业的 应用 还 处 于初级阶段

22、, 并且 针对 国 内 高 校 的 数 据 挖 掘 的 应 用 研 究 更 是 少 见 。 但 是 随 着 高校扩招 教育事业的发展,学校数据库的信息量越 来越大,传统数据库中删除、修改、查询、统计等 基 本 操 作 已不能满足学校对大量数据处理的需求, 学校的决策人员 希 望 从 大 量 堆 积 的 数 据 中 找 出 潜 在 的 规 律 , 帮 助 管理 人 员 做 出 有 效 的 决策,以促进学校教学、科研、招生、图书馆等 多 方面的管理。 本人 在 阅 读 了 大量学位论文 和期刊论文 以 后,发现 专门 针对 高 校 管 理 的 数 据 挖 掘 并 不 多 , 比如说对 教务管理、科

23、研管理 等高校管理的 数 据 挖 掘 ;并 且 发现 针 对 高 校 管 理 系 统而 自行开发 的 数 据 挖 掘 工 具 的 也 不多 见 。我国 目前对高校管理的数据 挖掘的 应用 研究, 主要 是对 一 些 相 关 算法和数据挖掘理论的研究, 使用 一些 已开发的通用数据挖掘工具 ,或者 是对数据挖掘系统进行分析建模。 本课题 顺应社会发展 的 需 求 ,对高校中数据挖 掘 的 应用研究做了进一 步的探索,针对江西教育学院科研管理系统 中 的 数 据 展开。目前一批 成 人 本 科 院 校正 面临 着 改制 问题 , 其中 教师的科研工作水平 是 改制 评估 的 一 个 重 要 方 面

24、 , 如何让教师 在 提高 自身 素 质 的 同 时 提 高 科研 工作 能力 , 是 目前本院 一 项 值 得 思 考的问题, 因此 本 次 课 题 的 数 据 挖 掘 任 务 为 挖 掘 教 师 的 自 身 因 素 与 科 研 成 果 之间的 内在联系,以辅助科研管理人员为下一步的 工作决策 , 提 高 老 师 的 科 研 工 作水平, 同 时 在 教 师 科 研 工 作 水 平 得 到 提 升 的 同 时 又 能 促 进 教 师 的 教 学 , 以 达 到科研促教学的目标,从而 提高整个学校的教学质量。3 数据挖 掘技 术在 高校 科研 管理系 统中 的应 用研 究1.4 本文的组织结

25、构 第一章: 绪 论 。 阐 述 本 课 题 的 研 究 背 景 、 国 内 外 的 研 究 现 状 以 及 本 课 题 的 研究意义; 第二章: 数 据 仓 库 和 数 据 挖 掘 理 论 。 介 绍 了 数 据 仓 库 的 概 念 、 系 统 结 构 、 实施策略 以及 OLAP 技 术;介 绍了 数据 挖掘 的 基本概 念、 应用 领域以及数据挖掘的任务、步骤和常用的工具; 第三章: 关 联 规 则 算 法 。 主 要 介 绍 几 种 典 型 的 关 联 规 则 算 法 , 并 对 它们的 性能优缺点进行比较 ;给出一种改进的多维 Apriori 算法,并将它应用于后续章节的数据挖掘中;

26、 第四章:数据挖掘在 高校科研管理中的应用需求分析。 介绍了江西教育学院科研管理系统的基本构架以及 所应用到的 核心技术,阐述了数据挖掘在高校科研管理中的 应用需求分析 ; 第五章: 关联规则在 高校科研管理中的应用。给出本 次数据挖掘的任务, 并对江 西 教 育 学 院 科 研 管 理 系 统 中 的 数 据 信 息 进 行 相 关 的 预 处 理 工作 ,再把多维的 Apriori 算法应用于数据 挖掘中,最后挖掘结果给出教师的自身素质和科研成果之间的关联规则; 第六章: 总结与展望。总结全文,找出不足之处,确定下一步研究工作。4 数据挖 掘技 术在 高校 科研 管理系 统中 的应 用研

27、究第二章 数 据 仓 库和 数 据 挖 掘 概述 2.1 数据仓库技 术 2.1.1 数据 仓库概述 数 据 仓 库 目前 还 没 有 一 个 统 一 明 确 的 定 义 , 通 常 它 指 的 是 一 个 数 据 库 环境,数据仓库专家 Inmon 早在 1993 年Building the Data Warehouse 一书中 就 提 出 : 数 据 仓 库 是 一 个 面 向 主 题 (subject oriented ) 的 、 集 成 (integrate )的、相对稳定non-volatile 的、反应历史变化time variant 的 数 据 集 合 , 通 常 用5 6于辅助

28、决策支持 。通 过这个定义可以看出数据仓库包含以下四个特点 : (1) 面向 主题 的。主 题是指 用户 使用数 据仓 库进行 辅助 决策时 所关 心的 中心 内容 , 一 个 主 题 通 常 与 多 个 操 作 型 数 据 库 相 关 , 数 据 仓 库 的 数 据 可以 按照一定的主题组织在一起。 (2) 集成 的。 数据仓 库中的 数据 是对原 有分 散的数 据库 数据进 行抽 取、清洗和转换等操作后 获得 的。所以要消除数据间 的不一致性, 可 使 用 一 致 的 命 名规则 和格式来定义数据仓库中的数据。 (3) 相对 稳定 的。一 旦某个 数据 加载到 数据 仓库后 一般 将作为

29、数据 档案长期保存,几乎不再做修改或删除, 而 对 它 的 操 作 也 仅 限 于 查 询 和 分 析 。 数 据 仓库的这种特点保证了它 的历史性和真实性。 (4) 反映 历史 变化的 。数据 仓库 通常记 录的 是 过去 一段 时间内 的大 量历史数据 , 我们 通过 对 这些 数据的定量分析和预测可以找出一些对企事业 单位有用的信息。 2.1.2 数据 仓库 的 系统结 构 数据仓库是一种 体系结构 , 数据仓库和数据库及其他技术之间的关系就像7体 系 结 构 与 技 术 本 身 之 间 的 关 系 。 为 了 使 得 用 户 在 使 用 数 据 库 更加的方 便、有效,我们通常可以采用

30、建立数据仓库。首先 , 从 不同的数据源 中 提取 相关的数据 , 然 后 经 过 净 化 处 理 把 它 加 载 到 事 先 建 立 好 的 原 有 数 据 仓 库 中 。 数据仓库5 数据挖 掘技 术在 高校 科研 管理系 统中 的应 用研 究的体系结构包含:数据源、数据准备区、数据仓库数据库、数据集市 、知识挖掘库以及各种管理工 具和应用工具等。 下 面 介 绍 数 据 仓 库 包 含 的 三 个 基 本 功能。 (1)数据获取 主要 是对数据源进行抽 取、转换、加工等处理 对数据进行 整理, 然 后 把 它8加 载 到 目 标 数 据 库 中 去 。 其 中 数 据 源 是 千 差 万

31、 别 的 , 只 要 它 是 支 持 决 策 分 析所需的就可以成为数据源 ,比如知识库、遗留系统以及 6HTML 文件 等都属于数据源, (2)数据存储和管理 主要 是 负 责 数 据 仓 库 的 内 部 维 护 和 管 理 , 提 供 的 服 务 包 括 存 储 数 据 的 组9织 、 数 据 维 护 以 及 数 据 分 发 等 。 这 也 是 数 据 仓 库 有 别 于 普 通 数 据 库 之 处 , 它有独特的数据组织管理 方式。(3)信息访问 主要是把查询、统计、 分析等操作的最后的结 果呈现给最终用户,对 数据进行 访问的工具主要 有 可视化工具、多维分析工具和数据挖掘工具等 。这

32、里也是 软件开发商 竞 相 争 取 的 地方, 新 的 发 展 趋 势 是 将 信息访问工具 平 滑 的 集成到数据仓库系统中 去。 数据仓 库系 统的 三个 功 能分别 对应 了三 个不 同 的层次 。最 下 层 是数 据 源,中间层是 数 据 仓 库 层 和 数 据 仓 库 工具层, 最 上 层 是 最 终 的使用者 。 数 据 仓 库 可以通过 分 布 式 数 据 库 系 统 来 实 现 , 为 了 获 得 所 期待 的性能,常常需要 将 数据 进行 并行和分布处理。 2.1.3 数据 仓库的 实施策 略 人们在早期 建立 数 据 仓 库 时 , 一 般 是 先 建 立 一 个 全 局

33、的 数 据 仓 库 结 构 , 然10后 再 在 此 基 础 上 建 立 各 种 应 用 。 但 是 这 种 方 法 存 在 很多 问 题 , 比 如 数 据 仓 库的规模大,建立数据仓库的 投资大、周期长、部门间资源 会有 竞 争 。 为 解 决 这些问题, 后来提出了 数 据 集 市 的 概 念 。 数 据 集 市 是 一个数据的集合,它仍然 具有数据仓库中数据的特点, 而且 组 织 结 构 与 数 据 仓 库 类 似 , 只 不 过 它当 中的数6 数据挖 掘技 术在 高校 科研 管理系 统中 的应 用研 究据是专为某一 部门或某个特定商业需求 而定制的。 11随着数据仓库技术的发展,

34、目前数据仓库的实施策略有以下三种模式 : (1)自顶向下模式 :它是早期开发数据仓库 所使用的一种模式,这种模式是对分散在企业 各个部门 的数据库数据集成建立 一个 全局 性 数 据 仓 库 。 数 据 集 市中的数据从数据仓库中 提 取的, 专 为某 个 部门 的决策支持服务的。数 据集市中的数据是数据仓库数据的一个子集, 数据是从数据仓库流向数据集市的。 (2 )自底向上模式:从建立各 个 部 门 或 特 定商 业 需求 的 数 据 集 市 开始 , 全 局性数据仓库建立在 这些 数据集市 之 上。即数据 是 从数据集市流向数据仓库。 它的 特点是投资少、见效快。 (3 )平行开发模型:在

35、一个全局性 的 数 据 仓库 的 数 据 模 型 的 指 导 下, 数 据 集市和全局性 的数据仓库的建立 可同时进行。 2.1.4 OLAP 联 机 分 析处 理 技术 OLAPOn-Line Analysis Processing 联 机 分析 处 理 是 针 对特 定 问 题的 联 机数据访问和分析的技术,它使分析人员通过对信息的多 角度的观察 进 行 快 速 、12一致和交互的存取以获得对信息的深入理解 。 1993 年 /.d 提出 了有关 OLAP 的十二条 准则,对 OLAP 系统的 功能和13 特征作 出了详细的描述。OLAP 具有以下几个特点 : (1 ) 多 维 性 : 能

36、 提 供 数 据 的 多 维 概 念 视 图 , 数 据 的 多 维 视 图 使 最 终 用 户能从多 角度 、多侧 面、 多层次 地考 察数据 库中 的数据 ,从 而深入 地理 解包含在数据中的信息及其内涵。 (2 ) 快 速 性 : 能 快 速 响 应 用 户 的 分 析 请 求 ,OLAP 系 统 中 不 仅 能 进 行 开 放式存取,而且还提供高效的存取策略。 (3 ) 可分 析 性 : 能 提供 给 用 户强 大 的 统计 、分 析 、 报表 处 理 功能 。OLAP的多维分析就是指多维形式组织起来的数据切片、切块、旋转、下钻 、上翻等各种分析动作,使最终用户能从多角度、多侧面观察数

37、据。7 数据挖 掘技 术在 高校 科研 管理系 统中 的应 用研 究2.1.5 OLAP 的 基 本 概念 度 量 : 变 量 是 数 据 的 实 际 含 义 , 即 描 述 数 据 是 什 么 , 一 般 情 况 下 , 变 量 总是有一个数值度量标准指标,如数量的度量为“个”,总价的度量为 “元”或“万元”。 维: 维是人们观察数据 的特定角度。比如时间维、客户维、商品维以及供应商维。 层次: 维 还 可 以 存 在 细 节 程 度 不 同 的 多 个 描 述 方 面 , 即 维 的 层 次 。 如 ,日、月、年是时间维的层次。 成 员 : 维 的 一 个 取 值 称 为 该 维 的 一

38、个 维 成 员 。 如 “ 某 年 某 月 某 日 ” 是 时 间维的一个维成员。 多维数组: 一个多维数 组可以表示为(维 1 、维 2、 ?维 n,变量 1 、变量2? ,变量 m )。比如日用品销售数据是按时间、地区和产品组织起来 的三维立方体,加上变量“销售额”就组成了一个多维数组(地区、时间、产 品、销售额)。 数 据 单 位 ( 单 元 格 ) : 多维数组的取值称为数 据单位。如:数据单位(北京、2000 年 1 月、椅子 、10)表示:2000 年 1 月在北京地区销售了销售额为 10万元的 椅子。 粒 度 : 数 据 仓 库 中 数 据 综 合 程 度 高 低 的 一 个 度

39、 量 , 粒 度 越 小 , 细 节 程 度 越高,综合程度越低,回答查询的种类就越多,如数据仓库中数据维的 格式为:年、月、日、时,那么能实现像查询 2006 年 5 月 1 日 20 时的销售额是多少这样的查询。 2.1.6 OLAP 多 维 数 据分 析 (1 ) 切片Slice 和 切 块Dice : 它 是 指 在 一 部 分 维 上 选 定 值 后 , 关 心 度 量14数 据 在剩 余维 度 上的 分布 。如 果 剩余 的维 只有 两 个, 即选 定 多维 数组 维 1 ,维 2,?,维 n , 变量 中的两个维:i 维和 j 维,在这两个维上 设定某一区间或任意维成员,而将其余

40、的维 设定一个维成员,则得到的就是多维数组在 i 维和 j 维上的一个切片,表示 为: 维 i ,维 j ,变量 。如在多维数组 地 区 , 时 间 , 产8 数据挖 掘技 术在 高校 科研 管理系 统中 的应 用研 究品,销售额 中 选 定 时间 维 和 产 品 维 , 在 另 外一 维 : 地 区 维 , 选 取 一个 维 成 员 :北京,那么就得到了 多维数组 地 区 , 时 间 , 产 品 , 销 售 额 在 时 间 维 和 产 品 维上的一个切片 时间,产品,销售额 ,如果选定多维数组 维 1,维 2,? 维 n,变量 中的三个维或以上,则是切块。 (2 )钻取Drill :是变 换

41、 维的 层 次, 变 换分析 的 粒度 , 钻取 的 深度与 维 所15划 分 的 层 次 相 对 应 , 它 包 括 向 下 钻 取 和 向 上 钻 取 。 向 上 钻 取 是 指 自 动 生 成 汇总行的分析方法,向下钻取是通过对某一行汇总数值进行细分来分析数据。 (3 ) 旋转Rotate : 是 变 换 维 的 方 向 , 即 重 新 安 排 维 的 位 置 例 如 行 列 互换 。 2.2 数据 挖掘技术 2.2.1 数据 挖掘概 述 数据挖掘是一个多交叉 学科,包含了数据库、 人工智能、数理统计、 机器学习、可视 化 、 并 行 计 算 等 多 个 领 域 的 知 识 , 尤 其

42、是 数 据 库 、 机 器 学 习 和 统 计学三方面的知识,目前关于数据挖掘的概念还没有一个完整的定义。 以下为较普遍的描述:数据挖掘就是从大量的、不完全的、有噪声的、模糊的 、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的 信息和知16识的过程 。 2.2.2 数据 挖掘 的 功能 数据挖掘的任务有从大 量的数据中发现模式, 所谓模式是 关 于 数 据 集 合 的某种抽象的描述,根据数据挖掘的任务,数据挖掘主要分为以下几类: (1 ) 关 联 规 则 分 析 : 目 的 是 从 给 定 的 数 据 集 中 寻 找 发 现 频 繁 出 现 的 行 形 如 X-Y 项集模式

43、,其中 X 和 Y 是表示的是数据 库中的属性取值 ,意思为数据库中17满足 X 条件的也一定满足 Y 条件 。关联 规则分析目前已经被广泛的应用于商业金融等多个领域。 (2 ) 分 类 模 式 分 析 : 分 类 就 是 从 给 定 的 数 据 集 中 找 出 一 组 能 描 述 其 特 征 的 模18型,即 构 造 一个 分 类 模型 , 该模 型 能 够把数 据 记 录 映 射到 某 一 个给 定 的 类 别9 数据挖 掘技 术在 高校 科研 管理系 统中 的应 用研 究中去,从而达到数据预测的 目的,分类模型的表示形式有多种,主要 的方法有分类规则(If-Then) 、 决策树等。 (

44、3) 回归模 式分 析: 回归 模 型的 定 义与 分类 模型 相 似,它 们的 不同 之处 在 于分类模式 是应用于 预测 离 散 的 数 值 的预测 , 比 如 给 出 一 些 病 例 特 征 , 可 以 推 断 出该病人可能患有什么疾病;而回归模型则是应用于连续的数值 的 预 测 , 比 如 给出 公司某个人 的教育 背景 、工作 年限 , 可 以 判 定 这 个 人 的 年 薪 大 概 在 什 么 范围之 内,是在 3000 元以下,还是在 3000 到 5000 元之间,或是在 5000 元以上。 (4) 聚类模 式分 析: 聚类是 把一组 数据 按照 相似性 和差异 性归 成若 干

45、类别 。聚类分析用于从数据集中找到类似的数据并组成不同的组。 聚 类 算 法 通 过 检 测 数据判断 “隐藏 属性 ” , 将客户 数据库 分成 若干 相似 组 ,每组 包含 若干 相似客 户,19针 对 每 个 不 同 的组 制 定不 同 的 营 销 策 略 。 常用 的 聚 类 分 析 方法 有 k-means 算法,分层凝聚法等。 (5) 序列模 式分 析: 序列模 式与关 联规 则 相似 ,但 序列模 式分 析 的 侧重点 是在分析数据间的前后关系,它是将数据间的关联与时间联系起来。要寻 找发现序列模式,不但要知道该事件是否发生,而且需要知道该事件的发生事 件。比如在购买 电视的消费

46、者当中,70% 的人会在半年之 内购买 DVD 。 (6) 异类 分 析: 数据 库中经 常会出 现一 些不 符合分 类预测 或聚 类分 析所得 模型的数据,这些数据异常数据的检测非常有意义,它可以检测出一些商 业诈骗行为,比如当某个 信用卡 用户的购买频率与该用户平时的购买习惯不同 时, 可以发现可能出现的诈骗购买行为。 2.2.3 数据 挖掘的 步骤 数 据 挖 掘 一 般 需 要 经 历 以 下 几 个 阶 段 : 问 题 定 义 、 数 据 预 处 理 、 数 据 挖20掘,以及结果的解释和评估 。 (1) 问题定 义: 问题 定义目 标确定 是数 据挖 掘的一 个重要 阶段 。它 的

47、主要 任务是和用户进行有效沟通,确定实际工作中数据挖掘的内容,为以后的 工作奠定基础。 (2) 数据预 处理 :数 据预处 理 就是 要把 给定 的 数据 处理成 此次 数据 挖掘所 需 要10 数据挖 掘技 术在 高校 科研 管理系 统中 的应 用研 究的形式,它 包括数据清理、数据集成和数据转换 等处理手段。 (3) 数据挖 掘: 它是 数据挖 掘过程 中最 关键 的一步 ,在这 阶段 通常 选定某 个 适合于 此 次 数据 挖掘的 算 法 , 把 它应用 到 数 据 挖 掘 过 程 中 , 最 终 达 到 寻 找 出 隐含21的有用信息 的目的 。 (4)模式评估和知识表示:模式评估是根据一定评

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 建筑/施工/环境 > 项目建议


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号