数据仓库设计与实现.docx

上传人:小飞机 文档编号:5306166 上传时间:2023-06-24 格式:DOCX 页数:25 大小:239.38KB
返回 下载 相关 举报
数据仓库设计与实现.docx_第1页
第1页 / 共25页
数据仓库设计与实现.docx_第2页
第2页 / 共25页
数据仓库设计与实现.docx_第3页
第3页 / 共25页
数据仓库设计与实现.docx_第4页
第4页 / 共25页
数据仓库设计与实现.docx_第5页
第5页 / 共25页
亲,该文档总共25页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《数据仓库设计与实现.docx》由会员分享,可在线阅读,更多相关《数据仓库设计与实现.docx(25页珍藏版)》请在三一办公上搜索。

1、数据仓库的设计与实现第1章数据仓库的设计与实现1.1数据仓库设计过程数据仓库的设计一般从操作型数据开始,通常需要经过以下几个处理过程;数据仓 库设计数据抽取数据管理。一、数据仓库设计根据决策主题设计数据仓库结构,一般采用星型和雪花模型设计其数据模型,在设 计过程中应保证数据仓库的规范化和体系各元素的必要联系。二、数据抽取根据元数据库中的主题表定义、数据源定义、数据抽取规则定义对异地异构数据源 进行清理、转换、对数据进行重新组织和加工,装载到数据仓库的目标库中。三、数据管理数据管理分为目标数据维护和元数据维护两方面。目标数据维护是根据元数据为所 定义的更新频率、更新数据项等更新计划任务来刷新数据

2、仓库,以反映数据源的变化, 且对时间相关性进行处理。元数据是数据仓库的组成部分,元数据的质量决定整个数据 仓库的质量。当数据源的运行环境、结构及目标数据的维护计划发生变化时,需要修改 元数据。1.2需求分析与决策主题的选取通过对管理者和各级别的用户的数据分析需求进行调研,我们收集并整理出了用户 的决策分析需求如下:1.2.1博士学位授予信息年度数据统计分析一、按主管部门统计从主管部门的角度,分析在一个时间段(年)内,各主管部门所授予的博士学位信 息统计。可回答如“2008,由某部门主管的,博士学位授予一共有多少,其平均学习年 限是多少,脱产学习的有多少人?”等问题。具有表格和图形两种方式来展示

3、分析结果。 典型报表格式如表1所示。表1 200_年度授予博士学位情况统计表(按主管部门统计)主管部门授数其中学历博士其中同等学历博士其中平均年龄少数民族平均学习年限其中一级学科授予在学期间成果论文成果专利合计中国科学院财政部,表1续200_年度授予博士学位情况统计表(按主管部门统计)学习方式录取类别就业单位类别脱产半脱产业余定 向非定 向机关科研、设计单位金融单位部队待就业录取研 究 生其他二、按性质类别统计三、按地区统计四、按单位统计五、按学科门类统计六、按一级学科统计七、按二级学科统计1.2.2硕士学位授予信息年度数据统计分析一、按主管部门统计二、按性质类别统计三、按地区统计四、按单位统

4、计五、按学科门类统计六、按一级学科统计七、按二级学科统计1.2.3学士学位授予信息年度数据统计分析一、按主管部门统计二、按性质类别统计三、按地区统计 四、按单位统计五、按学科门类统计六、按学科类别统计七、按专业统计1.3系统体系结构设计通过对当前各种主流数据仓库软件在性能、价格等方面的对比,充分考虑统计业务、 单位数量等实际情况,本系统决定采用SQL Server 2005数据仓库软件来构建综合信息 分析系统的数据仓库。本系统服务器端要求运行平台为Windows 2003 Server企业版,客户端要求Windows XP,浏览器为IE6.0;采用SQL Server 2005数据仓库构建方案

5、构建数据仓库,选用Visual Studio.NET2003/SQL Server2005、Rose、Power Designer 等开发工具进行系统开发。我们设计的综合信息分析系统构架在统计综合信息平台中,其核心功能表现为通过 数据转换技术,将直报数据库及其他数据源的数据库生成利于进行分析的、不同于关系 数据库的数据仓库,根据不同的分析需求建立不同的专题分析数据库(多维数据库), 最后对多维数据库进行利用联机分析处理、数据挖掘,其架构如图所示。服务JOLAP服务器OLAP服务器数据源操作型数据止他数据图1学位授予信息统计系统架构在这个体系结构中,存放于系统数据库中的业务数据及外部数据源数据按

6、照主题通 过ETL工具被抽取到ETL数据库(数据准备区),数据在ETL数据库中完成预处理工 作(清洗和转换),再通过ETL工具加载到数据仓库。数据进入数据仓库后按照维度和 事实存放,采用MS Analysis Services作为OLAP服务器,Analysis Services可以方便的 定义维度和构建OLAP立方体。用户使用前端的查询工具、报表工具、分析工具,就可 以访问决策支持系统并分析浏览数据了。由于数据预处理本身的复杂性,直接从外部数据源把数据整合到数据仓库必将导致 该过程即占用许多外部操作型数据库的资源和时间,也会影响数据仓库装载数据的效 率。借鉴算法研究中“以空间换时间”的思想,

7、再结合目前硬件成本的下降,本系统中, 我们在数据仓库的体系结构中添加一个专门进行数据预处理的存储区域以提高数据仓 库系统整体性能。在系统设计中,应注意以下问题:一、理顺学位授予信息之间的关系以及业务数据是保证数据质量的关键,抽取信息 的质量依赖于用户对结果的解释,容易导致错误。二、针对不完整的数据、不一致的数据、错误的数据以及冗余数据确定数据处理规 则,即ETL实施的具体规则。三、系统监控与数据管理包括维表的维护、增量数据抽取转换等的控制、系统出错 报警、异常处理、数据存储及访问的安全性、海量数据的查询效率、数据各份策略等。四、模型设计是系统的基础和成败的关键,在实际操作的过程中,要注意的问题

8、包 括主题的确定、分析内容的细化、粒度的设计等。1.4系统数据逻辑结构设计1.4.1基础层模型设计基础层数据用于存放从学历教育博士学位、同等学力人员申请博士学位、博士专业 学位、学历教育硕士学位、同等学力人员申请硕士学位、硕士专业学位、普通高等教育 本科毕业生学士学位、成人高等教育本科毕业生学士学位、来华留学本科毕业生学士学 位、学士专业学位等数据源ETL过来的数据,这些业务数据将进行整合、组织、重构 和存放。根据学位银行授予统计系统需求,基础层模型包含博士学位信息主题域、硕士 学位信息主题域、学士学位信息主题域。博士学位授予信息是指主题域存放所授予的博士学位信息,分为学历教育博士学 位、同等

9、学力人员申请博士学位、博士专业学位。主要的信息有:个人基本信息、学科 信息、学位信息、学位论文信息、前置学位信息、获学位后去向信息等。个人基本信息姓名姓名拼音性别码国家或地区码民族码政治面貌码出生日期身份证件类型码身份证件号码学历教育博士学位授予信息个人基本信息学科信息学位信息学位论文信息前置学位信息 获学位后去向信息 其他信息其他信息照片文件名称 备注获学位后去向信息去向码就业单位性质类别码 就业单位省市码 工作性质码学位论文信息论文题目论文关键词论文类型码论文选题来源码刖置学位信息前置学位码前置学位一级学科码获前置学位年月前置学位授予单位码学位信息考生号学号入学年月毕业年月学习方式码导师姓

10、名 学位证书编号 获学位日期 攻读类型码学科信息学位授予单位码学位授予单位校长(院长、所长)姓名学位评定委员会主席姓名学位类别码是否按一级学科授予专业代码自设专业代码图2学历教育博士学位授予信息基础层模型硕士学位授予信息是指主题域存放所授予的硕士学位信息,分为学历教育硕士学 位、同等学力人员申请硕士学位、硕士专业学位。主要的信息有:个人基本信息、学科 信息、学位信息、学位论文信息、前置学位信息、获学位后去向信息等。学士学位授予信息是指主题域存放所授予的学士学位信息,分为普通高等教育本科 毕业生学士学位、成人高等教育本科毕业生学士学位、来华留学本科毕业生学士学位、学士专业学位。主要的信息有:个人

11、基本信息、学科信息、学位信息等。1.4.2汇总层模型设计汇总层模型的设计需要考虑汇总的粒度问题,汇总的粒度不同,能够回答的业务问 题也不一样,由于系统数据庞大繁杂,学位授予时间相对比较固定,本模型将汇总层模 型设计为年。该层的设计主要考虑数据向年度级别的汇总,解答如某年某主管单位所授予的博士 学位人数等业务问题。根据博士学位信息授予主题的需求分析,即分析的角度(也叫维 度)、指标、查询的内容,以博士学位信息授予主题为例,其汇总层的数据模型如图所 示。授予学历教育博士学位情况统计表(按主管部门统计)PK主管部门其中学历博士其中同等学历博士其中专业学位博士其中女授予博士学位情况统计表(按主管部门统

12、计)列1平均年龄少数民族平均学习年限其中一级学科授予在学期间成果(论文)期间成果(成果)期间成果(专利)学习方式(脱产)学习方式(半脱产)学习方式(业余)录取类别(定向)录取类别(非定向)就业单位类别(机关)就业单位类别(科研、设计单位)就业单位类别(金融单位)就业单位类别(部队)就业单位类别(待就业)就业单位类别(录取研究生)就业单位类别(其他)学历教育博士学位授予信息FK1个人基本信息学科信息学位信息学位论文信息前置学位信息 获学位后去向信息 其他信息 主管部门图3学历教育博士学位授予信息汇总层模型1.4.3报表层模型设计报表层数据是用于存放学位授予信息统计系统中固定报表统计数据,同时也是

13、灵活 查询的数据源。这些数据是根据报表业务规则,从基础层和汇总层统计而出,本模型主 要包括内容有:授予博士学位信息统计表、授予硕士学位信息统计表、授予学士学位信息统计表。以博士学位信息统计主题为例,其博士学位信息报表层的数据模型如图所示。授予博士学位情况统计表(按主管部门统计)PK主管部门其中学历博士其中同等学历博士其中专业学位博士其中女授予博士学位情况统计表(按主管部门统计)列1平均年龄少数民族平均学习年限其中一级学科授予在学期间成果(论文)期间成果(成果)期间成果(专利)学习方式(脱产)学习方式(半脱产)学习方式(业余)录取类别(定向)录取类别(非定向)就业单位类别(机关)就业单位类别(科

14、研、设计单位)就业单位类别(金融单位)就业单位类别(部队)就业单位类别(待就业)就业单位类别(录取研究生)就业单位类别(其他)学历教育博士学位汇总(按主管部门统计)FK1主管部门同等学力人员申请博士学位(按主管部门统计)FK1主管部门博士专业学位汇总(按主管部门统计)FK1主管部门图4学历教育博士学位授予信息(按主管部门统计)报表层模型1.5数据仓库模型设计为满足决策分析的需要,系统需要将各种数据源来的数据围绕决策主题存储到数据 仓库中,以提高数据查询、聚集的效率。数据仓库建模采用自上而下的三级建模方式, 即概念建模、逻辑建模、物理建模。概念建模可采用信息打包法,逻辑建模以星型建模 方法和雪花

15、建模方法为主,物理建模以3NF和星型建模方式为主。图5数据仓库建模方法在数据仓库的3级数据模型中,概念模型表示现实世界的“业务信息”构成关系, 用业务数据库设计中的“实体一关系”方法(E-R方法)来设计这一级的数据模型,但 需要用分析主题代替传统E-R方法中的实体。在传统业务数据库设计中的逻辑模型一般 采用范式规范的表及其关系,数据仓库设计中的逻辑模型也采用表来存储数据,因此也 数据仓库中使用的也是关系模型,不过表与表之间不再通过3大范式的规范,而是以星 形结构、雪花形结构和星座型结构等方式组成。物理模型则属于这些表的物理存储结构, 比如表的索引设计等。数据仓库的设计就是在概念模型、逻辑模型和

16、物理模型的依次转 换过程中实现的。作为数据仓库的灵魂一一元数据模型则自始至终伴随着数据仓库的开 发、实施与使用。数据粒度和聚合模型也在数据仓库的创建中发挥着指导的作用,指导 着数据仓库的具体实现。图4表达了微观数据仓库设计中各种概念之间的关系。元数据据模型数据粒度和维度模型图6微观数据仓库设计中各种概念之间的关系在上图的关系图中,元数据是在对企业商业智能需求分析和概念模型设计阶段就应 该设计好并且一直贯穿于数据仓库应用全程的重要部分,而数据粒度和聚合的设计则是 在逻辑模型的设计过程中完成的,物理模型则需要做一些存储优化方面的工作。具体而 言,这三级数据模型设计的每一个阶段都有相应的详细设计步骤

17、,图5即是对这些步骤的一个总结。图7数据仓库数据库设计的步骤数据仓库包括以下维度表:人的性别代码、世界各国和地区名称代码、中国各民族 名称罗马字母拼写法和代码、政治面貌代码、身份证件类型代码、中华人民共和国行政 区划(省市)代码、高等学校代码、学位类别代码、授予博士、硕士学位和培养研究生 的学科、专业目录、学习方式代码、攻读类型代码、论文类型代码、论文选题来源代码、 学位类别代码、专业目录、获学位后去向代码、工作单位性质类别代码、工作性质代码、 工作单位性质类别代码、专业技术职务级别代码、干部职务级别代码、专业学位领域代 码、考试方式代码、以研究生毕业同等学力申请硕士学位学生类别代码、高等学校

18、本、 专科专业代码、留学生培养方式代码;包括以下事实表:学历教育博士学位信息表、同等学力人员申请博士学位信息表、 博士专业学位信息表;学历教育硕士学位信息表、同等学力人员申请硕士学位信息表、 硕士专业学位、普通高等教育本科毕业生学士学位信息表、成人高等教育本科毕业生学 士学位信息表、来华留学本科毕业生学士学位信息表、学士专业学位信息表。1.5.1概念模型设计概念建模主要表达决策的主题、分析主题的角度、各个角度需要分析的属性信息, 决策中层次的信息一粒度,及决策主题的评估等。1997年Hammergren提出的信息打包方法,要求从一个决策者的角度去将焦点集中 在几个主题上,着重分析所涉及的数据多

19、维性。信息打包方法首先需要确定分析的主题, 然后围绕这个主题填入指标、维度、粒度等信息。1. 定义关键性指标:定义分析主题的评估指标;2. 定义维度:维度是用户访问评估信息的途径,每一个维度只表示一个主要的访问 途径。3. 定义粒度:粒度是维度中信息的详细程度。我们分析对象为对学位授予信息的统计分析。下面以博士学位授予信息统计作为分 析主题为例,为学位信息分析系统数据仓库建立概念模型。一、博士学位授予信息统计从主管部门、性质类别、地区、单位、学科门类、一级学科、二级学科等不同角度, 对授予人数、平均年龄、少数民族、平均学习年限、其中一级学科授予、学习方式、录 取类别、就业单位类别等进行分析,分

20、析在指定变化周期内的统计数据。其博士学位授 予信息统计如表所示。表2博士学位授予信息统计分析对象博士学位授予信息统计分析度里(内容)授予人数 其中学历博士 其中同等学历博士其中专业学位博士其中 女平均年龄 少数民族 平均学习年限其中级学科授予在学期间 成果学习方式 录取类别 就业单位类别分 析 角 度名称公共 维博士学位信息维学位类型年度主管 性质 地区 单位 学科一级 二级部门 类别门类 学科 学科博士学位二、硕士学位授予信息统计从主管部门、性质类别、地区、单位、学科门类、一级学科、二级学科等不同角度, 对授予人数、平均年龄、少数民族、平均学习年限、其中一级学科授予、学习方式、录 取类别、就

21、业单位类别等进行分析,分析在指定变化周期内的统计数据。其硕士学位授 予信息统计如表所示。表3硕士学位授予信息统计分析对 象硕士学位授予信息统计分析度 量授予人数其中学历硕士 其中同等学历硕士其中专业学位硕士其中学校教师专业学位其中女平均年龄少数民族平均学习年限 其中一(内容)级学科授予在学期间成果学习方式录W取类别就业单位类别分析名 称公共 维硕士学位信息维学位类型角度年度主管部门性质类别地区单位学科门类一级学科二级学科硕士学位三、学士学位授予信息统计从主管部门、性质类别、地区、单位、学科门类、专业等不同角度,对授予人数、 平均年龄、少数民族、平均学习年限、其中一级学科授予、学习方式、录取类别

22、、就业 单位类别等进行分析,分析在指定变化周期内的统计数据。其硕士学位授予信息统计如 表所示。表4学士学位授予信息统计分析对 象学士学位授予信息统计分析度量(内容)授予人数其中女平均年龄 少数民族 就业单位类别分 析 角 度名 称公共 维学士学位信息维学位类型年度主管 性质 地区 单位 学科 学科 专业部门门类 类别学士学位1.5.2逻辑模型设计概念逻辑建模中将分析模型描述成一个可以实现的模式,根据这个模式可以实现存 储到实际的数据存储器里。星型模型比较适合数据仓库的要求,在星型模型的基础上扩 展出雪花模型。1、星型模型星型模型中使用事实、维、维属性、事实度量来描述。星型模型以事实为中心,各

23、个维为角的星型结构,事实使用度量来评估,维中使用属性来描述维中的类别信息和描 述信息。2、雪花模型雪花模型是在星型模型的基础上增加了粒度层次的描述。根据以上对星型模型中维 属性的分析可知,同一种星型模型可以转化成不同的雪花模型,转的根据是属性层次的 确定。不同的属性层次结构可以展现成不同的雪花图。3、逻辑模型中聚集操作的需求和表示为加快分析速度,可以将分析频繁的层次预先进行聚集操作,即将信息按照属性粒 度层次来进行聚集,当需要进一步分析时再到原有的基本信息中进行搜索。本系统采用的是星型模型。1.5.3物理模型设计物理建模就是将逻辑模型转换成实际存储的模型。对于数据仓库来讲,实际存储的 模式一般

24、包括两种:关系模型和多维模型。多维模型按照多维来存储数据可以提供很快 的查询速度,但是在大容量的情况下性能会下降,主要是多维存储需要大量的存储空间, 而且在多维存储框架中索引不是很好建立。所以多维存储结构一般应用在数据量不是很 大的,保存聚集数据的数据集市和OLAP服务器中。数据仓库一般需要保存基本粒度的 数据,所以一般采用关系模型。现在不同的关系数据库厂家都对数据仓库存储进行了优 化,提供了一些对数据仓库比较有效的索引技术和连接技术。一、物理建模的要求数据仓库中保存了分析需要的海量数据,分析时主要是在大量的数据中查询所需要 的部分。所以物理模型中如何才能提供更快的查询速度是设计的关键。数据仓

25、库提高查 询速度的方法有几种:索引技术:数据库中索引可以加快表中信息检索速度,但是以牺牲空间和索引维护 时间为代价的。多维数据库中索引的建立比较复杂,但多维数据库本身就是为了检索而 建立的一种存储模型,所以多维数据库中索引技术不是很重要。关系数据仓库中由于事 实表中保存的数据数量非常大,如果使用一般的索引(B树)的话,需要很大的存储空 间。所以数据仓库中一般使用位图索引技术来减少存储空间。减少表连接操作:在关系数据仓库不可避免的需要对维表和事实表进行连接,关系 数据库中表的连接需要很多的资源,使查询性能下降。所以对关系数据仓库的模型设计 中表连接越少越好。预聚集技术:由于决策分析的需要按维中的

26、属性层次来分析主题,不可避免的需要 对评估数据按维属性粒度层次进行聚集。如果数据量大,而且聚集数据使用的频率很高 的话,通过预先聚集这些数据可以加快分析速度。分割技术:决策中不一定需要所有的数据,有一部分数据是一些休眠数据,一般不 会使用到它们,分析时如果在整个数据集上处理的话需要花很多时间,如果只对那些需 要分析的数据进行分析可以加快分析的速度。数据仓库建模工作完成之后,就可以使用数据仓库建模工作将各维表及事实表,生 成到数据仓库中了。学位授予信息系统数据仓库的物理建模相应的物理表和各个维度及公共维度的设 计表(部分表)1.6数据预处理过程模型设计建立数据仓库不仅仅要考虑到联机分析(OLAP

27、)的需要,更重要的是要考虑到数 据挖掘的需要。由于数据仓库中的数据量可能以几何级数迅速增长,这就导致数据仓库 中常常包含许多含有噪声、不完整、甚至不一致的数据,这严重影响数据处理的效率和 效果,影响决策者的决策。目前数据挖掘的研究主要着眼于数据挖掘算法的探讨,而忽 视了对数据预处理的研究。但事实上,数据挖掘中的预处理工作量常常占到整个数据挖 掘工作量的60%左右,可见数据预处理工作是相当基础和重要的步骤。在本系统的构建 中,采用了如下数据预处理策略。1.6.1系统ETL结构设计本系统数据分为业务基础数据模型层、汇总数据模型层、报表层和参数层。如图所 示。基础层数据模型按各角度汇总按年度汇总汇总

28、层数据模型/按学位类2汇总/参数层A-V报表层图8ETL数据架构设计一、临时数据区存放从ODS抽取过来的数据,结构保持与ODS模型一致,不保存 历史。二、业务基础数据模型层,存放从ECIF、CCBS和CLPM系统抽取过来的业务数 据,以向汇总层和报表层提供明细数据。三、汇总数据模型层针对应用需求对数据进行各类汇总。四、报表层存放按报表展现需求汇总的数据。五、参数层存放系统中代码字典及参数信息。1.6.2将数据预处理集成在数据仓库构建过程中基于数据仓库的数据挖掘一般的步骤是:建立数据仓库一进行数据预处理一数据挖 掘。实际上,数据预处理完全可以在构建数据仓库的同时进行。可以将数据预处理融人 数据仓

29、库的构建过程中,并将数据仓库的构建作为数据挖掘的一个重要预处理步骤,将 两者有机结合起来。下图说明了基于数据仓库的数据预处理过程模型。原始数据数据预姓理过程I埋阶段数糖壑市致据食库I 睑段I 一 阶段敷据挖掘训练集图9数据预处理过程模型基于数据仓库的数据预处理过程模型中的主线是数据的流动,即原始数据一数据集 市一数据仓库一数据挖掘训练集。在主线的两边是同时进行的两个不同的过程:数据仓 库构建过程和数据预处理过程。整个过程可以分成三个阶段,清理阶段将原始数据按业 务功能进行汇总,形成部门级的数据集市。在此过程中需要处理一些原始数据中存在的 问题,如空缺值、噪声数据干扰等。集成阶段将不同部门的数据

30、集市按主题进行归并集 成,形成企业级的数据仓库。数据集成时,由于各个数据集市存放数据的角度不同,因 此在进人数据仓库系统中有可能会产生冗余,并且由于它们在数据结构、代码和定义方 面的不一致性也会造成数据存在二义性等问题。因此,数据集成到数据仓库之后仍需要 进行去除冗余、解决不一致性等工作。归约阶段实际上超出了构建数据仓库的范畴,它 是为其后的数据挖掘做数据准备工作,主要是对原始数据在保留其“本质”的情况下进 行压缩、变换,使之成为易于进行数据挖掘的数据集。1.6.3数据仓库体系结构的改进方法传统的数据仓库体系结构如下图所示。基于这种体系结构构建数据仓库时,外部数 据源通过ETL工具的处理直接加

31、载到数据仓库中,这种处理方式存在一些不足之处:一、由于数据预处理本身的复杂性,直接整合必将导致该过程即占用许多外部操作 型数据库的资源和时间,也会影响数据仓库装载数据的效率。二、在数据源中通过抽取、清理、转换后,向数据仓库进行传输时如发生系统故障 或网络故障,就只能全部重做整个数据预处理过程,极大的浪费了资源和时间。外部数据海散据挖掘工具图10传统的数据仓库体系结构ew分析工具考虑到算法研究中“以空间换时间”的思想,再结合目前硬件成本的下降,我们可 以在数据仓库的体系结构中添加一个专门进行数据预处理的存储区域以改进数据仓库 系统整体性能,改进后的数据仓库体系结构如图所示。图改进的数据仓库体系始

32、构图11改进的数据仓库体系结构在改进的数据仓库体系结构中,数据缓冲区是为了数据预处理高效顺利进行而引入 的阶段性数据存储区域,它是外部数据源进入数据仓库前的缓冲区。数据仓库主题所需 要的各个外部数据系统的数据首先直接快速导入数据缓存区,然后再从数据缓存区经过 数据清理、映射和转换等复杂的数据预处理操作加载到数据仓库中。通过引入数据缓存 区,我们就把复杂的数据预处理过程分解为两个阶段数据源一数据缓存区数据仓库。 这样一来,我们在第一阶段的数据传输过程中,就可以避免复杂的数据处理,只是简单 地针对主题所需进行数据抽取,从而保证数据的快速导入,并且可以大大减小对外部操 作型数据系统的压力。1.7学位

33、授予信息分析应用系统的实现1.7.1平台选择一、.Net Framework应用平台和数据仓库开发共享一套相似的技术组件,如:业务系统源数据;设计/ 开发工具;数据析取和转换工具;数据库管理系统(DBMS);数据存取和分析工具; 系统管理工具等等。Microsoft.Net Framework中的数据仓库框架部分描述了在组装、使用和管理数据仓 库中用到的多种组件之间的关系。数据仓库框架的核心由两种技术构成:集成的元数据 库和数据传输层(OLEDB)。这些技术使得在数据仓库中涉及到的产品和组件的互用性 成为可能。OLE DB对多种数据提供了标准化的、高性能的访问,并允许集成多种数据类型。 Mic

34、rosoft Repository提供了综合的元数据库,这些元数据库可以在数据仓库中由多种组 件共享,共享的元数据允许为多种供货商提供的多种产品进行透明的集成,而无需在产 品之间设置特殊的接口。Microsoft.Net Framework从底层向上设计,为微软产品用户和第三方企业提供行业 标准技术,能很容易地扩展成开放式体系结构。这就使企业能选择同类中最好的组件并 仍能确保集成。二、Analysis ServicesMicrosoft SQL Server Analysis Services是用于联机分析处理(OLAP)和数据挖掘的 中层服务器。Analysis Services系统包括一个

35、服务器,可以构造用于分析的数据多维数 据集,同时Analysis Services系统还提供对多维数据集信息的快速客户端访问。Analysis Services将数据仓库中的数据组织成包含预先计算聚合数据的多维数据集,以便为复杂 的分析查询提供快速解答。1.7.2创建数据仓库当数据仓库完成物理模型设计以后,就需要进行数据仓库的物理创建。此时,需要 完成这样一些工作:创建数据准备区、创建数据仓库、从业务系统提取数据、清理和转 换数据、将数据加载进入数据仓库。在创建了数据仓库后,用SQL查询、OLAP应用、 数据挖掘等工具对数据仓库进行操作和访问。用户企业现行业务处理系统的数据大部分 存储在SQL

36、 Server数据库中,这也为我们选用SQL Server数据仓库开发应用工具提供 了便利。学位信息授予统计系统构建于现有业务系统的数据基础之上,通过对大量数据进行 抽取、清洗、转换、整理,将这些历史数据按照决策者的意图从不同角度(维度)层层 展现开来,以达到经营分析决策的最终目的。建立起数据仓库,就能对所存储的多维数 据开展OLAP分析和数据挖掘工作,得到所需要的分析结果。按照实施的层次从总体上 规划应用是以整合的数据为基础,提供了多维分析,专题分析和固定报表,具体应用功 能列表如下表。一、数据库的创建用PowerDesigner分别设计数据准备区数据库、数据仓库数据库的概念模型(CDM),

37、 对CDM进行模型检查并采用模型的内部生成方法建立物理数据模型(.PDM),对PDM 进行详细设计并进行模型检查后,生成数据准备区数据库和数据仓库数据库。二、数据ETL的实现在完成数据仓库的设计以后,需要将业务系统中的数据加载进数据仓库。首先用 SQLServer的数据复制工具(DTS),从业务系统中拷贝业务数据到数据准备区数据库。 对数据准备区中的数据进行清理、转换工作,并用DTS将处理过的数据加载到数据仓 库数据库中。表5学位授予统计系统功能描述分析主题分析角度分析描述博士学位授按主管部门统计、按性质各角度统计授予人数、其中学历博士、其中同予信息统计类别统计、按地区统计、等学历博士、其中专

38、业学位博士、平均年龄、按单位统计、按学科门类少数民族、平均学习年限、其中 级学科授予统计、按一级学科统计、在学期间成果、学习方式、录取类别、就按二级学科统计业单位类别等。硕士学位授按主管部门统计、按性质各角度统计授予人数、其中学历硕士、其中同予信息统计类别统计、按地区统计、等学历硕士、其中专业学位硕士、平均年龄、按单位统计、按学科门类少数民族、平均学习年限、其中 级学科授予统计、按一级学科统计、在学期间成果、学习方式、录取类别、就按二级学科统计业单位类别等。学士学位授予信息统计按主管部门统计、按性质 各角度统计授予人数、平均年龄、少数民族、类别统计、按地区统计、 就业单位类别等。按单位统计、按学科门类统计、按学科类别统计、按专业统计1.8本章小结本章在对学位授予信息统计系统分析决策需求、现有的信息系统环境、数据源的数 据结构等进行充分调研的基础上,构建了学位授予信息系统数据仓库体系结构,进行了 数据仓库模型设计,数据预处理过程模型设计,并采用SQL Server提供的Analysis Services实现了库存决策联机分析。附录A学位授予信息系统数据仓库的物理建模相应的物理表和各个维度及公共维度的设计表 (部分表)原文地址:伯乐论文网

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号