《SQL-Server-中数据仓库的创建课件.pptx》由会员分享,可在线阅读,更多相关《SQL-Server-中数据仓库的创建课件.pptx(43页珍藏版)》请在三一办公上搜索。
1、理论与技术基础实验目的实验要求实验设备及软件实验内容实验步骤实验思考题,SQL Server 中数据仓库的创建,理论与技术基础,(1)数据仓库的概念著名的数据库专家Bill Inmon 认为数据仓库就是面向主题的(subject-oriented)、集成的(integrated)、非易失的(non-volatile)和时变的(time-variant)的数据集合,用以支持管理决策。对于这个概念我们可以从两个层次予以理解:首先,数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的事务型数据库;其次,数据仓库是对多个异构数据源的有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在
2、数据仓库中的数据一般不再修改。,理论与技术基础,(2)数据集市数据集市是为了特定应用目的或应用范围而从数据仓库中独立出来的一部分数据,也可称为部门数据或主题数据。在数据仓库的实施过程中往往可以从一个部门的数据集市入手,以后再用几个数据集市组成一个完整的数据仓库。需要注意的就是在实施不同的数据集市时,同一含义的字段定义一定要相容。,理论与技术基础,(3)元数据元数据与电话黄页的作用相似,是数据仓库内容的一个字典。它是描述数据仓库内数据的结构和建立方法的数据。数据仓库中的元数据主要分为事务型元数据、抽取盒转换元数据和最终用户数据。,理论与技术基础,(4)ETL数据仓库并非只是数据的简单累积,而是要
3、经过一系列的抽取、转换和装载的过程,即ETL。ETL是构建数据仓库的重要环节,也是企业数据管理的核心,对数据仓库的后续环节影响比较大。目前市场上主流的ETL工具主要有Informatica的PowerCenter、IBM的Data Stage、Oracle的Warehouse Builder以及Microsoft的SQL Server IS等。ETL的主要功能包括数据抽取、数据转换、数据清洗和数据装载。,理论与技术基础,(5)数据仓库模型模型是对现实事物的反映和抽象,它可以帮助我们更加清晰地了解客观世界。数据仓库建模在业务分析之后开始,是数据仓库构造工作正式开始的第一步。正确而完备的数据模型是
4、用户业务需求的体现,是数据仓库项目成功与否的最重要的技术因素。数据建模有三层:概念、逻辑和物理。在数据仓库的设计中,数据建模的每一层都有自己的目的。,理论与技术基础,(6)数据仓库的实现步骤数据仓库不是直接买来就能使用的产品,它是一种方案或过程,是建立在用户提供的大量数据、硬件环境和数据库管理系统上的,需要分析工具的辅助支持。数据仓库的构建通常包括以下步骤:,理论与技术基础,建立企业模型要实现体系结构的变迁,首先要了解企业需要什么数据、已经具备了哪些数据、哪些数据是和需求相关的,最大程度地利用现有系统中的数据。建立企业模型一般采用ER模型或面向对象的分析方法。,理论与技术基础,选取主题企业模型
5、建立后,可以根据企业模型和用户需求确定系统中存在的主题。一个复杂的大型数据仓库系统通常包含有多个主题。在主题选定后,需要针对这些主题拟定一个尽可能详尽的需求说明,然后逐个主题进行实施,它是知识螺旋式开发思想在具体实现中的体现。根据选定的主题,在企业模型中划分出各个主题的边界,从而确定各个主题涉及的操作系统中的表。,理论与技术基础,逻辑模型设计确定了主题域,接下来进行系统逻辑模型的设计,包括确定数据的粒度层次、数据分割策略、定义关系模式记录系统等任务,在数据库数据表的基础上设计数据仓库的表结构。物理设计在数据仓库的物理模型设计中主要解决数据的存储结构、索引策略、存储策略、存储分配优化等问题。,理
6、论与技术基础,数据装载接口的设计在完成数据仓库概念、逻辑、物理设计后,接下来一个需要设计的是数据装载接口的设计。数据装载程序实际包括数据装载功能(数据清洗、转换和集成)、数据综合功能(将集成的细节数据转化成不同综合层次的数据)。,理论与技术基础,装载检验数据在进行了上述步骤的设计后,一个初步的数据仓库已经设计完成。接下来装载一个主题的数据进行数据校验以进行数据质量评估,确保数据的可靠性。OLAP模型设计和应用通常,需要对阶段任务中涉及的维度进行一个总体的分析,然后针对每一个需要进行OLAP展现的主题确定其维度和度量事实,最终为每一个主题建立一个OLAP模型。并在此模型上进行必要的OLAP操作,
7、做数据分析。,理论与技术基础,数据挖掘在数据挖掘层面上,首先要为数据挖掘准备足够的数据,根据需求选择算法建立挖掘模型。数据挖掘需要的数据可以来自数据仓库,也可以由于需求的需要而来自其他地方。前端数据展示系统设计 重复前面过程在完成初级阶段的工作后,需要和客户进行更深入的交流。根据最终用户的需求,将现有业务系统的缺陷和不足进行调整和修改,从而为上层数据仓库系统的发展做更好的数据准备。,实验目的,1理解数据库与数据仓库之间的区别与联系;2掌握典型的关系型数据库及其数据仓库系统的工作原理以及应用方法;3掌握数据仓库建立的基本方法及其相关工具的使用。,实验要求,利用实验室和指导教师提供的实验软件,认真
8、完成规定的实验项目,真实地记录实验中遇到的各种问题和解决的方法与过程,并绘出模拟实验案例的数据仓库模型。实验完成后,应根据实验情况写出实验报告。,实验设备及软件,基于NT的局域网络,服务器与客户端安装MS SQL Server 服务系统以及Analysis Services系统。,实验内容,以SQL Server为系统平台,设计、建立数据库,并以此为基础创建数据仓库。,实验步骤,1.启动SQL Server 服务启动SQL Server实例时即启动了SQL Server服务。启动SQL Server服务之后,用户便可与服务器建立新连接。SQL Server服务可在本地或远程作为 Microso
9、ft Windows NT 4.0 或 Windows 2000 服务启动和停止。SQL Server服务若是默认实例,则被称为MSSQLServer;若是命名实例,则被称为 MSSQL$instancename。,实验步骤,2.注册服务器 右击一个服务器或服务器组,然后单击新建 SQL Server 注册命令。在服务器框中,键入服务器名。若要指定 SQL Server 企业管理器(作为客户端)与运行正在注册的 Microsoft SQL Server 实例的服务器之间的连接,请执行下列操作之一:单击“使用 Windows 身份验证”-或-单击“使用 SQL Server 身份验证”。,实验步
10、骤,在服务器组列表中,单击一个服务器组。执行下列一个或多个操作:选择在控制台中显示 SQL Server 服务器的状态复选框。选择显示系统数据库和系统对象复选框。选择在连接时自动启动 SQL Server复选框。重复步骤 1 到 5,在SQL Server 企业管理器中注册每个服务器。,实验步骤,3.设计表设计数据库时,应先确定需要什么样的表,各表中都有哪些数据以及各个表的存取权限等等。在创建和操作表的过程中,将对表进行更为细致的设计。设计时应注意:表所包含的数据的类型;表的各列及每一列的数据类型(如果必要,还应注意列宽);哪些列允许空值;是否要使用以及何时使用约束、默认设置或规则;所需索引的
11、类型,哪里需要索引,哪些列是主键,哪些是外键。,实验步骤,4.修改表表创建之后可以修改许多已定义的选项,包括:添加、修改、删除列。例如,列的名称、长度、数据类型、精度、小数位数以及为空性均可进行修改,不过有一些限制而已。注意:可添加或删除 PRIMARY KEY 和 FOREIGN KEY 约束;可添加或删除 UNIQUE 和 CHECK 约束及 DEFAULT 定义(对象);可使用 IDENTITY 或 ROWGUIDCOL 属性添加或删除标识符列;虽然 ROWGUIDCOL 属性也可添加至现有列或从现有列删除,但是任何时候在表中只能有一列可具有该属性;表及表中所选定的列已注册为全文索引。,
12、实验步骤,5建立系统数据源连接 Microsoft Windows NT 4.0 用户:单击“开始”按钮,指向“设置”,单击“控制面板”,然后双击“数据源(ODBC)”。Windows 2000 用户:单击“开始”按钮,指向“设置”,单击“控制面板”,然后双击“管理工具”,再双击“数据源(ODBC)”。在“系统 DSN”选项卡上单击“添加”按钮。选择“Microsoft Access 驱动程序(*.mdb)”,然后单击“完成”按钮。在“数据源名”框中,输入“教程”,然后在“数据库”下,单击“选择”。在“选择数据库”对话框中,浏览到“C:Program FilesMicrosoft Analys
13、is ServicesSamples”,然后单击“FoodMart 2000.mdb”。单击“确定”按钮。,实验步骤,6建立数据库和数据源 如何建立数据库结构 在 Analysis Manager 树视图中展开“Analysis Servers”。单击服务器名称,即可建立与 Analysis Servers 的连接。右击服务器名称,然后单击“新建数据库”命令。在“数据库”对话框中的“数据库名称”框中,输入“教程”,然后单击“确定”按钮。在 Analysis Manager 树窗格中展开服务器,然后展开刚才创建的“教程”数据库。,实验步骤,建立数据源在 Analysis Manager 树窗格中
14、,右击“教程”数据库下的“数据源”文件夹,然后单击“新数据源”命令。在“数据链接属性”对话框中,单击“提供者”选项卡,然后单击“Microsoft OLE DB Provider for ODBC Drivers”。,实验步骤,单击“连接”选项卡,然后从“使用数据源名称”列表中单击“教程”。单击“测试连接”以确保一切工作正常。在“Microsoft 数据链接”对话框中应出现一条消息,说明连接成功。在消息框中单击“确定”按钮。单击“确定”按钮关闭“数据链接属性”对话框。,实验步骤,7.建立多维数据集您现在的身份是 FoodMart Corporation 的数据库管理员。FoodMart 是一家
15、大型的连锁店,在美国、墨西哥和加拿大有销售业务。市场部想要按产品和顾客分析 1998 年进行的所有销售业务数据。使用存储在公司数据仓库中的数据,您就能建立多维数据结构(多维数据集),以便在市场分析人员查询数据库时获取快速的响应。建立一个多维数据集,用于进行销售分析。,实验步骤,打开多维数据集向导在 Analysis Manager 树窗格中,“教程”数据库下,右击“多维数据集”文件夹,单击“新建多维数据集”菜单,然后单击“向导”命令。向多维数据集添加度量值度量值是要进行分析的数据库中的量化值。常用的度量值为销售、成本和预算数据。度量值根据多维数据集不同的维度类别进行分析。,实验步骤,在多维数据
16、集向导的“欢迎”步骤,单击“下一步”按钮。在“从数据源中选择事实数据表”步骤,展开“教程”数据源,然后单击“sales_fact_1998”。单击“浏览数据”按钮可以查看“sales_fact_1998”表中的数据。数据浏览完毕后,关闭“浏览数据”窗口,然后单击“下一步”按钮。若要定义多维数据集的度量值,在“事实数据表数据列”下,双击“store_sales”。对“store_cost”和“unit_sales”列重复此步骤,然后单击“下一步”按钮。,实验步骤,建立时间维度在向导的“选择多维数据集的维度”步骤,单击“新建维度”命令。此操作将调用维度向导。在“欢迎”步骤,单击“下一步”按钮。在“
17、选择维度的创建方式”步骤,选择“星型架构:单个维度表”选项,然后单击“下一步”按钮。在“选择维度表”步骤,单击“time_by_day”。单击“浏览数据”按钮可以查看包含在“time_by_day”表中的数据。查看完“time_by_day”表后,单击“下一步”按钮。在“选择维度类型”步骤,选择“时间维度”选项,然后单击“下一步”按钮。,实验步骤,接下来,将定义维度的级别。在“创建时间维度级别”步骤,单击“选择时间级别”,单击“年、季度、月”,然后单击“下一步”按钮。在“选择高级选项”步骤,单击“下一步”按钮。在向导的最后一步,输入“Time”作为新维度的名称。单击“完成”返回到多维数据集向导
18、。在多维数据集向导中,现在应能在“多维数据集维度”列表中看到“Time”维度。,实验步骤,建立产品维度 再次单击“新建维度”命令。在“欢迎进入维度向导”步骤,单击“下一步”按钮。在“选择创建维度的方式”步骤,选择“雪花架构:多个相关维度表”选项,然后单击“下一步”按钮。在“选择维度表”步骤,双击“Product”和“product_class”将它们添加到“选定的表”。单击“下一步”按钮。在维度向导的“创建和编辑联接”步骤,显示在上一步选定的两个表以及它们之间的联接。单击“下一步”按钮。,实验步骤,建立客户维度 单击“新建维度”命令。在“欢迎”步骤,单击“下一步”按钮。在“选择创建维度的方式”
19、步骤,选择“星型架构:单个维度表”选项,然后单击“下一步”按钮。在“选择维度表”步骤,单击“Customer”,然后单击“下一步”按钮。在“选择维度类型”步骤,单击“下一步”按钮。,实验步骤,若要定义维度的级别,在“可用列”下,按顺序双击“Country”、“State_Province”、“City”和“lname”列。双击每一列后,其名称将显示在“维度级别”下方。选择完所有四个列之后,单击“下一步”按钮。在“指定成员键列”步骤,单击“下一步”按钮。在“选择高级选项”步骤,单击“下一步”按钮。在向导的最后一步,在“维度名称”框中,输入“Customer”。保持“与其它多维数据集共享此维度”复
20、选框的选中状态。单击“完成”按钮。在多维数据集向导中,现在应能在“多维数据集维度”列表中看到“Customer”维度。,实验步骤,完成多维数据集的生成 在多维数据集向导中,单击“下一步”按钮。在“事实数据表行数”消息给出提示时,单击“是”按钮。在多维数据集向导的最后一步,将多维数据集命名为“Sales”,然后单击“完成”按钮。向导将关闭并随之启动多维数据集编辑器,其中包含刚刚创建的多维数据集。单击蓝色或黄色的标题栏,对表进行排列,使其符合下图所示的样子。,实验思考题,1SqlServer环境下,数据库与表之间的关系。2多维数据集建立过程中,如何理解数据仓库与源数据。3维表和事实表之间的关系。4创建数据仓库的基本过程。,The End!,