《第四章_数据库与数据仓库.ppt》由会员分享,可在线阅读,更多相关《第四章_数据库与数据仓库.ppt(63页珍藏版)》请在三一办公上搜索。
1、第四章 数据库与数据仓库,信息管理系统开发结构,第四章 数据库和数据仓库,第一节 数据管理 第二节 数据库与数据库管理系统环境 第三节 关系数据库模型 第四节 数据库的建立 第五节 数据仓库与数据挖掘 第六节 高级数据库技术和高级数据库应用,第一节 数据管理,什么是数据管理数据组织的层次实体、属性和关键字数据管理的传统方法数据管理的数据库方法,为什么要进行数据管理,名称,时代,作者,规格,幅面,内容,卷前引首,前隔水,后隔水,题跋,历代收藏人,印章,真迹图,细部放大图,为什么要进行数据管理,第一,“信息孤岛”问题日益严重,数据采集、整理、分析的繁重任务,多源异构的海量数据存储,信息资源有效利用
2、的需求,旧有的数据管理与企业发展的冲突等等;第二就是系统的自动化程度不高,各个系统不能平滑地集成起来;第三就是信息系统的成本,我们曾谈到,信息系统集成成本比信息系统建设的成本高甚至几倍。,什么是数据管理,根据赛迪顾问的界定,中国数据管理技术应用软件主要包括:企业信息门户(EIP)、商业智能(BI)、内容管理(CM)、知识管理系统(KMS)和竞争情报系统(CIS)五大应用软件领域。,数据管理的定义,对大量数据的有规则地组织、存储、检索、呈现、统计、分类、分析,以实现除基本的保存功能外的最大效率地利用。相关资料:http:/,数据组织的层次,数据按照层次方式进行组织由位、字节、字段、记录、文件和数
3、据库组成位(Bit)位是计算机中最小的数据单位,其值为0或1,是一个二进位,表示一个导通或未通的电路。字节(Byte)字节是由若干位组成的,代表一个字符。字符是信息的最基本构架。(见ASCII码表),ASCII编码表,数据组织的层次,字段(Field)。多个字符组成一个词或者一个完整的数字(如人名或年龄),字段是数据的最小单位,它不能再分成有意义的单位记录(Record)由与某个特殊对象或活动有关的所有字段组成。文件(File)同一类型的所有记录组成一个文件文件就是与某个特定主题相关的数据记录的集合。,模型的概念:对现实世界事物特征的模拟和抽象就是这个事物的模型。计算机不能直接处理现实世界中的
4、具体事物,所以必须先把具体事物转换为抽象的模型,然后再将其转换为计算机可以处理的数据,从而以模拟的方式实现对现实世界事物的处理。模型应满足以下要求:,真实地反映现实世界;易被人理解;便于在计算机上实现;,基本术语,实体:客观存在、并且可以互相区别的事物称为实体。属性:实体所具有的每一个特性都称为一个属性。选择的实体属性越多,所描述的实体就越清晰。属性有“型”和“值”的概念,属性的名称就是属性的“型”;对型的具体赋值就是属性的“值”。主键值(码):在众多属性中能够唯一标识实体的属性或属性组。实体集:某个实体型下的全部实体,称为实体集。联系:一个实体集内部各实体之间的相互联系,叫做实体内部联系。在
5、实体集之间的联系,称为实体的外部联系。,实体、属性和关键字,实体entity实体是所收集的数据相关的一类事物,可以是物,人,实际的东西,或者具体的东西员工库存客户订单教室,实体、属性和关键字,属性Attribute属性是实体的某一方面的特征学生的姓名、学号、年龄、性别成绩是学生的属性库存号、说明、现有数量、在仓库中的位置等是库存的属性,实体、属性和关键字,关键字 Primary Key关键字是用来识别记录的一个或一组数据项,是识别记录和文件中查找记录的标志学生文件中的学号,产品文件中的产品号,订单文件中的订单号辅助关键字 Secondary Key不能唯一表示一个记录的字段,数据管理的传统方法
6、,利用文件管理数据为每个应用程序分别创建和存储数据文件的数据管理方法都称为传统方法,数据管理传统方法的不足,数据冗余大冗余是指在多个数据文件中重复出现相同的数据。数据与程序独立性不高数据文件和维护它的相关程序之间过分依赖。,数据管理的数据库方法,数据库是逻辑相关的记录和文件的集合。把先前提及的所有存储在独立文件中的记录归并在一个数据库内,以便让不同的应用程序存取。储存在数据库中的数据既独立于使用它的计算机程序,也独立于存储它的外部存储器的类型。,数据库管理系统中的模式,数据库管理系统中的模式,物理模式:描述数据的物理存储形式,也称内模式,直接与操作系统或硬件相联系。概念模式(逻辑模式):数据库
7、数据的完整表示,是所有用户的公共数据视图。模式仅仅涉及数据类型的描述,不涉及具体的数据值。子模式:针对每一个用户或应用,又由模式导出若干个子模式(或叫外模式、用户模式)。子模式是直接面向用户的,用户能够看见并使用的是逻辑结构的局部数据描述。每一个子模式都是模式的一个子集;也可以看作是模式的一个窗口。一个数据库系统可以有多个子模式。两级映射可保证三种模式之间的相互独立性。,数据库管理系统,Database Management System,DBMS在数据库管理系统中,应用程序不能直接从存储介质获得所需的数据。它必须先将请求提交给DBMS,由DBMS负责从存储介质检索数据并提供给应用程序使用,基
8、于数据库方法的优点,减少数据冗余,更有效利用存储空间并增强数据的完整性。也为组织提供了更大地利用数据的灵活性。两个文件中的数据放在了同一个数据库,可以多种方法定位数据并获得要处理的数据共享数据和信息资源,第二节 数据库与数据库管理系统环境,数据库及其特征数据库管理系统数据库查询语言数据的逻辑视图和物理视图,数据库及其特征,数据库的定义数据库(Database)是一个信息的集合,在这个集合中可以按照信息的逻辑结构对其进行组织与存取。数据库由两部分组成信息本身信息的逻辑结构,数据库特征,信息的集合,数据库特征,逻辑结构数据字典包含信息的逻辑结构,数据库的特征,信息中的逻辑联系建立信息间的联系或关系
9、意味着找出文件之间的相互关系.主关键字数据库文件中的一个字段,唯一描述一个记录产品文件中的产品ID,供应商文件中的供应商编号外部关键字一个文件中的主关键字出现在另一个文件中就是外部关键字,比如产品文件中的供应商文件.,数据库的特征,内在的完整性约束完整性约束是保证信息质量的一种规则比如产品ID不能重复产品文件中的供应商ID不应该是供应商文件中没有的供应商ID,数据库管理系统,Database Management System是一组软件,允许组织集中并有效地管理数据以供应用程序访问相当与应用程序和物理数据文件之间的接口,数据库管理系统的组成,数据定义语言数据操作语言数据字典,数据库管理系统组成
10、,数据定义语言描述数据库内容和结构的正式语言数据操作语言操作数据库中的数据,提供了一组提取数据的命令数据字典自动生成或者手工生成的文件,用来存储数据元素的定义和特性。如用途,物理表现,所属关系,授权和安全.被动的,主动的.,数据字典,给数据流程图中每个成分以定义和说明的工具。在数据流程图中仅对系统逻辑功能的总体框架作了描述,缺乏详细具体的说明。数据字典的作用是对数据流程图中的各种成分,包括数据项、数据结构、数据流、数据存储、处理功能、外部项等的逻辑内容与特征予以详细说明。数据字典中有关系统的详细信息是以后系统设计、系统实施与维护的重要依据。数据字典编写的基本要求如下:对数据流程图中各种成分的定
11、义必须明确、易理解、唯一;命名、编号与数据流程图一致;符合一致性与完整性的要求,对数据流程图上的成分定义与说明无遗漏项,无同名异义或异名同义;格式规范、文字精炼与符号正确。,财务管理第三层工资管理数据流程图,数据字典中的条目,数据项:是数据处理中不可分割的基本逻辑单位。包括数据项编号、名称、取值范围、数据项类型、长度等。,数据结构:描述数据流/数据存储的逻辑组成。数据结构条目内容包括:数据结构名称、编号、包含该结构的数据流/数据存储的编号、该数据结构中包含的数据项名称等。,数据字典中的条目,数据流:定义数据流程图中的数据流,内容为数据流的编号、名称来源、去向、包含数据结构的名称以及单位时间(如
12、年月日)传输次数等。,数据存储:存储条目的内容有数据存储的名称、编号、组成(即数据存储包含的数据结构)、最大记录数等。处理功能:条目内容有处理功能的名称、编号、输入数据流、输出数据流、处理逻辑概括等。外部实体:条目内容有外部实体名称、编号、输入数据流、输出数据流等。,数据库查询语言,属于数据操作语言自然语言自然语言查询命令LIST THE NAMES AND ADDRESSES OF ALL SUPPLIERS WHO LIVE IN SHANGHAIQBEQuery By Example通过拖曳数据项等方法来查询数据,数据库查询语言,SQLStructured Query Language结
13、构化查询语言标准利用SQL可以查询不同数据库管理系统下的数据.基本形式SELECTFROMWHERE,数据视图和逻辑视图,DBMS把数据的逻辑视图和物理视图分开逻辑视图以最终用户所使用的直观的方式来显示数据物理视图则显示了数据的实际组织形式以及它在物理存储介质上的结构一个物理视图可支持多个逻辑视图DBMS使用专门的数据库管理软件,使得物理数据库可用于不同应用程序所需的不同的逻辑视图。,第三节 关系数据库模型,四种数据库模型层次型网状型关系型目前使用最为广泛面向对象,层次型数据库,层次模型:实体之间按层次关系来定义。实体用记录表示,实体的属性对应记录的数据项。层次模型以每个实体为结点,上层结点叫
14、“父结点”,下层结点叫“子结点”。如下图所示仅有一个无双亲的根结点;根结点叶子结点根结点以外的子结点,向上仅有一个父结点,向下有若干子结点。,网状模型数据库,网状模型:可表达比较复杂的实体间关系(多对多),但当需要对系统扩展时,对原有数据结构及应用程序的修改,需要花费更多的代价,甚至带来严重的后果。主要特征如下:有一个以上的结点无双亲;至少有一个结点有多个双亲;,关系数据库模型,利用一系列的二维表或文件存储信息.在关系模型中,每个二维表都描述一种关系.关系是表的数学术语每一个表或关系所保存的信息都与一个特定的实体有关.二维表使描述信息间的关系十分便利,容易处理二维表所包含的信息.可以灵活地查询
15、数据库和建立报表,关系数据库模型,可以灵活地查询数据库和建立报表查询单个表和多个表不必建立数据项之间的所有连接,随时可以建立.,关系数据库模型,关系模型:以表格形式作为基本的存储结构,通过相同关键字段来实现表格间的数据联系。结构简单、易学易用是其主要特点,很受用户欢迎,是目前的主流。由于系统中实体包括许多属性,而这些属性又会被不同用户的用户使用,所以将这些属性一起放在一个数据表中显然是不合理的,需要进行分类与汇总,以编制不同的、且相关联的表,这就是所谓的关系。表具有以下四个性质:在表中的任意一列上,数据项应属于同一个属性;表中所有行都是不相同的,不允许有重复行出现;行的顺序无关;列的顺序无关,
16、但不能重复;,第四节 关系数据库的建立,确定实体和关键字确定实体之间联系利用E_R图得到关系为每个关系确定信息(字段)用数据定义语言创建数据库,学生修课管理,学生选修样本报表,确定实体和关键字,三个实体学生专业课程关键字学号专业号课程号,确定实体之间的联系-画实体联系图,实体联系图(Entity-Relationship Diagram,E-R图)矩形表示实体菱形表示实体之间的联系直线表示连接1代表出现一次,M代表多次,确定实体之间的联系-画实体联系图,确定实体之间的联系-画实体联系图,先画上矩形填上实体名判断是否有联系有联系画上菱形,判断联系是1还是M,利用E-R图得到关系,将每一个实体都转
17、化为一个关系学生、课程、专业将每一个多对多的联系都转换为一个关系联系的名称为关系的名称选修将每一个一对多的联系都转换为一个关系 分配合并具有相同关键字的关系:学生与分配合并,为每个关系确定信息(字段),确保每个关系中所含的信息确实处于正确的关系之中这组信息只依赖于所属关系的主关键字专业名称信息不能从其他的信息中派生出来,用数据定义语言创建数据库,根据前面四步的结果来,运用数据定义语言来创建关系,数据库三范式,在建立数据库表时,如何使数据结构合理有效,需要遵守一定的法则,即五大“范式”,其中常用的为前三个“范式”第一范式:在同一表中没有重复项出现,即不能将同一属性定义两次;第二范式:每个表必须有
18、(仅有)一个数据元素作为主关键字,其他数据元素与主关键字一一对应。这个主关键字作为与其他相关表之间建立关联的唯一纽带。第三范式:表中的所有数据元素不但要能够唯一地被关键字所标识,而且它们之间还必须相互独立,不存在其他的函数关系或直接计算关系,即无直接依赖性。如果需要出现相关数据,则应将该数据放入到其他的表中,再保留与原数据库表的关键字关联。,第五节 数据仓库与数据挖掘,数据往往放在不同的数据库系统中数据难以收集数据仓库是通过集成企业的关键运行数据,产生一致的、可靠的、易于访问的数据形式。,数据仓库,数据仓库(Data Warehouse)是信息的逻辑集合,这些信息来自于许多不同的业务数据库,并
19、用于支持企业的分析活动和决策任务,数据仓库,数据仓库的特征数据仓库将来自于不同数据库的信息结合在一起数据仓库是多维的包含若干层的行列数据字典:信息的逻辑结构、信息的来源和处理方式数据仓库支持决策而不是事务处理联机分析处理(OLAP)联机事物处理(OLTP),数据挖掘工具,Data Mining Tools是用户对数据仓库进行信息生成的软件工具支持OLAP支持决策任务,数据挖掘工具,包括:查询与报表工具QBE,SQL,报表生成器智能代理应用各种像神经网络、模糊逻辑这样的人工智能工具形成OLAP信息发现的基础多维分析工具是一种横纵分割的技术,允许人们从不同的角度来观看多维信息,第六节 高级数据库技术和高级数据库应用,面向对象的数据库对象-关系数据库空间数据库时间数据库和时间序列数据库文本数据库和时间序列数据库异种数据库和遗产数据库WWW,