《数据库技术其他发展.ppt》由会员分享,可在线阅读,更多相关《数据库技术其他发展.ppt(40页珍藏版)》请在三一办公上搜索。
1、数据库技术及其发展,欧阳皓,contents,I,数据管理技术-概述,数据:凡是计算机中用来描述事物的记录,都可以统称为数据。,数据管理:指对数据进行收集、分类、组织、编码、存储、检索、维护和传播等工作。,例:学生数据(9900001,王红,软件学院),I,数据管理技术-发展,人工管理阶段特点:数据不进行保存没有专门的数据管理软件数据面向应用基本上没有文件的概念,I,数据管理技术-发展,I,数据管理技术-发展,文件管理阶段的特点:数据可以长期保存在磁盘上文件系统提供数据与程序之间的存取方法数据冗余量大文件之间缺乏联系,相互孤立,不能反映事物之间的联系数据不能很好的保持一致性,I,数据管理技术-
2、发展,I,数据管理技术-发展,数据库系统的特点:数据的结构化数据共享性好数据独立性好数据存取灵活、粒度小数据库管理系统(DBMS)对数据进行统一的管理和控制,安全可靠为用户提供了友好的接口,I,数据管理技术-发展,数据库(Database)就是长期存储在计算机内,有组织的、由DBMS统一管理的相关数据的聚集。数据库能够为各种用户共享,具有较小的冗余度、数据间联系紧密而又有较高的数据独立性等特点。,数据库管理系统(Database Management System)专门用于建立和管理数据库的一套软件,介于应用程序和操作系统之间。DBMS不仅具有最基本的数据管理功能,还能保证数据的完整性、安全性
3、,提供多用户的并发控制,当数据库出现故障时对系统进行恢复。,微软公司:SQL SERVEROracle公司:MySQLOracle公司:ORACLEIBM公司:DB2,数据库系统(Database System)包括和数据库有关的整个计算机系统:数据库、DBMS、应用程序、计算机硬件以及数据库管理员和用户等等。,数据库存贮数据、DBMS管理数据及用户、应用程序使用数据.,计算机平台环境的改变局域网广域网IntranetInternet信息系统应用需求地域上分散、管理集中的企业越来越多既要求实现本地数据管理,就要求存取异地的数据既要有各部门的局部控制和分散管理;又要有整个组织的全局控制和高层次的
4、协同管理,为什么需要分布式数据库,举例:某大公司分别在 London,New York及 北京有分公司.职工数据:EMP(ENO,NAME,TITLE,SALARY,)问题:该职工数据表数据应该如何存储,职工数据的访问方式,大多数情形,职工数据被其服务的各分公司管理E.g.工资,福利,聘用与解聘定期地,总公司统一地访问职工数据E.g.总公司修改影响所有职工的利益计划E.g.根据公司的全体净利润,销售确定年终分红与公司发展计划的等,分布式数据库定义:物理上分散而逻辑上集中的系统,它使用计算机网络将地理位置分散而管理和控制又需要不同程度集中的多个逻辑单位(通常是集中式数据库系统)连接起来,共同组成
5、一个统一的数据库系统。分布式数据库系统可以看成是计算机网络和数据库系统的有机结合。分布式数据库系统的特点物理分布性:数据不是存放在一个站点上逻辑整体性:是与分散式数据库系统的区别站点自治性:是与多处理机系统的区别数据分布透明性集中与自治相结合存在适当的数据冗余度,分布式数据库系统示意图,数据仓库:是为企业的决策制定过程提供支持的所有类型数据的战略集合。它是单个数据存储,出于分析性报告和决策支持的目的而创建。为企业提供需要业务智能来指导业务流程改进和监视时间、成本、质量和控制。,数据挖掘著名案例啤酒与尿布 零售连锁企业沃尔玛(Wal Mart)拥有世界上最大的数据仓库系统。为了能够准确了解顾客在
6、其门店的购买习惯,沃尔玛利对其顾客的购物行为进行购物篮分析,想知道顾客经常一起购买的商品有哪些。沃尔玛数据仓库里集中了其各门店的详细原始交易数据。在这些原始交易数据的基础上,沃尔玛利用数据挖掘工具对这些数据进行分析和挖掘。一个意外的发现是:跟尿布一起购买最多的商品竟是啤酒!,数据仓库是面向主题的:操作型数据库的数据组织面向事务处理任务,而数据仓库中的数据是按照一定的主题域进行组织。主题是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相关。例如:购物篮分析,数据仓库是集成的:数据仓库的数据有来自于分散的操作型数据,将所需数据从原来的数据中抽取出数据仓库的核心工具来
7、,进行加工与集成,统一与综合之后才能进入数据仓库。例如:购物篮数据就是从超市收银系统中集成而来的。,数据仓库是不可更新的:数据仓库主要是为决策分析提供数据,所涉及的操作主要是数据的查询。例如:购物篮数据虽然不能修改,但可以追加。,数据挖掘:从大量数据中寻找其规律的技术,是统计学、数据库技术和人工智能技术的综合。,数据挖掘技术与应用:关联分析序列模式聚类分析异常检测,关联分析:是指如果两个或多个事物之间存在一定的关联,那么其中一个事物就能通过其他事物进行预测.它的目的是为了挖掘隐藏在数据间的相互关系。例如:啤酒与尿布的故事。,序列模式:发现数据之间的关联性与时间之间的联系。例如:在购买了自行车和
8、购物篮的所有客户中,有70%的客户会在两个月后购买打气筒。,聚类分析:把一个给定的数据对象集合分成不同的簇。例如:对购买了汽车保险的客户,标识那些有较高平均赔偿成本的客户。,异常检测:用来发现数据集中间显著不同于其它数据的对象。例如:网络入侵检测。,大数据(big data):用它来描述和定义信息爆炸时代产生的海量数据,并命名与之相关的技术发展与创新。纽约时报2012年2月的一篇专栏中所称,“大数据”时代已经降临,在商业、经济及其他领域中,决策将日益基于数据和分析而作出,而并非基于经验和直觉。2012年3月22日,奥巴马政府宣布投资2亿美元拉动大数据相关产业发展,将“大数据战略”上升为国家意志
9、。,大数据到底有多大?用一组名为“互联网上一天”的数据告诉我们,一天之中,互联网产生的全部内容可以刻满1.68亿张DVD;发出的邮件有2940亿封之多(相当于美国两年的纸质信件数量);发出的社区帖子达200万个(相当于时代杂志770年的文字量)。,这些数据都能干啥?1、华尔街根据民众情绪抛售股票;2、银行根据求职网站的岗位数量,推断就业率;3、美国疾病控制和预防中心依据网民搜索,分析全球范围内流感等病疫的传播状况;4、美国总统奥巴马的竞选团队依据选民的微博,实时分析选民对总统竞选人的喜好。,当大数据到临的时候,企业将会缺少这方面的采集收集分析方面的人才。随着大数据时代的到来,企业应该在内部培养三种能力。第一,整合企业数据的能力;第二,探索数据背后价值和制定精确行动纲领的能力;第三,进行精确快速实时行动的能力。,大数据时代需要你们,