企业级数据库维护和大数据技术应用ppt课件.ppt

上传人:牧羊曲112 文档编号:1323249 上传时间:2022-11-09 格式:PPT 页数:68 大小:78.41MB
返回 下载 相关 举报
企业级数据库维护和大数据技术应用ppt课件.ppt_第1页
第1页 / 共68页
企业级数据库维护和大数据技术应用ppt课件.ppt_第2页
第2页 / 共68页
企业级数据库维护和大数据技术应用ppt课件.ppt_第3页
第3页 / 共68页
企业级数据库维护和大数据技术应用ppt课件.ppt_第4页
第4页 / 共68页
企业级数据库维护和大数据技术应用ppt课件.ppt_第5页
第5页 / 共68页
点击查看更多>>
资源描述

《企业级数据库维护和大数据技术应用ppt课件.ppt》由会员分享,可在线阅读,更多相关《企业级数据库维护和大数据技术应用ppt课件.ppt(68页珍藏版)》请在三一办公上搜索。

1、企业数据库维护和 大数据技术应用,致力于成为国内领先的第三方整体外包服务商,新炬网络成立于2006年,注册资本3000万,是上海新炬集团成员企业,致力于成为国内领先的第三方IT整体外包服务商。主营业务涉及系统软件运维服务、运营外包、数据治理、应用优化与应用质量管理服务等,同时提供自主研发的自动化运维、自动化测试、大数据等软件产品和解决方案。新炬连续多年成为ORACLE、IBM和HP中国及亚太区最佳合作伙伴新炬公司目前是中国最大的系统软件服务商,拥有超过500名系统软件相关技术人员通过ISO9001、ISO20000和ISO27001认证,并且是双软认定企业和CMMI3国际认证企业,客户覆盖电信

2、、金融、电力、交通、政府和制造等各类企事业单位以电信行业为例,新炬网络正在服务的中国移动用户数已经超过50%,引领中国IT服务市场的发展,在上海、广州、北京、杭州、成都、长沙、昆明等全国16个主要城市设立了分支机构和本地化技术团队,拥有超过500名技术人员。,企业级数据库运维介绍与大数据技术应用,课程,大数据时代下的企业变革,电信级数据库架构与数据治理,主流数据库技术简介与适用场景,阿里巴巴去IOE革命与开源数据库技术,大数据技术生态体系总体介绍,数据库管理人才的发展现状,从泄密事件看大数据对企业的重要性,移动行业的数据库支撑,企业常用大型数据库Oracle介绍与管理技巧,课程目录,陈栋,前阿

3、里巴巴DBA团队负责人,在互联网大规模数据库运维有丰富的经验,王晓征,中国移动浙江公司信息技术部副总,中国第一位ORACLE OCM认证大师,程永新,新炬网络联合创始人,中国数据库、大数据领域资深专家,15年电信行业信息化管理经验,中山大学工商管理硕士,香港大学EMBA。,任江涛,博士,中山大学软件学院副教授、硕士生导师,吴东昕,ORACLE大中国区资深架构师,清华研究生毕业后历任中国移动BSS架构师和IBM行业架构师,林小勇,高级总监、Oracle前首席讲师,长期服务于电信行业,拥有15年ORACLE管理支持经验,致力于电信行业关键核心超大型应用数据库的规划设计,运维支持。,讲师团队,数据管

4、理的发展历程,50年代,数据管理系统出现,人工管理,文件系统,非关系型数据库,关系型数据库,非关系型数据库,文件系统,利用操作系统中的文件管理进行数据存取,1970年,EF.codd发表论文奠定了关系型数据库 1977年,oracle数据库面世,伴随着大数据时代来临,处理海量数据的NoSQL走进人们的视野,不仅具备NoSQL处理海量数据的能力,也保持了传统数据库支持ACID和SQL的特性,NEWSQL,Hadoop,目前最广泛的大数据解决方案,1961年,通用电气公司开发出第一个数据库IDS,一.企业级数据库运维二.大数据以及大数据技术应用,目 录 CONTENTS,企业信息化已经成为当下所有

5、行业发展的重要驱动力量,电信行业,金融行业,医疗行业,能源行业,企业信息化,网络管理域,业务支撑域,信息管理域,业务支撑域以NGBOSS系统为核心,实现用户全业务受理、计费、结算和客户服务,还包括电子渠道、经营分析等围绕客户营销计费的相关系统组成,信息管理域以ERP系统为核心,辅助人力资源管理、采购管理等子系统,还包括4A安全等IT系统,实现企业运营管理电子化的平台,网络管理域是以综合网管系统为代表,以IT系统全面支撑网络资源管理、网络运行管理、网络质量管理等各项工作,在电信行业中,信息化已覆盖企业运营各个方面,随着企业信息化的不断深入发展,数据管理始终是企业信息化的核心。,数据管理可以为企业

6、提供可靠、有价值和高质量的数据,提供更好的产品和服务,为企业提供更明智和更有效的决策数据支持。,数据管理的价值,目前常见的数据库关系型数据库,在关系型数据库中,数据以行和列的形式存储,以便于用户理解,这一系列的行和列被称为表,一组表便组成了数据库。在关系数据库中:各数据项之间用关系来组织,关系(relationship)是表之间的一种连接,通过关系,我们可以更灵活地表示和操纵数据。,Oracle在数据库领域的领导地位,根据Gartner在2014年3月发布的调查报告,在2013年RDBMS市场份额中,各厂商的比例分布如下,其中Oracle 47.4%,Microsoft 19%,IBM 17.

7、7%,SAP 7.0%,Oracle数据库的市场份额在2013年再次占据第一的位置,超过了随后4个厂商的总和。,ORACLE的成功因素,Oracle进入国内市场较早,有先入为主的优势Oracle在技术上不断创新,不断引导数据库(尤其是关系型数据库)的技术进步Oracle在多版本并发控制(MVCC),真正应用集群(RAC)等高级特性奠定了Oracle的江湖地位Oracle早期相对其他厂商更为开放的license,降低人们学习Oracle的门槛。较完善的文档以及各大小技术论坛,降低了人们的学习难度。上述原因综合造就目前Oracle独步关系型数据库市场的局面。,关系型数据库MySQL,MySQL是一

8、个开源的小型关联式,支持分布式,有多种不存储引擎的开源数据库。MySQL凭借经济高效、可靠、高性能且可扩展的电子商务、联机事务处理和嵌入式数据库应用程序成为全球最流行的开源数据库, 大容量 OLTP 实时分析 电子商务、金融交易和支付网关 在线游戏 移动和小额支付,MySQL应用场景,其他常见的关系型数据库,EnterpriseDB是PostgreSQL的一个分支,在PostgreSQL基础上,针对企业级应用进行了专门的优化,同时,增加了一系列如动态性能调优、EDB Loader、高效批量SQL处理等高级特性;在众多功能亮点中,EnterpriseDB的兼容性技术尤为惹眼。,PostgreSQ

9、L 是一个自由的对象-关系数据库服务器,它在灵活的 BSD-风格许可证下发行。,MariaDB数据库管理系统是MySQL的一个分支,主要由开源社区在维护,采用GPL授权许可。开发这个分支的原因之一是:甲骨文公司收购了MySQL后,有将MySQL闭源的潜在风险,因此社区采用分支的方式来避开这个风险。,国产数据库也在不断发展,达梦数据库管理系统已经发展到7.0版本,简称DM7。DM7采用全新的体系架构,在保证大型通用的基础上,针对高性能、海量数据处理和安全性做了大量的研发和改进工作,并能同时兼顾OLAP和OLTP请求。,2014年10月30日,南大通用与IBM宣布将在中国创建自主创新的数据库产品。

10、南大通用将基于IBM Informix技术开发并销售这种本地创新的数据库,针对中国市场的独特需求定制一流的数据库解决方案。,数据库在企业信息化中扮演着重要的角色,911事件发生后,世贸大厦里的大量数据化为乌有,据统计,金融业在数据系统遭到破坏的2天内所受损失为日营业额的50%,两个星期内无法恢复信息系统,75%的公司将业务停顿,43%的公司将再也无法开业,没有实施灾难备份措施的公司60%将在灾难后23年间破产。 而摩根士丹利(Morgan Stanley)在半小时内就在灾备中心建立了第二办公室,第二天就恢复全部业务。,忽视数据库的重要性,带来的后果是难以估量的.,2012年,北京联通声称因系统

11、交割升级,在5月28日到6月6日暂停办理固话宽带等多项业务。之后由于系统升级失败实施回退,于6月30日再次暂停业务一周。,同时,缺乏对数据库的有效管理手段,也会造成巨大的损失,数据库管理,数据库安装、数据库配置和管理、权限设置和安全管理、监控和检查、备份和恢复、解决故障、数据存储管理、数据库优化、数据库规划和设计,数据库是企业IT信息化建设的灵魂,通过逐级推进,通过评估分析、系统设计、测试实施到上线运维,逐步实现完善的应急/容灾体系建设。,应急容灾,生产中心,应急中心,容灾中心,数据中心,应用级容灾(WAS/MQ),Active DataGuard,GoldenGate,“故障能应急、平时能分

12、流”的应急系统是业务连续性保障建设的发展方向,数据架构,数据架构管理,数据架构管理通过建立企业数据架构总体视图,对数据结构、数据模型、数据分布、数据流、业务流等进行规范和管理,并通过统一的数据架构管理团队、体系及平台进行有效的落地及管控,确保对业务高效、稳定、快速的支撑能力。,主要内容包括:,企业数据架构规划企业数据分布规划业务数据映射梳理和分析数据标准设计和和优化系统数据模型设计系统数据模型变更审查系统数据模型梳理和优化,测试监理,需求/设计,开发,测试,通过自动化测试、性能测试、UAT测试以及版本上线管理等手段,全面提升应用软件的交付质量。,交维,日益增长的应用人数和业务量对系统性能提出了

13、更高的要求,通过从WEB层、应用层和基础层等各方面进行端到端应用优化理论,以及对WEB展现、应用逻辑等多层次、多维度的优化分析,实现业务系统10倍以上的性能加速,全面提升系统的整体性能和稳定性。,性能优化,WEB层,应用层,基础层,新炬无边界服务模式,系统1,业务流程,应用系统,中间件,数据库,虚拟化,主机/存储,维护团队1,系统2,维护团队2,系统n,维护团队3,网络,烟囱式运维模式,新炬无边界云端专家团队,新炬无边界DevOps团队,运维/管理/优化/安全支持,平台产品/支撑工具,运维经验总结,新炬无边界服务模式,运维平台化,传统烟囱式运维,一.企业级数据库运维二.大数据以及大数据技术应用

14、,目 录 CONTENTS,美国和其他40多个国家,400万个评分300万次搜索请求,基于对海量数据积累和分析的结果,利用大数据技术,选择观众喜爱的演员、导演和题材,从而实现火爆的收视率,2012年年初的一天,一个父亲闯入他家附近的Target超市向经理兴师问罪,因为超市将婴儿尿片和童车的优惠券寄送给了他17 岁的女儿。但一个月后,这位父亲打来电话道歉,因为他的女儿的确怀孕了。,这其中的玄妙就在于Target运行的大数据模型,能够通过对客户购买行为的分析将各种类型的顾客细分出来。,这是一个变化的年代,当很多人还没有搞懂PC互联网的时候,移动互联网来了,当很多人还没弄懂移动互联网,大数据来了。,

15、农耕时代,工业时代(17世纪),电气时代(20世纪),互联网时代(2000年),数据量井喷,据统计,全球90%的数据都是在过去两年中生成的。互联网、社交网络、传感器、科研、金融正在产生越来越多的数据。,想驾驭这庞大的数据,我们必须了解大数据的特征。,全球每秒钟发送 2.9 百万封电子邮每天会有 2.88 万个小时的视频上传到Youtube推特上每天发布 5 千万条消息每天亚马逊上将产生 6.3 百万笔订单每个月网民在Facebook 上要花费7千亿分钟Google 上每天需要处理24PB 的数据中国移动每天产生1PB+信令数据,Hadoop,IBM,英特尔,HP,数据,商业智能,数据库,服务器

16、,SAP HANA,NoSQL,SQL,HDFS,预测,数据流,运算节点,机器学习,并行计算,磁盘阵列,ORACLE,AMD,内存计算,Google,Map reduce,可视化,Gb,Pb,Tb,Zb,大数据(big data)或称巨量数据、海量数据,指的是所涉及的资料量规模巨大到无法通过人工在合理时间内达到撷取、管理、处理,并整理成为能够人类解读的信息。,“大量化(Volume)、多样化(Variety)、快速化(Velocity)、价值密度低(Value)”就是“大数据”的显著特征,或者说,只有具备这些特点的数据,才是大数据。,大数据的4V特征,Volume 海量,1 PB = 1024

17、TB = 1,048,576 GB,1 EB = 1024PB = 1,073,741,824 GB,1 ZB = 1024EB = 1,099,511,627,776 GB,地球上至今总共的数据量:在2006 年,个人用户才刚刚迈进TB时代,全球一共新产生了约180EB的数据;在2011 年,这个数字达到了1.8ZB。而有市场研究机构预测:到2020 年,整个世界的数据总量将会增长44 倍,达到35.2ZB(1ZB=10亿TB)!,Velocity 高速,6000万用户登录/天20亿次 页面访问/天每天1.2亿次网站访问 响应时间小于100毫秒,大数据的惊人不止是在数量上,同时数据还是巨量的

18、具有动态分析价值的数据。访问响应时间的加快,数据库读写速度的加快,对电商企业来说就等于多成交。数据化会存在时效性,需要快速处理,并得到结果出来。比如说一些电商数据,今天的信息不处理没有结果化,将会影响到今天捕获很多商业决策。 对于很多情况下,动态的数据价值远大于静态数据。,数据:,结构化数据,半结构化数据,非结构化数据,指关系型数据表,指关系结构与内容混合在一起的数据类型,文档、视频、音频、图片,2012年互联网产生的数据,Variety 多样,75%非结构化 25% 结构化,50%-70%源于人与人的互动,Value 价值,大数据的核心思想之一,大量的不相关信息,不经过处理则价值较低,属于价

19、值密度底的数据。,以视频为例,一部一小时的视频,在连续不间断监控过程中,可能有用的数据仅仅只有一两秒。如何通过强大的机器算法更迅速地完成数据的价值“提纯”是目前大数据汹涌背景下亟待解决的难题。,用户统计数据,用户浏览数据,用户消费数据,用户潜在需求数据,形成庞大的消费者数据库,提升亚马逊零售平台的营销能力,优化亚马逊的消费者服务能力,完善亚马逊的网站平台与产品设计,辅助亚马逊的发展决策与策略制定,亚马逊云计算平台AWS,杰夫贝佐斯一直将数据看的极为重要,并表示亚马逊的每个重要决定都是依据于数据,始终不变的是其对于数据的终极追求,是一切从数据出发的运作理念。,大数据 VS 云计算,云计算是将计算

20、和存储,由本地转移到了云端。大数据则是提供了一套新的计算和存储工作原理。二者有本质的不同,但却是一个完整的体系。大数据可以是云计算的心脏,云计算是大数据服务的骨架。,白云下面数据跑,蓝蓝的天上白云飘,智慧医疗,城市交通,客户跟踪分析,供应链管 理,通过这种方式,共享的软硬件资源和信息可以按需求提供给计算机和其他设备。,云计算,基于互联网的超级计算模式,数据在云端:不怕丢失,不必备份,可以任意点的恢复 ;软件在云端:不必下载自动升级 ;无所不在的计算:在任何时间,任意地点,任何设备登录后就可以进行计算服务;无限强大的计算:具有无限空间的,无限速度。,小型机,云计算,云计算,大型机,2013年5月

21、17日,阿里巴巴最后一台小型机下线。,“去IOE化”,“去IOE”实际是指IBM主机被X86设备所取代,传统数据库被开源数据库产品替换,而SAN结构的高端存储也受到云化的存储产品和体系的冲击。 “去IOE”,实质是分布式架构+开源系统替代了集中式架构+商用系统。通过分布式云计算来颠覆原有的传统IT架构。,通过优化和生态建设,大云的产品成熟度不断提高。其中以X省移动公众服务云为典型应用。X省移动以大云为核心,架构规模超过了1000台服务器,为全国32个省份提供云服务产品,并在资源开通、变更、调度管理方面进一步完善自动化管理手段。,BigCloud大云,打造中国移动云计算基础设施,Google预测

22、H1N1,得出疫情爆发警报,对冲基金通过全球Twitter用户每天的数据分析,用以为买入和抛售股票做参考依据,BOSTON爆炸案,第二天抓获嫌疑犯,制止再次作案。,由新炬自主研发,对全省移动用户的信令数据通过算法进行实时分析,了解全省高速公路繁忙情况,移路通,数据量庞大、业务流程复杂、实时性要求高,通过热力图我们能够最直观的看到哪里人流量多,百度热点地图,覆盖了国内近400个城市、数千个区县。在百度地图里,用户可以查询街道、商场、楼盘的地理位置,也可以找到离您最近的所有餐馆、学校、银行、公园等等。,以一种前所未有的方式,通过海量数据进行分析,获得有巨大价值的产品和服务。,大数据首要面对的问题:

23、如何存放、处理和应用海量的数据。,大数据技术分类图,BIG DATA,流计算Storm,Spark,离线计算MapReduce,Hadoop,Hadoop,包括HDFS和其上的MR,被认为是解决大数据中必不可少的一项技术和产品。它能轻易实现各种批量数据处理,而且因为其设计的简化,能轻易分布到海量的X86服务器上,2000、 3000节点的Hadoop场景是较为常见的.,优点处理各种结构的数据灵活的处理方式,通过java编写MR框架易于扩展、伸缩,达到3000节点以上(因其对非对等节点模型设计)缺点(对原生态解决方案而言)对灵活的查询支持和响应速度流水线操作优化Map和Reduce大量数据交换问

24、题,Spark,SPARK是加利福尼亚大学伯克利分校(UC Berkeley) AMP Labs开发的新的分布式计算协议栈(BDAS)的计算系统,它充分利用内存,运行很快; 它释放了更多的API,编写简单(Scala语言)。它很可能在将来替代Hadoop中的MapReduce。,Spark使用场景,离线计算迭代计算图计算应用场景广泛,Spark特点,基于内存处理使用Scala语言超过30个的API,远超MapReduce, 功能强大处于初期,稳定性差,Spark成功案例,腾讯使用Spark , 构建腾讯大数据平台,流计算,Storm是一个分布式实时计算的系统。Storm实时接受数据流,并在内存

25、中运算,非常好,每个节点每秒钟能处理的消息数超百万,运算效率非常高。,Storm成功案例,淘宝利用Storm对在线商品,店铺,广告实时推荐。逛淘宝网店,点击商品购买页面,在右方出现跟购买商品类似的物品推荐。,Storm使用场景,实时分析/计算 在线机器学习在线ETL,Storm特点,基于内存处理,速度快可并行,可拓展编程方式灵活,支持多种编程语言,可以处理复杂的结构数据,实时流计算产品推荐,MPP DB,2004年以后出现了一些新型的MPP DB,例如EMC GreenPlum等。它们借鉴云计算的成功,设计部署在低成本的X86通用硬件上,通过副本的方式保证高可用。由于其 share nothi

26、ng架构以及SQL接口均为成熟技术,轻易获得了大量厂商和工具的支持。,优点接口友好,支持度高,兼容性强可以处理复杂的查询查询响应时间快缺点只能处理结构化数据高并发查询和操作困难由于其Hash数据分布方式、对数据的保存、并发等精妙的设计方式限定了可扩展性,通常没有经过专门优化的话限定在100节点之下,NOSQL数据库,提供极大量的并发访问需要以及近乎于无限的数据存储量提供极高的数据库可扩展性和高可用性需求可以存放非结构化的数据,如图片,音乐等难以保证数据完整性和一致性、事务性等关系型数据库的特点,随着互联网web2.0网站的兴起,传统的关系数据库在应付web2.0网站,特别是超大规模和高并发的S

27、NS类型的web2.0纯动态网站已经显得力不从心,而非关系型的数据库则由于其本身的特点得到了非常迅速的发展。,NOSQL数据库Redis,Redis平台实际情况2200+亿 commands/day 5000亿Read/day 500亿Write/day18TB+ Memory500+ Servers in 6 IDC 2000+instances,Redis在新浪的应用,面对量大,高并发的同时redis轻松应对微博转发,评论数据都是由redis实时统计出结果.,Redis是一个分布式、高性能、数据以Key-Value形式存储的非关系型数据库,数据库集群有可伸可缩的强大灵活性功能。,其他常见的

28、NoSQL数据库,MongoDB是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的。,Cassandra是一个混合型的非关系的数据库,类似于Google的BigTable。其主要功能比Dynomite更丰富,但支持度却不如文档存储MongoDB,Apache CouchDB 是一个面向文档的数据库管理系统。它提供以 JSON 作为数据格式的REST接口来对其进行操作,并可以通过视图来操纵文档的组织和呈现。,中国移动数据量的增长,基站总数 104万 35% 149万,无线数据流量 1ZB 100% 2ZB,移动数据流量 290PB 82% 527B,3G

29、客户数 0.88亿 118% 1.9亿,3G手机销量 0.5亿 180% 1.5亿,物联网终端数 2245万 43% 3200万,2012 VS 2013,每分钟应用下载1142人次每天净增用户16.6万每分钟销售终端251部每天话单数据10TB每秒发送短信2.4万条每分钟800万次通话每天信令数据1PB+,数据量,XX移动大数据平台数据量,目前XX移动每日产生的信令数据超过40T/天,2015年预计将会超过100T以上/每天,这些数据都需要进入到数据共享平台,进行后继的分析处理。,网络日志,信令数据,传统数据,时间,新炬大数据平台总体架构,新炬大数据平台解决方案通过对开源的Hadoop生态圈

30、定制,并补充了元数据管理、并行文件ETL、数据集成引擎、可视化数据处理调度、形成了日均处理数据达到40TB、总容量在PB级别的大数据法解决方案。,大数据持续增温,但是大数据人才却面临着严重的缺口,DBA工程师,云计算工程师,Hadoop工程师,Java开发工程师,大数据分析师,PHP开发工程师,新炬网络学院,Oracle官方授权认证学习中心,致力于培养实用的顶级的数据库管理人才,涉及认证、培训、实习、就业、咨询服务等,量身定制Oracle数据库认证技术培训方案,新炬网络学院观点:技术趋势,关系型数据库,不会消失,会持续进化,如:Oracle12c引入列式存储、更多集成内存计算、多租户可拔插数据库。未来的数据管理技术将是关系与非关系的融合共存没有云计算就没有大数据,未来私有云和公有云也会融合共存,大数据时代来临,你准备好了么,2014年10月30日,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号