云计算与数据库的融合陈君.ppt

上传人:仙人指路1688 文档编号:2236521 上传时间:2023-02-04 格式:PPT 页数:39 大小:7.93MB
返回 下载 相关 举报
云计算与数据库的融合陈君.ppt_第1页
第1页 / 共39页
云计算与数据库的融合陈君.ppt_第2页
第2页 / 共39页
云计算与数据库的融合陈君.ppt_第3页
第3页 / 共39页
云计算与数据库的融合陈君.ppt_第4页
第4页 / 共39页
云计算与数据库的融合陈君.ppt_第5页
第5页 / 共39页
点击查看更多>>
资源描述

《云计算与数据库的融合陈君.ppt》由会员分享,可在线阅读,更多相关《云计算与数据库的融合陈君.ppt(39页珍藏版)》请在三一办公上搜索。

1、云计算与数据库的融合,陈君IBM 中国邮件:,电信运营商面临的新挑战中国移动如何保持优势?,三大运营商竞争同质化,成本控制和销售能力决定成败新技术不断涌现,技术路线的选择决定前途命运跨产业的融合带来机遇和挑战:手机电视、移动支付互联网厂商咄咄逼人,侵蚀运营商利润,构成新威胁QQ侵蚀短信市场Skype侵蚀长途电话市场Applestore侵蚀增值业务市场:阅读、游戏 经分系统如何迎接挑战?引入新的经分平台降低成本,提高资源利用率用更加全面及时准确的分析支持决策和一线营销对客户更加全面深刻的了解协助保持客户更好地支持来自互联网的非结构化数据,3,3,云计算,Retail,自助服务伸缩的经济性技术领先

2、云计算的演进:集中,集成,虚拟化,自动化和优化都需要集成的和谐的方法.,一种用户体验和商务模型标准化提供快速提供灵活定价一种架构管理和业务提交方法虚拟化资源按照单一大资源管理弹性伸缩来提交服务,类似ATMs机和PoS机:,云计算:对电信行业驱动力是什么?,成本削减:帮助运营商削减成本采用低成本的存储和和服务器构建云计算平台通过云计算整合存储、处理资源,提升资源使用效率硬件/维护的共享:用于削减成本的多重租赁自动化:自动化日常任务云:多个用户共享同一硬件的高度虚拟技术支付模型:即用即付,以降低应用门槛,合理使用资源预先支付所需资本财务期限(延缓的财务成本)即用即付(对于公共云)云:即用即付,即时

3、部署技术成熟周期评估新:它确实奏效!商业化:它会长期盈利吗?“足够好”:对于大多数用户来说,实用的功能已经“足够好”。用户看重的是简单易用性,而不怎么关心技术细节。标准化:如果用户不关心技术细节,我们可以采用标准化和虚拟化技术。业务:更关注解决方案栈。云:使用云的公司专注于业务,而非技术。,对比,对比,对比,数据库和云计算,数据库是许多电信业务解决方案的基础产品数据库是云中最常用的产品之一几乎所有应用程序都需要存储数据DB2 是包括 Maximo、Cognos、WebSphere 和 Tivoli 在内的多个 IBM 业务解决方案的一个构建块对云中数据库产品的关键需求易于使用(包括配置、备份和

4、维护等)可伸缩性和性能安全性(尤其是公共云)成本效益(包括多重租赁、成本节省特性等)灵活的成本模型,包括即用即付可使用任意云平台(例如,无厂商锁定),云计算 PaaS 在数据层面所关注的技术能力,高度可扩展的系统-用更多的机器提供敏捷分析关注于分析优化(S)流分析 快捷的数据处理及及时的数据分析(H)历史数据分析 关注企业决策和趋势分析(T)传统分析系统-提供及时的分析能力企业经营分析,延迟,微秒 毫秒 秒 分 小时 天 月,(H)历史数据分析,(S)流分析,分析的及时性,深度分析,用于分析的数据量,(T)传统分析系统,基于Hadoop的 Map/Reduce 计算框架,灵活的硬件平台:新机器

5、,旧机器,Unix,Linux,Windows多节点流分析技术分布式数据库分布式分析应用,弹性 虚拟化低成本,1.数据仓库超大数据量(达到PB级),渐渐超过处理的能力范围 2.结构化数据和非结构化数据处理 3.数据量的快速增长 4.数据实时分析需求的增长 传统的数据仓库能应对这些挑战吗?1.支持大数据量的存储和管理 2.结构化和非结构化数据的整合 3.强大的扩展性 4.利用已有的云计算技术和资源,数据仓库与云计算结合的优势,需求和挑战,中国移动经分面临的新挑战,电信运营商的新型数据分析应用,用户满意度分析通过收集呼叫中心信息,了解服务投诉情况和用户满意情况,提升服务,防止流失位置分析和营销获取

6、用户的位置情况,根据位置做精确营销或流量分析,为公共部门进行交通管理或基础设施建设提供数据用户个性化套餐提供利用社交媒体收集用户信息,了解客户满意度和消费习惯,为用户提供针对性的套餐电信网络监测和分析收集电信设备利用情况,及时发现负荷异常情况,对可能的故障情况及时报警,更好地提高设备利用率,降低成本构建客户的交友圈收集电话/短信/邮件详单,客户号码列表,为每个客户构建交友圈,可用于交叉营销实时呼叫数据处理实时地处理大批量CDR数据,实时地了解用户呼叫接通和掉话情况,为客户满意度和流失预测提供依据,下一代数据仓库云概念的提出,OLTP数据库软件及SMP节点架构逐渐无法适应数据仓库发展,数据仓库的

7、实时性、高可用性、敏捷分析、服务封装为公认的发展方向,Open Source、云架构技术发展迅猛,但业界“谨慎观望”,构建互联网数据仓库实现标准化、开放化的技术架构支撑应用快速、灵活部署实现系统高效、低成本运营,数据仓库云架构与部分重点技术,技术愿景:,数据仓库与云集成方案,省公司系统,集团数据集成平台,Hadoop+DB数据仓库平台,建立Hadoop与分布式关系数据库融合运作的仓库平台:关系型数据库中:支撑报表和多维分析查询。历史数据的数据统计及数据挖掘在Hadoop平台上完成。,数据集成平台采集、转换与整合各省业务系统的实时与非实时、结构化与非结构化的数据;例如:详单数据,客户资料,市场实

8、时数据等。,Biginsights,ETL,分布式数据库,数据下传,数据采集,数据分析与挖掘,数据挖掘分析统计,Hadoop与DB接口,报表OLAP分析,实时数据处理架构,ETL Batch,源系统,混合型数据仓库,多维集市,报表展现,数据暂存区,Mini Batch,智能业务系统,自动触发新业务流程、预警,InfoSphere Streams 实时分析极端大量的结构化和非结构化数据,All statements regarding IBMs plans,directions,and intent are subject to change or withdrawal without noti

9、ce.Any reliance on these Statements of Direction are at the relying partys sole risk and will not create any liability or obligation for IBM.,Statement of Direction IBM intends to make available in the first half of 2010,an offering,IBM InfoSphere Streams,which will help customers continuously analy

10、ze massive volumes of information at extreme speeds to improve business insight and decision making.This product will be based on an ongoing stream computing project in IBMs Research Division.,基于IBM研究院5年的流数据处理研究来自IBMs Watson研究院起源于与美国政府的大型研究项目IBM Research 项目继续,主要特性高性能、并行流计算软件平台,毫秒级数据响应级别分析处理结构化和非结构化数

11、据集群部署和扩展能力,支持100+个节点的部署,客户已经在使用 StreamsEarly Access Program5大洲超过50个用户,Extreme Volumes,Extreme Analysis,Extreme Speed,实时性-流计算 Infosphere Stream:高可用、集群部署能力,Processing Element Container,Processing Element Container,Processing Element Container,Processing Element Container,Processing Element Container,优

12、化调度器把操作符分配到不同的节点运行,并持续监控资源的使用情况,自适应资源、工作负载、数据速率的变化,在低成本硬件上运行从单节点PC到刀片服务器到多阵列集群,高度可并行扩展能力,同时利用几十台、上百台进行实时数据流处理,Hadoop 发展,大规模的 Map-Reduce 是应互联网公司的分析需求而发明的(google,yahoo,facebook,)Google 处理 20PB 数据/天Yahoo!pioneered Hadoop open source.现在开发商已经很多了现在 Hadoop 广泛用在各地Yahoo!(20,000 machines,largest single cluste

13、r is 4000 machines)Facebook(600 machines,4800 cores,2PB storage)AOL(50 machines,200 cores,37TB storage)Amazon/A9,Baidu(10 500 nodes),Fox Interactive Media,New York Times,Ning,Zvents,Linkedin source:http:/wiki.apache.org/hadoop/PoweredByAmazon EC2 cloud hadoop clusters,Hadoop Map-Reduce Runtime,Hadoo

14、p File System:HDFS,Hadoop Data Intensive High ScaleAnalytics(Java)Apps Server+Cluster File System,Cores:2000ish 10X,STG:PBish 10X,Hadoop vs.RDBMS*,RDBMS 和 MapReduce二者比较在很多情况下,MapReduce 是对 RDBMS的补充.Mapreduce适合于对整个数据集进行访问的情况下,批处理下的即席查询.MapReduce 与 RDBMS 在数据结构方面也有不同的侧重点,RDBMS操作结构化数据,MapReduce侧重非结构化和自描述

15、结构的数据.关系型数据库具有很好的完整性MapReduce 具有很好的线性扩展性,可扩展的编程模型.,数据仓库与云集成方案,数据ETL过程,结构化数据加载,非结构化数据加载,UDF,企业信息总线,Table function,Infosphere Warehouse,数据双向同步,高并发分析决策支持服务,Hadoop 查询分析服务,数据仓库云数据存储,在分布式数据库中进行数据分析 用基于云的数据仓库应对不断扩展数据仓库容量,Data Value&Access frequency,DB2/Netezza结构化数据传统BI工具,Hadoop+半结构化和非结构化数据历史数据分析,Data Lifec

16、ycle&Data Size,数据库与 Hadoop(MAP/Reduce)的集成,混合架构完成海量数据处理和存储结合关系性数据库和Hadoop文件存储能力解决海量数据存储业务核心数据(1-2 个的 CDR,客户资料等)存放到数据库中,海量历史数据(如网络数据互,WEB日志,2+CDR数据)存储放到Hadoop平台中。关系型数据库提供常用的SQL接口,支撑主流前台工具前台工具通过关系型数据库与Hadoop的接口,访问Hadoop数据低成本的硬件平台关系型数据库,可以采用分布式的多节点数据库,利用多台低端服务器加低端磁盘阵列,构建数据库系统Hadoop采用PC服务器或刀片服务器,内置磁盘作为数据

17、存储扩展性Hadoop计算平台,可以提供1000+节点的扩展能力分布式数据库,可以提供100+节点的扩展能力优异的性能关系型数据库给前台分析报表和OLAP提供数据,提供高效的复杂查询服务Hadoop技术平台,完成海量数据分析和挖掘,提供高效的海量数据处理服务,建设企业BI系统谈何容易?,公司希望建立一套BI系统,并且要求在下个季度建立,怎么办?建立一个BI系统需要什么样的软件?如何考核和选择这些软件?选择了软件怎么配置硬件?有了产品后,怎么搭建BI系统?如何选择BI系统集成商?BI系统投资动辄几百万、上千万,我们没有那么多预算怎么办?,IBM智慧分析系统 它是什么?,强大的数据仓库 数据仓库平

18、台超负荷工作管理系统自动化,多种分析软件可供选择商务智能分析Cubing Services 文本分析&数据挖掘更多,硬件&服务Power 550 Express+AIXIBM系统存储 DS5300安装,配置,检测&额外支持服务,来自IBM专家的优化整合,易扩展性满足各种商业需要,快速选择和部署软件硬件,节省工作时间!,23,IBM智慧分析系统的特点,商务分析和优化管理,囊括软件,硬件和服务,使用单一安装包,一个电话,解决你的所有问题,IBM智慧分析系统 5600/5600S模块设计,24,IBM智慧分析系统 5600(S)容量设计,每个数据模块为1台 3650 服务器 4 核,32GB 内存,

19、24 块300GB 磁盘,每个数据模块为1台 3650 服务器 8核,74GB 内存,24 块450GB 磁盘,26,模块的扩展,数据挖掘,多维分析服务,数据挖掘,数据挖掘,多维分析服务,新一代企业数据中心建设方法健康档案的区域卫生数据中心与IBM相关硬件产品/方案介绍,系统资源池,现有运行数据仓库,新数据仓库加入资源池,动态资源池,虚拟机管理映像管理系统池管理,数据双向同步,案例:数据仓库云解决方案演示,IBM技术方案,方案名称:基于分析工作负载的云计算平台预期验证目标:IBM云数据库平台能支持海量数据操作IBM云数据库平台支持非结构化数据,支持常用的挖掘算法DB2数据库平台能够与云数据库平

20、台互通,实现数据和算法迁移对于传统DB2数据库而言,云数据库平台是透明的研究结果:将以DEMO演示方式展现平台能力技术研究关键点:基于文件系统与关系数据库结合的混合架构的数据存储层,如Hadoop平台与IBM DB2数据仓库平台相结合(数据存储服务)。基于服务的分析访问功能展示(数据访问服务),BSS(Business Support System)分析云演示,BSS分析云演示系统基于Hadoop平台与IBM DB2数据库数据仓库平台,利用hibrid query accelate(混合查询加速器),实现文件系统与关系数据库无缝结合。演示将从5大场景出发,探索在混搭平台上如何实现算法与数据的迁

21、移,既利用文件系统的高并发,高扩展性,低成本的特性,又保持了传统数据库成熟的解决方案,从而展示了混搭平台对于海量数据存储及分析处理能力,31,分析场景1:商业智能分析,客户通话行为分析,用户WEB兴趣点多维分析,新增客户兴趣点多维分析,通过HADOOP中成熟的用户关系挖掘算法,找出影响力最大的客户群体。然后利用DB2的聚类算法,从用户的通话记录,通话时长,通话类型进行聚类分析,从而找出核心用户的通话行为,为发展重要客户提供参考依据,通过对存在于HADOOP中的WEB访问日志进行分析,将统计结果同步到数据库星形模型中,利用已有报表工具,Cubing Service提供多维分析。这个场景将通过上行

22、流量,下行流量,访问次数等多个指标来分析用户兴趣点,通过对Hadoop的用户访问日志,统计出新增客户人数,将统计信息同步到关系型数据库中,从时间,终端,网站等多个维度进行分析统计,从而得出新增用户的访问情况,电话历史详单查询,呼出对端号码统计,用户历史话单查询,32,最新三个月的通过记录存放于数据库中,历史数据存放于Hadoop中。通过一定时间跨度的查询,体现混合平台对不同数据来源的处理能力,用户信息存储在数据库中,历史详单存在文件系统中,通过这个场景展示混合平台对JOIN等复杂查询的处理能力,通过查询通话历史详单,对用户呼出的对端运行商的次数进行统计,展示出混合平台对统计查询方面的支持,分析

23、场景2:即席查询,特定客户WEB行为分析,Web日志存储在文件系统中,通过查询Hadoop中WEB日志的统计结果,分析用户访问的网站以及热点,展示混合平台针对于Hadoop文件访问能力,数据分布,用户基本信息存放于数据库中Web访问日志存储于Hadoop中用户通话记录共15个月数据,每个月100万条记录,其中(2009/10/1-2010/9/31)存放于Hadoop中,2010/10/1-2010/12/31)数据存放于DB2中通过查询,我们可以看到数据的不同来源,分析场景3:中高端客户交友圈,可供省、地市进行营销活动时,由分析人员根据各种条件,从竞争对手用户信息库中筛选出营销活动的目标用户

24、。查询条件包括:运营商地域入网时间结算费用区间呼入运营商用户费用区间运营商用户呼出费用区间漫游情况联系运营商用户的号码数量构建选中高端客户的交友圈:输入:电话/短信详单,高端客户号码列表输出:为每个高端客户构建类似于右图的交友圈图顶点尺寸:客户在交友圈内的重要程度(某种客户价值指标)颜色:客户在交友圈中的位置形状:区分内网和外网客户,分析场景4:分析师工作站,分析师工作站基于Bigsheets平台,对Hadoop文件系统中的WAP日志进行导入,过滤,进行数据分析和结果展示。体现出文件系统处理的以下特点对即时WAP信息的查询以及分析文件格式支持的多样性对大数据量通过过滤,汇总提供不同的数据访问视

25、图,满足不同的业务需要提供多样化的展示风格,支持多种作业类型,方便应用集成,分析场景5:云平台配置管理,提供了对Hadoop节点进行维护,管理,扩展的功能。提供对Map/Reduce JOB的控制于管理提供对文件系统的访问与控制设置并发访问量,CPU利用率,存储容量等属性的阈值.系统动态监控云平台运行情况,根据实际参数与阈值的对比情况,对系统进行动态扩展。,Thank you!,节点自动扩展演示,本场景旨在演示节点的动态扩展能力,为避免对部署在文件系统中的其他应用产生影响,本次演示将特定删除IP:172.31.1.43的节点,请不要启停其他节点,程序也限定值只此节点操作本次演示共有6台Hado

26、op节点,为方便演示,系统初始化启动5个Hadoop节点,如果在云配置管理中,发现已经启动6个节点,请手工删除一个节点(由于需要文件系统需要整理-时间需要2-4分钟),请限定删除IP:172.31.1.43的节点并发访问默认阈值10,容量50%(未使用),用户可以根据需要修改通过即席查询中的任意场景,将并发访问数设置大于阈值,机器将自动增加一个节点。用户演示完毕,需要在云配置管理中手工删除节点具体演示参数可以参考备注,场景概述,中高端客户交友圈,分析师工作站体现了基于Hadoop平台的分析和挖掘能力,演示了Hadoop在大数据量,分布式运算的卓越能力,为企业的算法迁移提供参考云平台配置管理,对机器节点进行动态管理和监控,展现了节点的动态扩展与配置功能,充分体现了云平台的动态适应能力。商业智能查询与即席查询通过混合查询加速器,实现DB2与文件系统的跨库查询与分析,体现了混合平台的数据与算法迁移的可行性。用户可以通过每个演示场景的More Details信息查询详细的分层调用日志,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 建筑/施工/环境 > 项目建议


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号