关于云云数据管理与挑战@淘宝商学院.ppt

上传人:仙人指路1688 文档编号:2218864 上传时间:2023-02-01 格式:PPT 页数:51 大小:1.84MB
返回 下载 相关 举报
关于云云数据管理与挑战@淘宝商学院.ppt_第1页
第1页 / 共51页
关于云云数据管理与挑战@淘宝商学院.ppt_第2页
第2页 / 共51页
关于云云数据管理与挑战@淘宝商学院.ppt_第3页
第3页 / 共51页
关于云云数据管理与挑战@淘宝商学院.ppt_第4页
第4页 / 共51页
关于云云数据管理与挑战@淘宝商学院.ppt_第5页
第5页 / 共51页
点击查看更多>>
资源描述

《关于云云数据管理与挑战@淘宝商学院.ppt》由会员分享,可在线阅读,更多相关《关于云云数据管理与挑战@淘宝商学院.ppt(51页珍藏版)》请在三一办公上搜索。

1、云数据管理技术与挑战,中国人民大学,主要内容,2,云计算与云数据管理概述 各大公司的云数据管理技术 人民大学研究团队的工作 云数据管理的研究挑战,CLOUD COMPUTING,云数据管理的新思维,云数据管理准则(1),Partition Everything and key-value storage 切分万物以治之数据库的第一范式无法满足,云数据管理准则(2),Embrace Inconsistency 容不同乃成大同数据库的ACID的属性无法满足,云数据管理准则(3),Backup everything with three copies 狡兔三窟方高枕 每个数据都有三个备份,达到 99

2、.999999%的保障度,云数据管理准则(4),Scalable and high performance运筹沧海量兼容 提供一个可伸缩的,处理和分析海量数据的平台,拨云见日,切分万物以治之容不同乃成大同狡兔三窟方高枕运筹沧海量兼容,主要内容,11,云计算与云数据管理概述 各大公司的云数据管理技术 人民大学研究团队的工作 云数据管理的研究挑战,主要内容,Google 文件系统(GFS),适用于大规模数据密集型应用程序的可扩展分布式文件系统多个部署GFS的集群已经建成目前最大的集群为:10000多个存储节点300+PB的存储容量可供不同机器上的上百用户同时读取,介绍:观察1,控件的故障时常发生系

3、统集成了实时监控、错误检测、容错性和自动恢复等功能超大文件(与普通文件相比)GB大小的文件很正常,介绍:观察2,大部分文件修改都是添加新的内容需要考虑优化性能和保证原子性协同设计应用程序和API有利于增加整个系统的灵活性,设计,集群包含一个master和多个chunkservers,并且可供多个用户读取,GAE Web应用,GAE Web服务基础设施,分布式存储服务,应用程序运行时环境,应用开发套件,管理控制台,Google App Engine,分布式存储服务,GAE提供的分布式存储服务基于BigTable技术通过Java JDO/JPA接口或Python数据库标准接口访问和操作数据库优势:

4、成本低、支持伸缩、并发性好、易管理采用乐观的并发控制,应用程序运行时环境,GAE的应用程序运行时环境是一个可伸缩的Web程序运行平台目前支持Python和Java可以使用Google提供的丰富的应用服务,如分布式存储服务、网页抓取、邮件、图像、Google账户等,云端应用,Google Docs是基于Web的文字处理和电子表格程序,支持在线协作、文档恢复、文档检索Gmail是有效的电子邮件工具,支持即时消息、视频聊天、会话检索等,IBM Ensembles,IBM TSAM,IBM WebSphere CloudBurst,IBM LotusLive,IBM RC2,云环境管理解决方案,IBM

5、 TSAM,IBM Tivoli Service Automation Manager(TSAM)管理应用服务生命周期的方案,IBM WebSphere CloudBurst,IBM WebSphere CloudBurst Application(WCA)帮助用户创建和管理面向服务的私有云平台有效整合了云基础设施层和云平台层,Web控制台,基础设施管理,虚拟化解决方案部署,用户合格组管理,虚拟器件镜像模板管理,监控、审计和计费,脚本包管理,数据中心资源,管理,CRM系统,ERP系统,网上银行,WebSphere Application Server,WebSphere ProcessServ

6、er,WebSphere Porial,DB2,数据中心管理员,应用系统,SOA环境,WebSphere Cloudburst Appliance,IBM LotusLive,通过Web方式交付的服务会议服务LotusLive MeetingsLotusLive Events办公协作服务LotusLive EngageLotusLive Connections电子邮件服务LotusLive Notes,IBM RC2,IBM Research Compute Cloud,东京,北京,新德里,海法,苏黎世,纽约,奥斯丁,阿尔玛登,Amazon Web Service,Amazon S3,Amaz

7、on EC2,Amazon SimpleDB,Amazon SQS,Amazon S3,Amazon Simple Storage Service(S3)云计算平台提供的可靠的网络存储服务通过互联网访问和管理安全性账户认证访问控制列表查询字符串认证可靠性冗余备份的存储机制,Amazon SimpleDB,Amazon SimpleDB是一种支持结构化数据存储和查询操作的轻量级数据库服务存储模型:域(Domain)、项(Item)、属性(Attribute)现有不足延迟较大不能保证顺序执行用户更新与关系型数据库兼容有限,Amazon EC2,Amazon EC2是一种云基础设施服务用户根据业务的

8、需求自由地申请或者终止资源使用优势可伸缩性节省成本使用灵活安全可靠容错,基础服务,数据库服务,应用开发服务,应用打包服务,基础服务,F基础服务为上层服务和应用提供了安全、可靠的支撑环境三个关键技术多租户元数据安全架构,数据库服务,F数据库服务数据模型数据对象持久化采用关系属性定义数据对象间的关系数据操作Web页面接口编程接口访问控制管理安全记录安全,Windows Azure,.NET服务,SQL Azure,Live服务,Microsoft Windows Azure,Azure Fabric 控制器,存储服务,计算服务,开发环境,Windows Live,Office Live,Excha

9、ngeOnline,SharePointOnline,Dynamic CRMOnline,Live服务,.NET服务,SQL服务,SharePoint服务,Dynamic CRM服务,应用,Azure服务平台,Windows Azure,Microsoft SQL Azure,云环境的数据管理系统不支持CLR、空间数据及一些系统管理功能(如启动、停止SQL Server)优势无需对数据库进行定期备份提供统一数据访问接口提供更健壮的服务,主要内容,36,云计算与云数据管理概述 各大公司的云数据管理技术 人民大学研究团队的部分工作 云数据管理的研究挑战,人大阿里巴巴 云,项目简介:由人大多个学院和

10、教授共同合作针对淘宝阿里巴巴海量的交易数据进行分析和挖掘,研究任务,适合研究任务:宏观经济指数分析-参照人大三大发布项目开发指数平台,集成多种统计算法模型,提供横向对比分析设计周期性自动指数计算系统,可以按月、周、天自动计算指数,发布类似K线图的动态指数,38,人民大学新开的分布式系统与云计算课程(2010年教育部IBM精品课程),39,分布式系统概述分布式云计算技术综述分布式云计算平台分布式云计算程序开发,已编写教材介绍,分布式系统及云计算概论清华大学出版社,Hadoop实战机械工业出版社,Coming soon,课程网站,网址:,下载教学课件,下载模拟试卷,观看课程视频,获取课程内容,主要

11、内容,42,云计算与云数据管理概述 各大公司的云数据管理技术 人民大学研究团队的工作 云数据管理的研究挑战,基于云上的数据管理的特点,计算资源是可伸缩的数据具有备份数据存储在大量分布的结点之上,基于云上的数据管理的挑战(一),数据的自我管理和自调优,基于云上的数据管理的挑战(二),基于大量节点的查询优化算法基于大量节点的索引结构,基于云上的数据管理的挑战(三),资源调度和负载均衡多租户情况中,总结,47,海量数据管理:新的挑战和机遇;企业和学术界共同面对的课题云数据管理技术方兴未艾国产数据库企业发展的一个新的机遇和挑战,Further Reading,F.Chang et al.Bigtabl

12、e:A distributed storage system for structured data.In OSDI,2006.J.Dean and S.Ghemawat.MapReduce:Simplified data processing on large clusters.In OSDI,2004.G.DeCandia et al.Dynamo:Amazons highly available key-value store.In SOSP,2007.S.Ghemawat,H.Gobioff,and S.-T.Leung.The Google File System.In Proc.S

13、OSP,2003.D.Kossmann.The state of the art in distributed query processing.ACM Computing Surveys,32(4):422469,2000.,Further Reading,Efficient Bulk Insertion into a Distributed Ordered Table(SIGMOD 2008)Adam Silberstein,Brian Cooper,Utkarsh Srivastava,Erik Vee,Ramana Yerneni,Raghu Ramakrishnan PNUTS:Ya

14、hoo!s Hosted Data Serving Platform(VLDB 2008)Brian Cooper,Raghu Ramakrishnan,Utkarsh Srivastava,Adam Silberstein,Phil Bohannon,Hans-Arno Jacobsen,Nick Puz,Daniel Weaver,Ramana YerneniAsynchronous View Maintenance for VLSD Databases,Parag Agrawal,Adam Silberstein,Brian F.Cooper,Utkarsh Srivastava and

15、 Raghu RamakrishnanSIGMOD 2009 Cloud Storage Design in a PNUTShellBrian F.Cooper,Raghu Ramakrishnan,and Utkarsh SrivastavaBeautiful Data,OReilly Media,2009,Further Reading,F.Chang et al.Bigtable:A distributed storage system for structured data.In OSDI,2006.J.Dean and S.Ghemawat.MapReduce:Simplified

16、data processing on large clusters.In OSDI,2004.G.DeCandia et al.Dynamo:Amazons highly available key-value store.In SOSP,2007.S.Ghemawat,H.Gobioff,and S.-T.Leung.The Google File System.In Proc.SOSP,2003.D.Kossmann.The state of the art in distributed query processing.ACM Computing Surveys,32(4):422469,2000.,谢谢!,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 建筑/施工/环境 > 项目建议


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号