《大数据技术研究.ppt》由会员分享,可在线阅读,更多相关《大数据技术研究.ppt(35页珍藏版)》请在三一办公上搜索。
1、大 数 据 技 术 研 究,目 录,-2-,一、大数据的背景与定义,二、大数据的关键技术,三、网管领域应用展望,数据管理技术发展历史,数据管理技术历经人工管理、文件管理、数据库管理等时代,大数据技术的出现使该领域进入了一个新的发展阶段,-3-,1946,1951,1956,1961,1970,1974,1979,1991,2001,2003,2008,2011,第一台计算机ENIAC面世,磁带+卡片人工管理,磁盘被发明,进入文件管理时代,SQL,E-R,GE公司发明第一个网络模型数据库,但仅限于GE自己的主机,1960年代,IT系统规模和复杂度变大,数据与应用分离的需求开始产生,数据库技术开始
2、萌芽并蓬勃发展,并在1990年后逐步统一到以关系型数据库为主导,IBM E.F.Dodd提出关系模型,SQL语言被发明,关系型数据库,ORACLE发布第一个商用SQL关系数据库,后续快速发展,数据仓库,数据仓库开始涌现,关系数据库开始全面普及且平台无关,进入成熟期,2001年后,互联网迅速发展,数据量成倍递增,量变引起质变,开始对数据管理技术提出全新的要求,1946年,电脑诞生,数据与应用紧密捆绑在文件中,彼此不分,Hadoop成为Apache顶级项目,重点支持海量数据分布式管理和分布式计算,GFS,谷歌发表论文介绍分布式计算,大数据发展背景,全球信息化发展已步入大数据时代150亿个设备连接到
3、互联网全球每秒钟发送 290万封电子邮件每天有 2.88 万小时视频上传到YoutubeFacebook 每日评论达32亿条,每天上传照片近3亿张,每月处理数据总量约130万TB2011年全球产生数据量1.8ZB,预计2020年将增长到35ZB大数据正迅速成为最值得关注的IT领域之一2011年5月,EMC World 2011大会主题“云计算相遇大数据”,EMC 除了一直倡导的云计算外,还抛出大数据(BigData)概念2011年6月底,IBM、麦肯锡等众多国外机构发布大数据相关研究报告,予以积极跟进2011 年10 月,Gartner 认为2012 年十大战略技术将包括大数据2011 年11
4、 月底,IDC 将大数据放入2012 年信息通信产业十大预测之一,-4-,IDC全球数据量预测(1ZB=1百万PB=10亿TB),Google网站 Big data关键词搜索及新闻引用量,大数据的定义,IDC对大数据的定义大数据技术将被设计用于在成本可承受(economically)的条件下,通过非常快速(velocity)的采集、发现和分析,从大体量(volumes)、多类别(variety)的数据中提取价值(value),是IT领域新一代的技术与架构解读大数据定义业务目标:在1E(成本可接受-economically)的条件下从大数据中提取数据的价值(Value)技术要求:满足3V(快速-
5、Velocity、大体量-Volumes、多类别-Variety)的特征技术方案:未提及,可能是新兴技术与传统技术的混搭,-5-,IT行业大数据相关动向和举措,-6-,大数据正成为IT行业全新的制高点,各企业和组织纷纷助推大数据的发展,相关技术呈现百花齐放局面,并在互联网应用领域崭露头角,商业解决方案,HP 2011年推出vertica数据库 Oracle 2011年推出noSQL数据库EMC 2010年收购GreenplumTeradata 2011年收购Asterdata,并推出SQL-MapreduceIBM 2010年收购NetezzaSAP 2011年收购Sybase,开源解决方案,
6、开源组织Apache在2008年将Hadoop列为顶级项目 2010年 HBase自Hadoop上诞生 开源组织GNU 2010年发布Mongodb Vmware 2010年提供开源产品Redis Twitter 2011年提供开源产品Storm,商业企业和开源组织都纷纷推出各种大数据解决方案,这些方案既存在相同点,也各有侧重,目前尚无统一的行业技术标准或技术领域细分规则,互联网企业IT实力强且海量数据处理需求最为迫切,是大数据发起者、倡导者、开发者和最终使用者,大数据应用场景十分清晰Google 研发Bigtable并自行使用Yahoo发起Hadoop/Hbase开源并自用,FACEBOOK
7、、百度、淘宝等均使用Twitter开发Storm自用并提供开源,传统企业IT能力有限,数据处理工作主要依赖于系统集成商,重点在应用实现,IT技术路线上以跟随成熟技术(含开源技术)为主目前还是以数据库、数据仓库技术为主,对大数据技术仍处于认知或小范围摸索实验阶段,应用场景仍在分析梳理中,互联网企业,传统企业,目 录,-7-,一、大数据的背景与定义,二、大数据的关键技术,三、网管领域应用展望,相关概念与相关技术概览,数据结构:结构化数据与非结构化数据数据库数据模型:关系型数据库与非关系型数据库数据处理特性:OLTP与OLAP数据一致性:强一致性与最终一致性数据存储方式:行式存储与列式存储数据库存储
8、与处理架构:SMP与MPP数据存储架构:传统分布式文件与新型分布式文件数据处理架构:基于并行计算的分布式数据处理技术(MapReduce),-8-,数据的结构结构化、非结构化、半结构化数据,-9-,结构化数据和非结构化数据都是客观存在,大数据技术需要涵盖两者,数据库数据模型关系型数据库与非关系型数据库,在大数据技术中非关系型数据库技术是必不可少的,但关系数据库也是不可或缺的,-10-,数据处理特性OLTP与OLAP,-11-,OLTP以业务操作型为主,OLAP以业务分析性为主,两者对技术的要求很难兼顾,数据一致性:强一致性与最终一致性,-12-,强一致性和最终一致性都是指客户端向数据库系统写入
9、数据后,数据库系统能够提供的数据一致性的表现,数据存储方式行式存储与列式存储,-13-,传统关系型数据库主要采用行存储模式,海量数据的高效存储和访问要求引发了从行存储模式向列存储模式的转变,行存储,列存储,样例数据表,数据库存储与处理架构SMP与MPP,在数据量急剧膨胀的背景下,数据库处理要求超出了单机或SMP架构能力范围,最高配置小型机也无法满足,所以在大数据技术中,MPP架构(计算分布+存储分布)架构成为主流,-14-,计算分布,存储集中,DB Serv,共享磁盘,DB Serv,DB Serv,DB Serv,网络,SAN/FC,计算集中,存储集中,DB Serv,磁盘,计算分布,存储分
10、布,DB Serv,DB Serv,DB Serv,DB Serv,高速通信网络,磁盘,磁盘,磁盘,磁盘,Master,如:Oracle传统单机数据库,如:Oracle RAC小型机+共享盘阵,如:Greenplum、HbaseX86+本地硬盘,传统单机数据库,SMP架构数据库,MPP架构数据库,对称多处理,Symmetrical Multi-Processing有两台以上的服务器,各主机之间共享总线结构,共享数据存储磁盘节点数有限制,主要通过提高节点配置来提高整体处理能力,扩展能力有限对共享磁盘的访问可能成为瓶颈,SMP,大规模并行处理,Massively Parallel Processi
11、ng多个松耦合处理单元组成,数据存在本机磁盘上通过增加服务器数量提高系统处理能力,理论上可无限扩展,目技术可实现上千个节点互联对软件体系要求较高,需要通过软件层来调度和平衡各个节点的负载和并行处理过程,MPP,数据存储架构:传统分布式文件与新型分布式文件,-15-,传统分布式文件系统也可以适应海量数据增长,但是由于数据计算与存储是分离的,随数据量的增长,网络带宽形成瓶颈。新型分布式文件系统采用数据计算与存储绑定的新策略,可有效应对海量数据增长,X86 PC集群,数据存储:磁盘阵列,数据存储与计算合一,数据计算:数据服务器,数据靠网络传输,本机硬盘,本机硬盘,本机硬盘,本机硬盘,计算模式,拥有成
12、本,盘阵负责存储,数据服务器负责计算,彼此靠网络连接,计算效率受网络带宽影响,PC机自行负责存储和计算,数据与计算绑定,不受网络带宽影响,专用设备价格昂贵,维护费用高,通用PC,价格低廉,维护方便,存储模式,磁盘阵列存储,由每台PC机自带硬盘组成,容错模式,不能容忍盘阵设备出问题,靠RAID容错个别硬盘故障,容许PC节点故障,通过多个文件副本保证数据完整性,数据存储与计算分离,新型分布式文件系统Hadoop HDFS,-16-,Hadoop HDFS是新型分布式文件系统的典型代表,提供高可靠、高扩展、高吞吐能力的海量文件数据存储,元数据节点Namenode,文件名,文件块,文件块所在数据节点,
13、,文件元数据,1,2,3,数据节点Datanode,数据节点Datanode,数据节点Datanode,数据节点Datanode,先读取文件元数据,知道文件在哪,后读取各个文件块,管理文件分布存储,优点支持任意超大文件存储;硬件节点可不断扩展,低成本存储对上层应用屏蔽分布式部署结构,提供统一的文件系统访问接口,感觉就是一个大硬盘;应用无需知道文件具体存放位置,使用简单;文件分块存储(1块缺省64MB),不同块可分布在不同机器节点上,通过元数据记录文件块位置;应用顺序读取各个块系统设计为高容错性,允许廉价PC故障;每块文件数据在不同机器节点上保存3份;这种备份的另一个好处是可方便不同应用就近读取
14、,提高访问效率缺点适合大数据文件保存和分析,不适合小文件,由于分布存储需要从不同节点读取数据,效率反而没有集中存储高;一次写入多次读取,不支持文件修改是最基础的大数据技术,基于文件系统层面提供文件访问能力,不如数据库技术强大,但也是海量数据库技术的底层依托文件系统接口完全不同于传统文件系统,应用需要重新开发,上层应用,Yahoo Amazon Facebook Ebay 淘宝 百度 中国移动飞信 中国移动大云,行业应用,技术特点,基于并行计算的分布式数据处理技术(MapReduce),-17-,TaskTracker(MapTask),TaskTracker(MapTask),TaskTrac
15、ker(MapTask),TaskTracker(ReduceTask),TaskTracker(ReduceTask),中间结果,中间结果,中间结果,输出数据,输出数据,JobTracker,用户程序(JobClient),提交作业,任务调度,任务调度,状态监控,状态监控,MapReduce技术特性自动并行化:系统自动进行作业并行化处理自动可靠处理:系统自动处理节点/任务的故障检测和恢复灵活扩展:节点可以灵活加入和退出,系统自动感知节点状态并进行处理高性能:计算任务将被调度至数据所在的节点,减少网络开销,提升执行性能,MapReduce,MapReduce是解决海量数据处理的并行编程环境,各
16、类新兴数据库,面向文档的数据库MongoDB基于内存的键值存储数据库Redis分布式MPP架构/列存储数据库HBase分布式MPP架构/支持列存/关系型数据库Greenplum,-18-,面向文档的数据库技术原理,-19-,传统数据库只适合存储结构化数据,对于海量非结构化、半结构化数据则显得无能为力;面向文档数据库技术则填补了这一空白,传统做法,面向文档数据库,关系数据库,视频/图像/音频文件,复杂数据放在关系数据库,低价值大文件放在文件系统,彼此分离存储和访问,数据库的记录就是文档,涵盖各种数据类型,数据统一管理和访问数据库可分布式部署,对外提供统一视图,数据库 二维表 行,数据库 集合 文
17、档,技术特点,分布式存储所有数据保存在文件中文件中所有数据基于结构化描述语言组织,支持各种数据类型,包括大型对象(视频/音频等)支持多种类似SQL的数据检索方式适用场景网站数据存储大尺寸低价值数据多类型混杂的数据存储,面向文档的数据库MongoDB,-20-,MongoDB是面向文档数据库典型代表,视觉中国网站采用MongoDB替换原有关系数据库mysql,实现对各类数据的统一管理和应用,DB,在数据处理量上升一倍的情况下,硬件资源利用率反而下降20%数据读取速度,从400ms减少为60ms,效率提升6倍数据文件,从200G降到了70个G结构化数据与非结构化图片数据实现一体化处理Schema自
18、由,大大提升开发效率实现动态集群,添加新机器无需中断业务,应用效果,关系数据库用户信息表,MongoDB用户信息文档,用户ID,用户名,地址,地址,地址,个人站点,个人站点,个人站点,创意图片,创意图片,创意图片,用户信息分多表存储表关联查询图片文件另外存储,自行处理,用户数据集中在一个文档中数据与图片文件一体化存储用户数据内容任意扩展,创意图片,基于内存的键值存储数据库技术原理,-21-,由于传统关系型数据库主要采用二维表硬盘存储方式,难以满足海量数据高速大并发读写的需要,基于键值的分布式存储技术应运而生并得到广泛应用,关系数据库,WEB应用服务器,磁盘阵列,关系数据库,互联网用户,键值存储
19、数据库,WEB应用服务器,互联网用户,X86集群,存储介质,数据结构,获取方式,硬盘,读写速度慢,内存,读写速度快,二维表,不支持复杂数据结构,键值,值类型支持复杂数据结构,SQL,支持复杂查询,应用程序编程接口API,不支持复杂查询,技术特点,以内存为主要存储区域,读写速度最快,硬盘用于周期性备份键值(KEY-VALUE)结构,基于KEY实现分区存储,从而支持分布式部署,提高并发访问能力VALUE支持链、集合等复杂数据结构,便于程序直接使用,减少处理环节适合海量数据实时大批量简单读写,存储模式,磁盘阵列集中存储,支持X86分布式部署,KEY1,VALUE1,KEY2,VALUE2,KEY-n
20、,VALUE-n,数据在内存中存储和处理,基于内存的键值存储数据库Redis,-22-,键值存储技术的典型产品是Redis,由Vmware公司研发并提供开源,国内最大的应用是新浪微博,有200多台物理机运行Redis,Redis服务器内存,Redis服务器内存,Redis服务器内存,Redis服务器内存,读取,应用服务器,写入,写入,写入,写入,新浪微博需要为千万级用户实时快速计算并刷新关注、粉丝、微博的计数,并对用户及时通知新消息等,采用Redis使所有操作都在多台机器的内存中并发进行,读写效率提升至少15倍以上,分布式MPP架构/列存储数据库HBase,-23-,Hadoop HBase
21、是分布式MPP架构、列式存储数据库的典型代表,Hadoop分布式文件系统,HBase分布式数据库,海量数据表(例:用户行为分析),数据分区,并发读写,根据数据量增长自动横向扩展分区,用户名A-D,用户名E-H,用户名W-Z,表分区,表分区,表分区,数据物理存储位置透明,采取主备方式确保可靠存储,可动态增加数据节点机器,大数据量PB级分布式并发处理效率高易扩展、动态伸缩适用于廉价设备集群适合基于列的读操作,不适合基于行的写操作不适合关系模型数据组织模式,Hbase特点,YahooAmazonFacebookEbay淘宝百度中国移动飞信,行业应用,X86 PC服务器,X86 PC服务器,X86 P
22、C服务器,分布式MPP架构/支持列存/关系型数据库Greenplum,-24-,EMC公司的商业产品GreenPlum是一个基于分布式文件存储、MPP分布式处理架构的数据库,同时支持行存与列存,并且仍然保持了关系数据模型,外部数据源并行装载或导出,Segment节点执行查询计划及数据库存储管理,网络互联,Master节点生成查询计划并派发汇总执行结果,SQL语句,巨人网络征途游戏后台采用GreenPlum作为用户行为分析手段,比原有系统完整应用提高80倍效率,单笔查询提高120倍,主要客户包括:NASDAQ、FOX、巨人网络、阿里巴巴、中信银行、淘宝等,分布式MPP数据仓库代表产品特性比较,-
23、25-,Hadoop项目发展历程,2002年:Nutch项目启动,用于互联网网页的抓取和搜索2003年:Google披露GFS,2004则实现了Nutch Distributed Filesytem(NDFS)2004年:Google MapReduce发布,2005年则实现了Nutch MapReduce并移植到NDFS上2006年2月:Hadoop成为一个独立的项目,同时Doug Cutting加入Yahoo!2008年1月:Hadoop成为Apache的顶级项目2008年4月:Hadoop集群在Sortbenchmark中获得第一名(910台服务器,排序1TB数据,209秒),-26-,
24、Hadoop起源于Doug Cutting的Apache Nutch项目,是Apache资助的一个顶级开源项目,Hadoop不仅仅是一个产品,更是一套生态系统,Hadoop项目组成,-27-,;,Hadoop核心子项目HDFS:是一个分布式文件系统HBase:是一个基于HDFS、列存储数据库,提供海量数据存储能力MapReduce:是一个编程环境,提供并行处理框架,用于对HBase和HDFS的访问Hive:提供类似SQL的查询语言,通过MapReduce完成计算,实现对HBase的访问,案例:“Hadoop+MPP RDB”混搭架构,在Hadoop+MPP RDB架构中Hadoop负责非结构化
25、数据或简单结构数据的存储和处理Hadoop同时负责原始数据的抽取、转换、加载和轻度汇总等计算任务MPP RDB负责深度分析、复杂查询以及多变的自助分析应用等混搭架构的代表厂商有HP的Vertica产品EMC的产品等,-28-,混搭架构对结构化数据复杂处理会更有优势,同时也能获得很好的性价比,案例:信令监测系统数据存储架构优化方案,-29-,世纪鼎利公司江苏Mc口信令监测系统数据存储架构方案,与传统信令监测数据存储方案相比,核心变化是将数据量最大、数据结构相对单一的CDR数据从传统数据库迁移到分布式数据库中,从而实现全部应用部署在X86主机群上,目 录,-30-,一、大数据的背景与定义,二、大数
26、据的关键技术,三、网管领域应用展望,大数据领域“去小型机化”趋势明显,-31-,大数据领域去小型机化趋势已十分明显,“X86+本地硬盘”方案替代“小型机+盘阵”已经相对成熟,在可靠性上毫不逊色,在可扩展性、性能和价格上有绝对优势,网管系统也要积极跟进“去小型机化”趋势,小型机+盘阵集中存储,集中计算,数据远离计算,计算时需进行传输数据,性能较差X86+本地硬盘分散存储,并行计算,数据靠近计算,性能好,处理性能,小型机+盘阵具有很强的可靠性,是许多关键性业务采用此方案的原因X86+本地硬盘大数据技术设计之初就将软硬件故障作为常态进行考虑如Hadoop系统可以容忍单个磁盘出错以及整机出错,可靠性,
27、小型机+盘阵主要是纵向扩展,即提高主机配置,是有限的X86+本地硬盘横向扩展简单,成本低,可扩展性,网管数据存储与处理方式迁移建议,-32-,从数据量大小、是否结构化数据、事务性强弱、实时性高低、数据关系是否复杂等因素考虑,确定网管各类数据的存储与处理迁移方案,数据访问技术难度增高,-33-,传统数据库,数据库服务器,MPP RDB数据库,数据库服务器,集中访问,分布存储,内部高速通信网络,应用系统/用户,应用系统/用户,MapReduce,应用系统/用户,集中存储ShareDisk,标准SQL/SQL扩展,标准SQL/SQL扩展,API为主/类SQL为辅,1 开发程序,2 部署程序,3并行执行,4 程序返回结果,内部高速通信网络,传统数据库与MPP RDB数据提供的SQL非常强大,不仅实现数据的增删改查,还能够对数据进行各种关联和统计,而目前大量非传统数据库没有统一标准的访问接口,对数据的关联和统计功能需要应用程序自己实现,网管开发合作模式发生变化,-34-,大数据技术是业界大势所趋,其在网管领域的应用,将对合作伙伴的技术要求提到一个前所未有的新高度,网管厂商不仅要深入钻研和不断满足移动网络管理的业务需求,也要跟踪并熟练应用大数据最新技术,并确保系统的长期稳定发展,谢 谢!,