第1章-云计算与大数据基础方案课件.ppt

资源描述

《第1章-云计算与大数据基础方案课件.ppt》由会员分享，可在线阅读，更多相关《第1章-云计算与大数据基础方案课件.ppt（89页珍藏版）》请在三一办公上搜索。

1、云计算与大数据技术,人民邮电出版社,王鹏黄焱安俊秀张逸琴编著,目录 CONTENTS,第1章云计算与大数据基础第2章云计算与大数据的相关技术第3章虚拟化技术第4章集群系统基础第5章 MPI面向计算第6章 Hadoop分布式大数据系统第7章 HPCC面向数据的高性能计算集群系统第8章 Storm基于拓扑的流数据实时计算系统第9章服务器与数据中心第10章云计算大数据仿真技术,第1章云计算与大数据基础,云计算与大数据技术,第1章云计算与大数据基础,1.1云计算技术概述1.1.1云计算简介1.1.2云计算的特点1.1.3云计算技术分类1.2大数据技术概述1.2.1大

2、数据简介1.2.2主要的大数据处理系统1.2.3大数据处理的基本流程1.3云计算与大数据的发展,1.1.1云计算简介,云计算技术是硬件技术和网络技术发展到一定阶段而出现的一种新的技术模型云计算并不是对某一项独立技术的称呼，而是对实现云计算模式所需要的所有技术的总称。,云计算技术的内容很多包括分布式计算技术、虚拟化技术、网络技术、服务器技术、数据中心技术、云计算平台技术、存储技术等。从广义上说，云计算技术几乎包括了当前信息技术中的绝大部分。,1.1.1云计算简介,维基百科中对云计算的定义为：云计算是一种基于互联网的计算方式，通过这种方式，共享的软硬件资源和信息可以按需求提供给计算机和其他设备。2

3、012年的国务院政府工作报告将云计算作为国家战略性新兴产业给出了定义：云计算是基于互联网的服务的增加、使用和交付模式，通常涉及通过互联网来提供动态、易扩展且经常是虚拟化的资源。云计算是传统计算机和网络技术发展融合的产物，它意味着计算能力也可作为一种商品通过互联网进行流通。,1.1.1云计算简介,云计算技术的出现改变了信息产业传统的格局。传统的信息产业企业既是资源的整合者又是资源的使用者；这这种格局并不符合现代产业分工高度专业化的需求，同时也不符合企业需要灵敏地适应客户的需要。,1.1.1云计算简介,传统的计算资源和存储资源大小通常是相对固定的，面对客户高波动性的需求时会非常的不敏捷，企业的计算

4、和存储资源要么是被浪费，要么是面对客户峰值需求时力不从心。云计算技术使资源与用户需求之间是一种弹性化的关系，资源的使用者和资源的整合者并不是一个企业，资源的使用者只需要对资源按需付费，从而敏捷地响应客户不断变化的资源需求，这一方法降低了资源使用者的成本，提高了资源的利用效率。,1.1.1云计算简介,云计算时代基本的3种角色：资源的整合运营者、资源的使用者、终端客户。资源的整合运营者就像是发电厂负责资源的整合输出；资源的使用者负责将资源转变为满足客户需求的各种应用；终端客户为资源的最终消费者。,1.1.1云计算简介,云计算这种新的模式的出现被认为是信息产业的一大变革，吸引了大量企业重新布局：IB

5、M、微软、谷歌、DELL等企业国内企业：华为、中兴、腾讯、阿里、联想、浪潮、五舟等企业,1.1.1云计算简介,云计算技术作为一项涵盖面广且对产业影响深远的技术，未来将逐步渗透到信息产业和其他产业的方方面面，并将深刻改变产业的结构模式、技术模式和产品销售模式，进而深刻影响人们的生活；云计算会逐步成为人们生活中必不可少的技术；,1.1.1云计算简介,移动互联网的出现使云计算应用走向了人们的指间，推动了云计算技术的应用发展，今后云计算将是一项随时、随地、随身为我们提供服务的技术；云计算的出现也将如电的出现一般，为信息产业的发展提供无限的想象空间，使应用的创新能力得到完全释放。,1.1.1云计算简介,

6、1.1.2云计算的特点1资源池弹性可扩张2按需提供资源服务3虚拟化4网络化的资源接入5高可靠性和安全性,1.1.2云计算的特点,与传统的资源提供方向相比，云计算具有以下特点：（1）资源池弹性可扩张云计算系统的一个重要特征就是资源的集中管理和输出，这就是所谓的资源池。从资源低效率的分散使用到资源高效的集约化使用正是云计算的基本特征之一。分散的资源使用方法造成了资源的极大浪费，现在每个人都可能有一到两台自己的计算机，但对这种资源的利用率却非常的低，计算机在大量时间都是在等待状态或是在处理文字数据等低负荷的任务。资源集中起来后资源的利用效率会大大地提高，随着资源需求的不断提高，资源池的弹性化扩张能力

7、成为云计算系统的一个基本要求，云计算系统只有具备了资源的弹性化扩张能力才能有效地应对不断增长的资源需求。大多数云计算系统都能较为方便地实现新资源的加入。,1.1.2云计算的特点,（2）按需提供资源服务云计算系统带给客户最重要的好处就是敏捷地适应用户对资源不断变化的需求；云计算系统实现按需向用户提供资源能大大节省用户的硬件资源开支，用户不用自己购买并维护大量固定的硬件资源，只需向自己实际消费的资源量来付费；按需提供资源服务使应用开发者在逻辑上可以认为资源池的大小是不受限制的，应用开发者的主要精力只需要集中在自己的应用上。,1.1.2云计算的特点,（3）虚拟化现有的云计算平台的重要特点是利用软件来

8、实现硬件资源的虚拟化管理、调度及应用。在云计算中利用虚拟化技术可大大降低维护成本和提高资源的利用率。,1.1.2云计算的特点,（4）网络化的资源接入。从最终用户的角度看，基于云计算系统的应用服务通常都是通过网络来提供的，应用开发者将云计算中心的计算、存储等资源封装为不同的应用后往往会通过网络提供给最终的用户。云计算技术必须实现资源的网络化接入才能有效地向应用开发者和最终用户提供资源服务。以网络技术的发展是推动云计算技术出现的首要动力。,1.1.2云计算的特点,（5）高可靠性和安全性。用户数据存储在服务器端，而应用程序在服务器端运行，计算由服务器端来处理。所有的服务分布在不同的服务器上，如果什么

9、地方（节点）出问题就在什么地方终止它，另外再启动一个程序或节点，即自动处理失败节点，从而保证了应用和计算的正常进行。数据被复制到多个服务器节点上有多个副本（备份），存储在云里的数据即使遇到意外删除或硬件崩溃也不会受到影响。,1.1.2云计算的特点,1.1.3云计算技术分类,1.1.3云计算技术分类1按技术路线分类2按服务对象分类3按资源封装的层次分类,目前已出现的云计算技术种类非常多，对于云计算的分类可以有多种角度：从技术路线角度可以分为资源整合型云计算和资源切分型云计算；从服务对像角度可以被分为公有云和私有云；按资源封装的层次来分可以分为：基础设施即服务（Infrastructure as

10、a Service，IaaS）平台即服务（Platform as a Service，PaaS）软件即服务（Software as a Service，SaaS）。,1.1.3云计算技术分类,1按技术路线分类资源整合型云计算：这种类型的云计算系统在技术实现方面大多体现为集群架构，通过将大量节点的计算资源和存储资源整合后输出。这类系统通常能实现跨节点弹性化的资源池构建，核心技术为分布式计算和存储技术。MPI、Hadoop、HPCC、Storm等都可以被分类为资源整合型云计算系统。,1.1.3云计算技术分类,资源切分型云计算：这种类型最为典型的就是虚拟化系统，这类云计算系统通过系统虚拟化实现对单个

11、服务器资源的弹性化切分，从而有效地利用服务器资源，其核心技术为虚拟化技术。这种技术的优点是用户的系统可以不做任何改变接入采用虚拟化技术的云系统，是目前应用较为广泛的技术，特别是在桌面云计算技术上应用得较为成功；缺点是跨节点的资源整合代价较大；KVM、VMware都是这类技术的代表。,1.1.3云计算技术分类,2按服务对象分类公有云：指服务对象是面向公众的云计算服务，公有云对云计算系统的稳定性、安全性和并发服务能力有更高的要求。私有云：指主要服务于某一组织内部的云计算服务，其服务并不向公众开放，如企业、政府内部的云服务。公有云与私有云的界限并不是特别清晰，有时服务于一个地区和团体的云也被称为公有

12、云。所以这种云计算分类方法并不是一种准确的分类方法，主要是在商业领域的一种称呼。,1.1.3云计算技术分类,3按资源封装的层次分类基础设施即服务（Infrastructure as a Service，IaaS）：把单纯的计算和存储资源不经封装地直接通过网络以服务的形式提供的用户使用。这类云计算服务用户的自主性较大，就像是发电厂将发的电直接送出去一样。这类云服务的对象往往是具有专业知识能力的资源使用者，传统数据中心的主机租用等可能作为IaaS的典型代表。,1.1.3云计算技术分类,平台即服务（Platform as a Service，PaaS）：计算和存储资源经封装后，以某种接口和协议的形式

13、提供给用户调用，资源的使用者不再直接面对底层资源。平台即服务需要平台软件的支撑，可以认为是从资源到应用软件的一个中间件，通过这类中间件可以大大减小应用软件开发时的技术难度。这类云服务的对象往往是云计算应用软件的开发者，平台软件的开发需要使用者具有一定的技术能力。,1.1.3云计算技术分类,软件即服务（Software as a Service，SaaS）：将计算和存储资源封装为用户可以直接使用的应用并通过网络提供给用户；SaaS面向的服务对象为最终用户，用户只是对软件功能进行使用，无需了解任何云计算系统的内部结构，也不需要用户具有专业的技术开发能力。,1.1.3云计算技术分类,图1.1云计算服

14、务体系结构,如图所示，云计算系统按资源封装的层次分为IaaS、PaaS、SaaS，分为对底层硬件资源不同级别的封装，从而实现将资源转变为服务的目的。,传统的信息系统资源的使用者通常是以直接占有物理硬件资源的形式来使用资源的，而云计算系统通过IaaS、PaaS、SaaS等不同层次的封装将物理硬件资源封装后，以服务的形式利用网络提供给资源的使用者。,在这里资源的使用者可能是资源的二次加工者，也可能是最终应用软件的使用者，通常IaaS、PaaS层面向的资源使用者往往是资源的二次加工者，这类资源的使用者并不是资源的最终消费者，他们将资源转变为应用服务程序后以SaaS的形式提供给资源的最终消费者。,实现

15、对物理资源封装的技术并不是惟一的，目前不少的软件都能实现，甚至有的系统只有SaaS层，并没有进行逐层的封装。,1.1.3云计算技术分类,云计算的服务层次是根据服务类型即服务集合来划分，与大家熟悉的计算机网络体系结构中层次的划分不同。在计算机网络中每个层次都实现一定的功能，层与层之间有一定关联。而云计算体系结构中的层次是可以分割的，即某一层次可以单独完成一项用户的请求而不需要其他层次为其提供必要的服务和支持。,1.1.3云计算技术分类,在云计算服务体系结构中各层次与相关云产品对应。应用层对应SaaS软件即服务，如：Google APPS、SoftWare+Services。平台层对应PaaS平台

16、即服务，如：IBM IT Factory、Google APPEngine、F。基础设施层对应IaaS基础设施即服务，如：Amazo EC2、IBM Blue Cloud、Sun Grid。虚拟化层对应硬件即服务，结合PaaS提供硬件服务，包括服务器集群及硬件检测等服务。,1.1.3云计算技术分类,1.2大数据技术概述,1.2大数据技术概述 1.2.1大数据简介1什么是大数据2数据的来源3生产数据的三个阶段4大数据的特点5大数据的应用领域,1.2大数据技术概述,1.2.1大数据简介计算和数据是信息产业不变的主题，在信息和网络技术迅速发展的推动下，人们的感知、计算、仿真、模拟、传播等活动产生了大

17、量的数据，数据的产生不受时间、地点的限制，大数据的概念逐渐形成，大数据涵盖了计算和数据两大主题，是产业界和学术界的研究热点，被誉为未来十年的革命性技术。,1.2.1大数据简介,2008年，Nature杂志推出了“大数据”专辑，引发了学术界和产业界的关注；2011年，大数据应用进入我国并快速发展，目前大数据的应用和研究已经是学术界和产业界的热点；2012年3月，美国政府发布大数据研究和发展倡议，投资2亿美元发展大数据,用以强化国土安全、转变教育学习模式、加速科学和工程领域的创新速度和水平；2012年7月，日本提出以电子政府、电子医疗、防灾等为中心制定新ICT（信息通信技术）战略，发布“新ICT计

18、划”，重点关注大数据研究和应用；2013年1月，英国政府宣布将在对地观测、医疗卫生等大数据和节能计算技术方面投资1.89亿英镑；2013年我国上海、重庆等地相继发布大数据行动计划。,1什么是大数据维基百科将大数据描述为：大数据是现有数据库管理工具和传统数据处理应用很难处理的大型、复杂的数据集，大数据的挑战包括采集、存储、搜索、共享、传输、分析和可视化等。大数据的“大”是一个动态的概念以前10GB的数据是个天文数字；而现在，在地球、物理、基因、空间科学等领域，TB级的数据集已经很普遍。大数据系统需要满足以下三个特性。（1）规模性（Volume）：需要采集、处理、传输的数据容量大；（2）多样性（V

19、ariety）：数据的种类多、复杂性高；（3）高速性（Velocity）：数据需要频繁地采集、处理并输出。,1.2.1大数据简介,2数据的来源大数据的数据来源很多，主要有信息管理系统、网络信息系统、物联网系统、科学实验系统等；其数据类型包括结构化数据、半结构化数据和非结构化数据。（1）管理信息系统：企业内部使用的信息系统，包括办公自动化系统、业务管理系统等，是常见的数据产生方式。管理信息系统主要通过用户输入和系统的二次加工的方式生成数据，其产生的数据大多为结构化数据，存储在数据库中。,1.2.1大数据简介,（2）网络信息系统：基于网络运行的信息系统是大数据产生的重要方式，电子商务系统、社交网络

20、、社会媒体、搜索引擎等都是常见的网络信息系统，网络信息系统产生的大数据多为半结构化或无结构化的数据，网络信息系统与管理信息系统的区别在于管理信息系统是内部使用的，不接入外部的公共网络。（3）物联网系统：通过传感器获取外界的物理、化学、生物等数据信息。（4）科学实验系统：主要用于学术科学研究，其环境是预先设定的，数据既可以是由真实实验产生也可以是通过模拟方式获取仿真的。,1.2.1大数据简介,3生产数据的三个阶段（1）被动式生成数据：数据库技术使得数据的保存和管理变得简单，业务系统在运行时产生的数据直接保存数据库中，这个时候数据的产生是被动的，数据是随着业务系统的运行产生的。,1.2.1大数据简

21、介,（2）主动式生成数据：互联网的诞生尤其是Web 2.0、移动互联网的发展大大加速了数据的产生，人们可以随时随地通过手机等移动终端随时随地地生成数据，人们开始主动地生成数据。（3）感知式生成数据：感知技术尤其是物联网的发展促进了数据生成方式发生了根本性的变化，遍布在城市各个角落的摄像头等数据采集设备源源不断地自动采集、生成数据。,1.2.1大数据简介,4大数据的特点（1）数据产生方式：在大数据时代，数据的产生方式发生了巨大的变化，数据的采集方式由以往的被动采集数据转变为主动生成数据。（2）数据采集密度：以往我们进行数据采集时的采样密度较低，获得的采样数据有限；在大数据时代，有了大数据处理平台

22、的支撑，我们可以对需要分析的事件的数据进行更加密集地采样，从而精确地获取事件的全局数据。（3）数据源：以往我们多从各个单一的数据源获取数据，获取的数据较为孤立，不同数据源之间的数据整合难度较大；在大数据时代，我们可以通过分布式计算、分布式文件系统、分布式数据库等技术对多个数据源获取的数据进行整合处理。,1.2.1大数据简介,（4）数据处理方式：以往我们对数据的处理大多采用离线处理的方式，对已经生成的数据集中进行分析处理，不对实时产生的数据进行分析；在大数据时代，我们可以根据应用的实际需求对数据采取灵活的处理方式，对于较大的数据源、响应时间要求低的应用可以采取批处理的方式进行集中计算，而对于响应

23、时间要求高的实时数据处理则采用流处理的方式进行实时计算，并且可以通过对历史数据的分析进行预测分析;,1.2.1大数据简介,大数据需要处理的数据大小通常达到PB（1024 TB）或EB（1024 PB）级;数据的类型多种多样，包括结构化数据、半结构化数据和非结构化数据;巨大的数据量和种类繁多的数据类型给大数据系统的存储和计算带来很大挑战，单节点的存储容量和计算能力成为瓶颈;分布式系统是对大数据进行处理的基本方法，分布式系统将数据切分后存储到多个节点上，并在多个节点上发起计算，解决单节点的存储和计算瓶颈。常见的数据切分的方法有随机方法、哈希方法和区间方法:随机方法将数据随机分布到不同的节点;哈希方

24、法根据数据的某一行或者某一列的哈希值将数据分布到不同的节点;区间方法将不同的数据按照不同区间分布到不同节点。,1.2.1大数据简介,5大数据的应用领域大数据在社会生活的各个领域得到广泛的应用，不同领域的大数据应用具有不同的特点，其对响应时间、系统稳定性、计算精确性的要求各不相同，其对比如表1.1所示。表1.1 典型的大数据应用特征对比,1.2.1大数据简介,1.2.2主要的大数据处理系统大数据处理的数据源类型多种多样，如结构化数据、半结构化数据、非结构化数据，数据处理的需求各不相同:对海量已有数据进行批量处理，对大量的实时生成的数据进行实时处理，在进行数据分析时进行反复迭代计算，对图数据进行分

25、析计算。,1.2.2主要的大数据处理系统,目前主要的大数据处理系统有:数据查询分析计算系统、批处理系统、流式计算系统、迭代计算系统、图计算系统和内存计算系统。1数据查询分析计算系统大数据时代，数据查询分析计算系统需要具备对大规模数据进行实时或准实时查询的能力，数据规模的增长已经超出了传统关系型数据库的承载和处理能力。目前主要的数据查询分析计算系统包括HBase、Hive、Cassandra、Dremel、Shark、Hana等。,1.2.2主要的大数据处理系统,HBase：开源、分布式、面向列的非关系型数据库模型，是Apache的Hadoop项目的子项目；源于Google论文Bigtable：

26、一个结构化数据的分布式存储系统，实现了其中的压缩算法、内存操作和布隆过滤器HBase的编程语言为Java。HBase的表能够作为MapReduce任务的输入和输出，可以通过Java API来存取数据。,1.2.2主要的大数据处理系统,Hive：基于Hadoop的数据仓库工具，用于查询、管理分布式存储中的大数据集，提供完整的SQL查询功能，可以将结构化的数据文件映射为一张数据表。Hive提供了一种类SQL语言（HiveQL）可以将SQL语句转换为MapReduce任务运行。,1.2.2主要的大数据处理系统,Cassandra：开源NoSQL数据库系统，最早由Facebook开发，并于2008年开

27、源；由于其良好的可扩展性，Cassandra被 Facebook、Twitter、Backspace、Cisco等公司使用；其数据模型借鉴了 Amazon的 Dynamo和 Google BigTable，是一种流行的分布式结构化数据存储方案。,1.2.2主要的大数据处理系统,Impala：由Cloudera公司主导开发，是运行在Hadoop平台上的开源的大规模并行SQL查询引擎。用户可以使用标准的SQL接口的工具查询存储在Hadoop的HDFS和HBase中的PB级大数据。,1.2.2主要的大数据处理系统,Shark：Spark上的数据仓库实现，即SQL on Spark；与Hive相兼容，

28、但处理Hive QL 的性能比Hive 快100 倍。Hana：由SAP公司开发的与数据源无关、软硬件结合、基于内存计算的平台。,1.2.2主要的大数据处理系统,2批处理系统MapReduce是被广泛使用的批处理计算模式。MapReduce对具有简单数据关系、易于划分的大数据采用“分而治之”的并行处理思想，将数据记录的处理分为Map和Reduce两个简单的抽象操作，提供了一个统一的并行计算框架。批处理系统将复杂的并行计算的实现进行封装，大大降低开发人员的并行程序设计难度。Hadoop和Spark是典型的批处理系统。MapReduce的批处理模式不支持迭代计算。,1.2.2主要的大数据处理系统,

29、Hadoop：目前大数据处理最主流的平台，是Apache基金会的开源软件项目，使用Java语言开发实现。Hadoop平台使开发人员无需了解底层的分布式细节，即可开发出分布式程序，在集群中对大数据进行存储、分析。,1.2.2主要的大数据处理系统,Spark：由加州伯克利大学AMP实验室开发，适合用于机器学习、数据挖掘等迭代运算较多的计算任务。Spark引入了内存计算的概念，运行Spark时服务器可以将中间数据存储在RAM内存中，大大加速数据分析结果的返回速度，可用于需要互动分析的场景。,1.2.2主要的大数据处理系统,3流式计算系统流式计算具有很强的实时性，需要对应用源源不断产生的数据实时进行处

30、理，使数据不积压、不丢失，常用于处理电信、电力等行业应用以及互联网行业的访问日志等。Facebook 的 Scribe、Apache的 Flume、Twitter的 Storm、Yahoo的S4、UCBerkeley的Spark Streaming是常用的流式计算系统。,1.2.2主要的大数据处理系统,Scribe：Scribe 由 Facebook 开发开源系统，用于从海量服务器实时收集日志信息，对日志信息进行实时的统计分析处理，应用在Facebook内部。Flume：Flume由 Cloudera 公司开发，其功能与Scribe相似，主要用于实时收集在海量节点上产生的日志信息，存储到类似于

31、HDFS的网络文件系统中，并根据用户的需求进行相应的数据分析。,1.2.2主要的大数据处理系统,Storm：基于拓扑的分布式流数据实时计算系统，由BackType公司（后被Twitter收购）开发，现已经开放源代码，并应用于淘宝、百度、支付宝、Groupon、Facebook等平台，是主要的流数据计算平台之一。,1.2.2主要的大数据处理系统,S4：S4的全称是Simple Scalable Streaming System，是由Yahoo开发的通用、分布式、可扩展、部分容错、具备可插拔功能的平台；其设计目的是根据用户的搜索内容计算得到相应的推荐广告，现已经开源，是重要的大数据计算平台。,1.

32、2.2主要的大数据处理系统,Spark Streaming：构建在Spark上的流数据处理框架，将流式计算分解成一系列短小的批处理任务进行处理。网站流量统计是Spark Streaming的一种典型的使用场景，这种应用既需要具有实时性，还需要进行聚合、去重、连接等统计计算操作；如果使用Hadoop MapReduce框架，则可以很容易地实现统计需求，但无法保证实时性；如果使用Storm这种流式框架则可以保证实时性，但实现难度较大；Spark Streaming可以以准实时的方式方便地实现复杂的统计需求。,1.2.2主要的大数据处理系统,4迭代计算系统针对MapReduce不支持迭代计算的缺陷

33、，人们对Hadoop的MapReduce进行了大量改进，Haloop、iMapReduce、Twister、Spark是典型的迭代计算系统。HaLoop：Haloop是Hadoop MapReduce框架的修改版本，用于支持迭代、递归类型的数据分析任务，如PageRank、K-means等。iMapReduce：一种基于MapReduce 的迭代模型，实现了MapReduce 的异步迭代。Twister：基于Java的迭代MapReduce模型，上一轮Reduce的结果会直接传送到下一轮的Map。Spark：基于内存计算的开源集群计算框架。,1.2.2主要的大数据处理系统,5图计算系统社交网络

34、、网页链接等包含具有复杂关系的图数据，这些图数据的规模巨大，可包含数十亿顶点和上百亿条边，图数据需要由专门的系统进行存储和计算。常用的图计算系统有Google公司的Pregel、Pregel的开源版本Giraph、微软的Trinity、BerkeleyAMPLab的GraphX以及高速图数据处理系统PowerGraph。,1.2.2主要的大数据处理系统,Pregel：Google公司开发的一种面向图数据计算的分布式编程框架，采用迭代的计算模型。Google的数据计算任务中，大约80%的任务处理采用MapReduce模式，如网页内容索引；图数据的计算任务约占20%，采用Pregel进行处理。Gi

35、raph：一个迭代的图计算系统，最早由雅虎公司借鉴Pregel系统开发，后捐赠给Apache软件基金会，成为开源的图计算系统。Giraph是基于Hadoop建立的，Facebook在其脸谱搜索服务中大量使用了Giraph。,1.2.2主要的大数据处理系统,Trinity：微软公司开发的图数据库系统，该系统是基于内存的数据存储与运算系统，源代码不公开。GraphX：由AMPLab开发的运行在数据并行的Spark平台上的图数据计算系统。PowerGraph：高速图处理系统，常用于广告推荐计算和自然语言处理。,1.2.2主要的大数据处理系统,6内存计算系统随着内存价格的不断下降、服务器可配置内存容量

36、的不断增长，使用内存计算完成高速的大数据处理已成为大数据处理的重要发展方向。目前常用的内存计算系统有分布式内存计算系统Spark、全内存式分布式数据库系统 HANA、Google的可扩展交互式查询系统Dremel。,1.2.2主要的大数据处理系统,Dremel：Google的交互式数据分析系统，可以在数以千计的服务器组成的集群上发起计算，处理PB级的数据。Dremel是Google MapReduce的补充，大大缩短了数据的处理时间，成功地应用在Google的bigquery中。HANA：SAP公司开发的基于内存技术、面向企业分析性的产品。Spark：基于内存计算的开源集群计算系统。,1.2.

37、2主要的大数据处理系统,1.2.3大数据处理的基本流程,1.2.3大数据处理的基本流程大数据的处理流程可以定义为在适合工具的辅助下，对广泛异构的数据源进行抽取和集成，结果按照一定的标准统一存储，利用合适的数据分析技术对存储的数据进行分析，从中提取有益的知识并利用恰当的方式将结果展示给终端用户。大数据处理的基本流程如图1.2所示。,图1.2大数据处理的基本流程,1数据抽取与集成由于大数据处理的数据来源类型丰富，大数据处理的第一步是对数据进行抽取和集成，从中提取出关系和实体，经过关联和聚合等操作，按照统一定义的格式对数据进行存储。现有的数据抽取和集成方法有三种：基于物化或ETL方法的引擎（Mate

38、rialization or ETL Engine）、基于联邦数据库或中间件方法的引擎（Federation Engine or Mediator）、基于数据流方法的引擎（Stream Engine）。,1.2.3大数据处理的基本流程,2数据分析数据分析是大数据处理流程的核心步骤，通过数据抽取和集成环节，我们已经从异构的数据源中获得了用于大数据处理的原始数据，用户可以根据自己的需求对这些数据进行分析处理，比如数据挖掘、机器学习、数据统计等，数据分析可以用于决策支持、商业智能、推荐系统、预测系统等。,1.2.3大数据处理的基本流程,3数据解释大数据处理流程中用户最关心的是数据处理的结果，正确的数

39、据处理结果只有通过合适的展示方式才能被终端用户正确理解，因此数据处理结果的展示非常重要，可视化和人机交互是数据解释的主要技术。,1.2.3大数据处理的基本流程,我们在开发调试程序的时候经常通过打印语句的方式来呈现结果，这种方式非常灵活、方便，但只有熟悉程序的人才能很好地理解打印结果。使用可视化技术，可以将处理的结果通过图形的方式直观地呈现给用户，标签云（Tag Cloud）、历史流（History Flow）、空间信息流（Spatial Information Flow）等是常用的可视化技术，用户可以根据自己的需求灵活地使用这些可视化技术；人机交互技术可以引导用户对数据进行逐步的分析，使用户参

40、与到数据分析的过程中，使用户可以深刻地理解数据分析结果。,1.2.3大数据处理的基本流程,1.3云计算与大数据的发展,1.3云计算与大数据的发展1云计算与大数据发展历程早在1958年，人工智能之父 John McCarthy 发明了函数式语言LISP，LISP 语言后来成为MapReduce的思想来源。1960年John McCarthy 预言了：“今后计算机将会作为公共设施提供给公众”，这一概念与我们现在所定义的云计算已非常相似，但当时的技术条件决定了这一设想只是一种对未来技术发展的预言。云计算是网络技术发展到一定阶段后必然出现的新的技术体系和产业模式。1984年SUN公司提出“网络就是计算

41、机”这一具有云计算特征的论点，2006年Google公司CEO Eric Schmidt提出云计算概念，2008年云计算概念全面进入中国，2009年中国首届云计算大会召开，此后云计算技术和产品迅速地发展起来。,随着社交网络、物联网等技术的发展，数据正在以前所未有的速度增长和积累，IDC的研究数据表明，全球的数据量每年增长50%，两年翻一番，这意味着全球近两年产生的数据量将超过之前全部数据的总和。2011年全球数据总量已达1.8ZB，到2020年，全球数据总量将达到35 ZB。2008年Nature杂志推出了大数据专刊，2011年Science杂志推出大数据专刊，讨论科学研究的中大数据问题。20

42、12年大数据的关注度和影响力快速增长，成为当年达沃斯世界经济论坛的主题，美国政府启动大数据发展计划。中国计算机学会于2012年成立了大数据专家委员会，并发布了大数据技术白皮书。,1.3云计算与大数据的发展,图1.3近年来云计算、大数据的关注度如图1.3所示为云计算、大数据两个关键词近年来的网络关注度，可以看出2012年至今大数据的关注度越来越高，云计算和大数据是信息技术未来的发展方向。,1.3云计算与大数据的发展,网络技术在云计算和大数据的发展历程中发挥了重要的推动作用。可以认为信息技术的发展经历了硬件发展推动和网络技术推动两个阶段。早期主要以硬件发展为主要动力，在这个阶段硬件的技术水平决

43、定着整个信息技术的发展水平，硬件的每一次进步都有力地推动着信息技术的发展，从电子管技术到晶体管技术再到大规模集成电路，这种技术变革成为产业发展的核心动力。但网络技术的出现逐步地打破了单纯的硬件能力决定技术发展的格局，通信带宽的发展为信息技术的发展提供了新的动力，在这一阶段通信带宽成为了信息技术发展的决定性力量之一，云计算、大数据技术的出现正是这一阶段的产物，其广泛应用并不是单纯靠某一个人发明而是由于技术发展到现在的必然产物，生产力决定生产关系的规律在这里依然是成立的。,1.3云计算与大数据的发展,当前移动互联网的出现并迅速普及更是对云计算、大数据的发展起到了推动作用。移动瘦客户终端与云计算资源

44、池的结合大大拓展了移动应用的思路，云计算资源得以在移动终端上实现随时、随地、随身资源服务。移动互联网再次拓展了以网络化资源交付为特点的云计算技术的应用能力，同时也改变了数据的产生方式，推动了全球数据的快速增长，推动了大数据的技术和应用的发展。,1.3云计算与大数据的发展,云计算是一种全新的领先信息技术，结合IT技术和互联网实现超级计算和存储的能力，而推动云计算兴起的动力是高速互联网和虚拟化技术的发展、更加廉价且功能强劲的芯片及硬盘、数据中心的发展。云计算作为下一代企业数据中心，其基本形式为大量链接在一起的共享IT基础设施，不受本地和远程计算机资源的限制，可以很方便地访问云中的“虚拟”资源，使用

45、户和云服务提供商之间可以像访问网络一样进行交互操作。,1.3云计算与大数据的发展,云计算的兴起有以下因素：（1）高速互联网技术发展。云计算能够利用现有的IT基础设施在极短的时间内处理大量的信息以满足动态网络的高性能的需求。（2）资源利用率需求。引入云计算模式后可以通过整合资源或采用租用存储空间、租用计算能力等服务来降低企业运行成本和节省能源。同时，利用云计算将资源集中，统一提供可靠服务，能减少企业成本，提升企业灵活性，企业可以把更多的时间用于服务客户和进一步研发新的产品上。,1.3云计算与大数据的发展,（3）简单与创新需求。在实际的业务需求中，越来越多的个人用户和企业用户都在期待着使用计算机操

46、作能简单化，能够直接通过购买软件或硬件服务而不是软件或硬件实体，为自己的学习、生活和工作带来更多的便利，能在学习场所、工作场所、住所之间建立便利的文件或资料共享的纽带。而对资源的利用可以简化到通过接入网络就可以实现自己想要实现的一切，就需要在技术上有所创新，利用云计算来提供这一切，将我们需要的资料、数据、文档、程序等全部放在云端实现同步。,1.3云计算与大数据的发展,（4）其他需求连接设备、实时数据流、SOA的采用以及搜索、开放协作、社会网络和移动商务等的移动互联网应用急剧增长，数字元器件性能的提升也使IT环境的规模大幅度提高，从而进一步加强了对一个由统一的云进行管理的需求。个人或企业希望按需

47、计算或服务，能在不同的地方实时实现项目、文档的协作处理，能在繁杂的信息中方便地找到自己需要的信息等需求也是云计算兴起的原因之一。人类历史不断地证明生产力决定生产关系，技术的发展历史也证明了技术能力决定技术的形态，,1.3云计算与大数据的发展,纵观整个信息技术的发展历史图1.4信息产业发展演进路线图,1.3云计算与大数据的发展,硬件驱动的时代诞生了IBM、微软、Intel等企业。20世纪50年代最早的网络开始出现，信息产业的发展驱动力中开始出现网络的力量，但当时网络性能很弱，网络并不是推动信息产业发展的主要动力，处理器等硬件的影响还占绝对主导因素。随着网络的发展，网络通信带宽逐步加大，从20世

48、纪80年代的局域网到20世纪90年代的互联网，网络逐渐成为了推动信息产业发展的主导力量，这个时期诞生了百度、谷歌、亚马逊等企业。直到云计算的出现才标志着网络已成为信息产业发展的主要驱动力，此时技术的变革即将出现。,1.3云计算与大数据的发展,2为云计算与大数据发展做出贡献的科学家超级计算机之父西摩克雷（Seymour Cray）在人类解决计算和存储问题的历程中，西摩克雷成为了一座丰碑，被称为超级计算机之父。西摩克雷，生于1925年9月28日，美国人，1958年设计建造了世界上第一台基于晶体管的超级计算机，成为计算机发展史上的重要里程碑。同时也对精简指令（RISC）高端微处理器的产生有重大的贡

49、献。1972年，他创办了克雷研究公司，公司的宗旨是只生产超级计算机。此后的十余年中，克雷先后创造了Cray-1、Cray-2等机型。作为高性能计算机领域中最重要的人物之一，他亲手设计了Cray全部的硬件与操作系统。Cray机成为了从事高性能计算学者中永远的记忆，到1986年1月为止，世界上有130台超级计算机投入使用，其中大约90台是由克雷的上市公司克雷研究所研制的。美国的商业周刊在1990年的一篇文章中曾这样写道：“西摩克雷的天赋和非凡的干劲已经给本世纪的技术留下了不可磨灭的印记”。2013年11月高性能计算Top500排行中第2名和第6名均为Cray机。,图1.5西摩克雷,1.3云计算与大

50、数据的发展,2为云计算与大数据发展做出贡献的科学家云计算之父约翰麦卡锡（John McCarthy）约翰麦卡锡1927年生于美国，1951年获得普林斯顿大学数学博士学位。他因在人工智能领域的贡献而在1971年获得图灵奖；麦卡锡真正广为人知的称呼是“人工智能之父”，因为他在1955年的达特矛斯会议上提出了“人工智能”这个概念，使人工智能成为了一门新的学科。1958年发明了LISP语言，而LISP语言中的MapReduce在几十年后成为了Google云计算和大数据系统中最为核心的技术。麦卡锡更为富有远见的预言是他在1960年提出的“今后计算机将会作为公共设施提供给公众”这一观点与现在的云计算的理念

展开阅读全文