大数据及技术介绍.pptx

上传人:李司机 文档编号:4565681 上传时间:2023-04-28 格式:PPTX 页数:16 大小:3.23MB
返回 下载 相关 举报
大数据及技术介绍.pptx_第1页
第1页 / 共16页
大数据及技术介绍.pptx_第2页
第2页 / 共16页
大数据及技术介绍.pptx_第3页
第3页 / 共16页
大数据及技术介绍.pptx_第4页
第4页 / 共16页
大数据及技术介绍.pptx_第5页
第5页 / 共16页
点击查看更多>>
资源描述

《大数据及技术介绍.pptx》由会员分享,可在线阅读,更多相关《大数据及技术介绍.pptx(16页珍藏版)》请在三一办公上搜索。

1、大数据,大数据的概念介绍,Page 2,大数据(Big Data),或称巨量资料,指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。,非结构化数据的超大规模和增长总数据量的8090%比结构化数据增长快10倍到50倍是传统数据仓库的10倍到50倍,大数据的异构和多样性很多不同形式(文本、图像、视频、机器数据)无模式或者模式不明显不连贯的语法或句义,实时分析而非批量式分析数据输入、处理与丢弃立竿见影而非事后见效,大量的不相关信息对未来趋势与模式的可预测分析深度复杂分析(机器学习、人工智能Vs传统商务智能(咨询、报告

2、等),大数据的构成,Page 3,大数据=海量数据+复杂类型的数据,海量交易数据:企业内部的经营交易信息主要包括联机交易数据和联机分析数据,是结构化的、通过关系数据库进行管理和访问的静态、历史数据。通过这些数据,我们能了解过去发生了什么。,大数据包括:交易数据和交互数据集在内的所有数据集,海量交互数据:源于Facebook、Twitter、LinkedIn及其他来源的社交媒体数据构成。它包括了呼叫详细记录CDR、设备和传感器信息、GPS和地理定位映射数据、通过管理文件传输Manage File Transfer协议传送的海量图像文件、Web文本和点击流数据、科学信息、电子邮件等等。可以告诉我们

3、未来会发生什么。,海量数据处理:大数据的涌现已经催生出了设计用于数据密集型处理的架构。例如具有开放源码、在商品硬件群中运行的Apache Hadoop。,大数据引起的变革,Page 4,大数据时代,“更多”不是随机样本,而是全体数据,“更杂”不是精确性,而是混杂性,“更好”不是因果关系,而是相关关系,“数据化”一切皆可“量化”,“价值”“取之不尽,用之不竭”的数据创新,“角色定位”数据、技术与思维的三足鼎立,“风险”让数据主宰一切的隐忧,“掌控”责任与自由并举的信息管理,大数据的相关技术,Page 5,数据的采集,数据存储与管理,数据分析与挖掘,结果展示,ETL数据众包(CrowdCourin

4、g),结构化、非结构化和半结构化数据分布式文件系统HDFS关系数据库非关系数据库(NoSQL)数据仓库(DWH)云计算和云存储实时流处理,A/B测试关联规则分析分类聚类遗传算法神经网络预测模型模式识别时间系列分析回归分析系统仿真机器学习优化空间分析社会网络分析自然语言分析MapReduceR语言,标签云(Tag Cloud)聚类图(Clustergram)空间信息流(Spatial Information Flow)热图(Heatmap),大数据主要应用技术Hadoop,Page 6,据IDC的预测,全球大数据市场2015年将达170亿美元规模,市场发展前景很大。而Hadoop作为新一代的架构

5、和技术,因为有利于并行分布处理“大数据”而备受重视。Apache Hadoop 是一个用java语言实现的软件框架,在由大量计算机组成的集群中运行海量数据的分布式计算,它可以让应用程序支持上千个节点和PB级别的数据。Hadoop是项目的总称,主要是由分布式存储(HDFS)、分布式计算(MapReduce)等组成。,优点:可扩展:不论是存储的可扩展还是计算的可扩展都是Hadoop的设计根本。经济:框架可以运行在任何普通的PC上。可靠:分布式文件系统的备份恢复机制以及MapReduce的任务监控保证了分布式处理的可靠性。高效:分布式文件系统的高效数据交互实现以及MapReduce结合Local D

6、ata处理的模式,为高效处理海量的信息作了基础准备。,Hadoop包括以下模块:Hadoop Common:支持其他Hadoop模块的公用工具,包括 FileSystem(面向通用文件系统的抽象基类)、远程程序调用(RPC)和序列化库.Hadoop 分布文件系统(HDFS):一个为访问应用数据提供高吞吐量的分布式文件系统。Hadoop YARN:一个工作调度与集群资源管理的框架Hadoop MapReduce:一个基于YARN大数据集并行处理系统.,Hadoop成大数据的事实标准,HDFS,ZooKeeper,Ambari是基于Web的对Hadoop集群进行管理的工具Avro是一个数据序列化系

7、统Mahout是一个可扩展的机器学习与数据挖掘库.Pig是一个基于Hadoop的大规模数据分析平台,Pig为复杂的海量数据并行计算提供了一个简易的操作和编程接口Chukwa是基于Hadoop的集群监控系统,由yahoo贡献hive是基于Hadoop的一个工具,提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行ZooKeeper:高效的,可扩展的协调系统,存储和协调关键共享状态HBase是一个开源的,基于列存储模型的分布式数据库HDFS是一个分布式文件系统。有着高容错性的特点,并且设计用来部署在低廉的硬件上,适合那些有着超大数据集的应用程序MapReduce/YARN

8、是一种编程模型,用于大规模数据集(大于1TB)的并行运算Cassandra是一种可扩展的多主数据库,无单点故障,YARN,HBase,ChuKwa,Cassandra,Ambari,Hadoop体系架构,HDFS分布式文件系统,Page 8,NameNode可以看作是分布式文件系统中的管理者,存储文件系统的meta-data,主要负责管理文件系统的命名空间,集群配置信息,存储块的复制。DataNode是文件存储的基本单元。它存储文件块在本地文件系统中,保存了文件块的meta-data,同时周期性的发送所有存在的文件块的报告给NameNode。Client就是需要获取分布式文件系统文件的应用程序

9、。,HDFS是一个高度容错性的分布式文件系统,能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。,HDFS具体操作,Page 9,文件写入:1.Client向NameNode发起文件写入的请求2.NameNode根据文件大小和文件块配置情况,返回给Client它所管理部分DataNode的信息。3.Client将文件划分为多个文件块,根据DataNode的地址信息,按顺序写入到每一个DataNode块中。文件读取:1.Client向NameNode发起文件读取的请求2.NameNode返回文件存储的DataNode的信息。3.Client读取文件信息。,MapReduce映射、化简编程模

10、型,Page 10,1.根据输入数据的大小和参数的设置把数据分成splits,每个split对于一个map线程。2.Split中的数据作为Map的输入,Map的输出一定在Map端。3.Map的输出到Reduce的输入的过程(shuffle过程):第一阶段:在map端完成内存-排序-写入磁盘-复制 第二阶段:在reduce端完成映射到reduce端分区-合并-排序4.Reduce的输入到Reduce的输出 最后排好序的key/value作为Reduce的输入,输出不一定是在reduce端。,MapReduce是一种编程模型,用于大规模数据集的并行运算。Map(映射)和Reduce(化简),采用分

11、而治之思想,先把任务分发到集群多个节点上,并行计算,然后再把计算结果合并,从而得到最终计算结果。多节点计算,所涉及的任务调度、负载均衡、容错处理等,都由MapReduce框架完成,不需要编程人员关心这些内容。,HBASE分布式数据存储,Page 11,HBase Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统;HBase位于结构化存储层,HDFS为HBase提供了高可靠性的底层存储支持,MapReduce为HBase提供了高性能的计算能力,Zookeeper为HBase提供了稳定服务和failover机制;Pig和Hive还为HBase提供了高层语言支持

12、,使得在HBase上进行数据统计处理变的简单。,业界主要厂商的大数据架构,Page 12,业界主要厂商的大数据架构,Page 13,NEC的大数据体系,Page 14,大数据探索项目,人力开销分析体系,大数据分析验证环境,NEC大数据支持系统,分析处理最优化技术,公开数据活用支持,从解决方案、平台架构,到支持系统,NEC拥有大数据分析所需要的全部要素,运营高级化/最优化,工厂故障预兆监视,信息管理的强化非法活动检测,提高产品价值改善服务品质,顾客获取、维持促进销售,强化信息管控,需求预测型自动订货,人材匹配,平台,多样性:M2M基盘(CONNEXIVE)高速性:InfoFrame DWH Ap

13、pliance Hadoop高速化拡張性:InfoFrame Relational Store、iiStorage安全性:加密技术 加密计算,RAPID机器学习,不变性分析,异构混合学习,文本语义识别,分析技术,SDN产品,(UNIVERGE PF系列等),NEC Cloud IaaS,SAS等ISV产品,大数据教育项目,NEC大数据解决方案,分析验证作业标准,NEC从数据中发掘法则及规律性的分析技术,Page 15,先进的分析,法则及规律性,模式,从大量的数据中自动发现完全不同的模式或规则,世界首创,判断两段文章是否具有相同的含义,文本含义识别,异构混合学习,自动发现数据的相关性,自动发现与平时不一样的状况,不变性分析,基于深度学习技术,面向非结构化数据,实现高速,高精度,低内存消耗的学习,RAPID快速学习,世界No.1,世界首创,世界No.1,能够从各种各样而且大量的数据中抽取出知识的世界领先水平的NEC数据分析工具群,美国国立标准技术研究所(NIST:National Institute of Standards and Technology)主持评比结果,大数据分析平台,Page 16,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号