大数据体系结构及技术解决方案课件.ppt

上传人:牧羊曲112 文档编号:2147232 上传时间:2023-01-19 格式:PPT 页数:98 大小:11.41MB
返回 下载 相关 举报
大数据体系结构及技术解决方案课件.ppt_第1页
第1页 / 共98页
大数据体系结构及技术解决方案课件.ppt_第2页
第2页 / 共98页
大数据体系结构及技术解决方案课件.ppt_第3页
第3页 / 共98页
大数据体系结构及技术解决方案课件.ppt_第4页
第4页 / 共98页
大数据体系结构及技术解决方案课件.ppt_第5页
第5页 / 共98页
点击查看更多>>
资源描述

《大数据体系结构及技术解决方案课件.ppt》由会员分享,可在线阅读,更多相关《大数据体系结构及技术解决方案课件.ppt(98页珍藏版)》请在三一办公上搜索。

1、大数据科学与工程系列 大数据体系结构1,陈志成 中国科学院大学 2014年06月,主要内容,一、大数据时代的新命题二、大数据的体系结构三、大数据的关键技术四、物联网与云计算架构五、知名企业大数据架构六、大数据系统设计案例总结、交流、作业,一、大数据时代的新命题,谷歌大数据中心:全球主要DC有8个,大数据表象概念:百度数据规模,大数据表象概念:对系统要求,大数据时代的新命题:,数据在爆炸式增长 互联网海量大数据 物联网各类型数据发数据处理能力要求提高 大规模数据存取方式 大数据并行技术能力数据间关联性分析加强 社交网络关系 多业务关联性 用户行为分析网络数据的实时同步 一切营销都线下线上 多业务

2、跨地域数据同步,“数据结构化”本身是最具挑战性的一个环节.海量数据与快速处理是一对悖论.,信息社会需求:信息化-智能化-现代化,农业社会,工业社会,信息社会,人力工具-镰刀-锄头,动力工具-机车-机床,智能工具-推理机-智能网,信息时代的大数据需求,信息时代数据大爆炸,推动智能技术发展,信息时代,软件编程模型发展,“面向信息处理”的智能化编程模型,编程简化为数据配置与管理,大数据技术架构数据智能,二、大数据的系统架构,传统数据库技术架构:,Oracle数据库体系架构,大数据架构:分层架构,从数据在生命周期看,大数据从数据源经过分析挖掘到最终获得价值需要经过5个环节,包括数据准备、数据存储与管理

3、、计算处理、数据分析和知识展现。,大数据的系统架构:整体系统架构,新一代编程语言,大数据架构:整体逻辑功能架构,大数据架构理解:搜索引擎,大数据架构理解:网页内容抓取,大数据系统架构Hadoop,Hadoop分布式系统组成,大数据系统架构Hadoop,在图中,Hadoop主要的功能组件有:Hadoop Common:包含HDFS、MapReduce和其他项目公共内容;HDFS:Hadoop分布式文件系统;MapReduce:一个用于并行处理大数据集的软件框架。Map 函数接受一组数据并将其转换为一个键/值对列表,输入域中的每个元素对应一个键/值对。Reduce 函数接受 Map 函数生成的列表

4、,然后根据它们的键(为每个键生成一个键/值对)缩小键/值对列表;HBase:类似Google BigTable的分布式NoSQL列数据库;Hive:是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行;Zookeeper:分布式锁,提供类似Google Chubby的功能;Avro:新的数据序列化格式与传输工具,将逐步取代Hadoop原有的IPC机制;Pig:大数据数据流分析平台,为用户提供多种接口;Sqoop:在HADOOP与传统的数据库间进行数据的传递。,大数据系统架构Hadoop:

5、功能定位,1.大数据系统架构Hadoop:层次对应,大数据:分布式计算架构,大数据架构:MapReduce工作原理1,大数据架构:MapReduce工作原理2,三、大数据的关键技术,大数据关键技术到底有哪些?核心问题是:(计算、存储、分析)算法,大数据:恐怖的大数据(生活示例)智能性:数据分析、自然语言理解 逻辑推理(演示)艺术性:分形算法、视频动画(演示),大数据关键技术1:大数据存储技术,数据的海量化和快增长特征、以及数据格式的多样化是大数据对存储技术提出的首要挑战。要求底层硬件架构和文件系统在性价比上要大大高于传统技术,并能够弹性扩展存储容量。,谷歌文件系统(GFS)和Hadoop 的分

6、布式文件系统HDFS(Hadoop Distributed File System)奠定了大数据存储技术的基础。GFS/HDFS 将计算和存储节点在物理上结合在一起,从而避免在数据密集计算中易形成的I/O 吞吐量的制约,同时这类分布式存储系统的文件系统也采用了分布式架构,能达到较高的并发访问能力。,网络附着存储系统(NAS)和存储区域网络(SAN)等体系,存储和计算的物理设备分离,它们之间要通过网络接口连接,这导致在进行数据密集型计算(Data Intensive Computing)时I/O 容易成为瓶颈。单机文件系统不提供数据冗余、可扩展性、容错及并发能力差,大数据关键技术2:并行计算能力

7、,大数据的分析挖掘是数据密集型计算,需要巨大的计算能力。针对不同计算场景发展出特定分布式计算框架。Yahoo 提出的S4 系统、Twitter 的Storm,谷歌2010 年公布的Dremel系统,MapReduce内存化以提高实时性的Spark 框架.,数据爆炸,知识贫乏,大数据关键技术3:数据分析技术,基于计算流体力学的三维呈现:如用能场所3D场景及CFD温度及能效云场呈现如下图。,大数据关键技术4:数据显示技术,大数据分析,世界杯:英格兰vs意大利 1:2。数据热图,大数据关键技术5:数据挖掘算法,神经网络 Neural Networks,聚类分析 Clustering,OpenAccn

8、t,Add NewProduct,DecreaseUsage,?,Time,序列分析 Sequence Analysis,决策树 Decision Trees,倾向性分析,客户保留 客户生命周期管理 目标市场 价格弹性分析,客户细分 市场细分,倾向性分析 客户保留 目标市场 欺诈检测,关联分析 Association,市场组合分析 套装产品分析 目录设计 交叉销售,大数据关键技术5:数据挖掘算法,数据挖掘的主要方法,分类(Classification)聚类(Clustering)相关规则(Association Rule)回归(Regression)其他,知识发现系统需要一个前处理过程数据抽取

9、数据清洗数据选择数据转换知识发现系统是一个自动/半自动过程知识发现系统要有很好的性能,知识发现KDD系统特征,数据挖掘主要方法:ETL,ETL Process Framework ETL工具有:OWB(Oracle Warehouse Builder)、ODI(Oracle Data Integrator)、Informatic PowerCenter、AICloudETL、DataStage、DataSpider,等。,四、物联网与云计算架构,互联网上的物联网:概念,互联网上的物联网:发展,2009年8月7日,温家宝视察中科院嘉兴无线传感网工程中心无锡研发分中心,提出“在传感网发展中,要早一

10、点谋划未来,早一点攻破核心技术”,明确要求尽快建立中国的传感信息中心,或叫“感知中国”中心。2010年2月25日,中国首个传感网大学科技园在无锡成立,北京邮电大学无锡感知技术与产业研究院是首家入驻大学科技园的高校科研机构。移动、电信、联通三大运营商纷纷在无锡成立物联网研究中心,以无锡为首的国内大中城市争相建设智能城市,争取成为感知中国示范城市。2010年3月2日,上海物联网中心在上海嘉定揭牌,宣称将以此打造国内最具竞争力、具有国际影响的物联网技术研发基地,总投资达8亿元。把合作伙伴锁定为中国科学院上海微系统与信息技术研究所。2010年3月9日,中国物联网标准联合工作组筹备会议在京召开。3月中旬

11、,浙江省成立了物联网产业规划编制小组,浙江省经济和信息化委员会副主任郑一方担任组长。杭州市已经联合浙江省工业经济研究所启动物联网产业调研和发展规划编制工作,提出“感知杭州”的发展愿景。,物联网的体系架构,物联网的体系架构,物联网的体系架构,物联网示范:智能家居大数据管理系统,物联网示范:动态跟踪管理,牧场大数据,物联网示范:医疗健康大数据 管理体系架构,云计算演进:桌面云理解(NDNCCCN),云计算架构:通用三层架构(IBM为例,加BPaaS),IaaS,PaaS,SaaS,BPaaS,云计算的不同服务层次和内容:,云计算的应用案例:广州品高IaaS,云计算的统一数据中心,Ciscos Cl

12、oud Computing ApproachCombining the unified data center and cloud intelligent networkNetwork Service becomes an essential element,五、知名企业大数据架构,又拍云存储架构,大数据:IBM大数据方案,大数据分析实例:,北京邮电大学“云海”移动互联网数据分析平台,1.大数据架构:曙光智慧交通系统架构,1.大数据架构:IBM,1.大数据架构:HP云监控大数据解决方案,大数据架构,Intel分布式Hadoop架构,大数据架构:微软大数据解决方案,设计了一套基于 Microso

13、ft SQL Server 2012 和 Microsoft Azure HDInsight 的端到端大数据解决方案。在 HDInsight 上快速部署 Hadoop 群集。,大数据平台架构,引跑科技EngineOne平台,大数据虚拟化架构:VMWare BDE,vSphere Big Data Extensions(BDE)是VMware基于 Serengeti开源技术的企业发行版,增强基础架构,更好地部署、运行和管理大数据负载,虚拟化应用。,大数据虚拟化(BDE/Serengeti)的部署结构图,大数据虚拟化架构:VMWare BDE,Serengeti管理服务器的系统架构图,大数据架构,

14、Netflix基于AWS的大数据平台,不用HDFS而用amazon的S3(美国最大的在线DVD租赁商,奈飞公司,提供在线影片租赁业务),Siri的技术实现架构,大数据,购物网站的大数据分析系统,大数据,某银联机房大数据架构,大数据:安全架构,六、大数据系统设计案例分析,1.Web数据分析系统的软件验证模型,模型体系与模型转换,分析模型元模型,数据访问层元模型,业务逻辑层元模型,展现层元模型,2.淘宝大数据架构,淘宝大数据架构,大数据架构:淘宝海量数据产品技术架构,按照数据的流向来划分,淘宝的数据产品的技术架构分为五层(自上而下),分别是数据源、计算层、存储层、查询层、产品层。,大数据架构:淘宝

15、海量数据,搜索引擎架构,大数据架构:淘宝海量数据,网络服务架构,3.大数据架构设计:智慧城市架构设计,基于结合物联网、云计算、大数据的智慧城市系统架构,案例分析:,基于工业物联网与大数据分析平台的能源管理系统总体架构,社会大生产无序无控排放是环保死敌,一次能源生产,二次能源生产,一次排放,二次能源使用,二次排放,次生排放,原煤油气矿,精炼电热油焦矿,当前热点雾霾污染问题根源来自于无序无控排放,现在公布的雾霾指数标示只是城市若干个监测点的结果呈现,具体排放源头及排放关键因素是什么?基于国情大量燃煤,燃煤换能效率低排放高,二次排放占较大比例,二次能源消耗再产生大量次生排放。,煤,煤电热焦,电热焦油

16、气,所有排放环节均缺失精细在线监测数据,无序无控恶性排放无缘节能增效,发展决定总体能耗继续升高,缓解危局只能走节能减排信息化助力工业节能改造道路,节能减排的难点及瓶颈,节能减排是覆盖全社会所有生产消费过程的大系统工程,配套的能源排放在线计量监测管理分析评估大数据信息化系统是其关键基础架构。目前存在四大难题,1、节能规划部署2、能耗诊断审计3、节能手段实施过程控制4、节能效益量化计算、EPC分成认证上报,电信运营商覆盖全国物联网及云计算体现优势,十二五期末年排放超千吨标煤的省级重点能耗单位原则上必须纳入政府节能减排监管机构的监测量化管理,年排放超万吨标煤的国家级重点能耗单位必须自建企业级能源管理

17、系统接入当地市级能源管理监控中心,市级汇聚到省级能源管理监控中心,省级接入中央发改委全国能源管理监控中心平台,市省中央所汇集的排放原始数据向全社会开放。,这样超级大数据系统需要极高的云计算网络存储资源,还要对各用能户建立多维度关联能耗排放模型,对自控可靠的用能户以模型仿真模拟结果对相关用能设备实施反向开关待机操作,实现用能设备动态能效优化,这样的操控实施理应掌控在国有3大运营商手中,解决瓶颈问题-其他问题迎刃而解,物联网云计算大数据结合-关键技术途径,网管系统、动环系统负责运营商自身能耗数据采集及融合,政府发文强制重点能耗企业采用标准化物联网采集网关及国标智能电表无线接入此系统、或企业已有系统

18、按统一能耗排放数据采集及接口标准规范专线转发接入此系统(只要挂表接入政府均有适当补贴),运营商收流量费及功能费,如用能户使用能源审计诊断功能可另收咨询费等,政府向运营商付财政补贴、维护费、流量费及服务费购买服务,运营商还可收能耗排放源数据交易费并向政府交管理费等。,用能端能耗分量计量及影响因素感知采集,辅助设备能耗,主设备能耗,照明能耗,办公设备能耗,室内外温湿度振动压力等,地理装机空间建材环境等,物联网网关,电信运营商综合能耗管理大数据云平台,m2m(包括3G/4G、WLAN、PTN、IP),表示可根据本用能单元的能耗模型仿真预测结果酌情进行辅助开/关/待机/调节操作,以管控相关用能设备使其

19、能耗动态优化,产量负荷等,生产ERP系统,能源管理大数据系统信息标准化,动态数据,静态数据,基本配置信息:名称、编号、归属地市、位置信息(GPS经纬度)、面积、总载频数等;设备信息:标识码、名称、厂家、设备类型、规格型号、用途、入网时间、额定功率、额定负荷 等;节能措施:技术名称、实施时间、描述等;,能耗数据:用能场所总耗电量、主设备耗电量、空调耗电量;环境因素:室内外温湿度;业务量:话务量、数据业务流量;,AI量:电流、电压、温度、湿度、压力、流量、振动;DI量:告警信息;,实现耗电量、PUE值、电费、告警的分时段、任意时段统计查询。,能耗有效管理始于精准、全面、标准化的能耗排放数据计量。,

20、能源数据的多维度分析与呈现,网上演示:http:/113.108.158.22:7070/EnergySystem,总结、交流、作业,小结:,大数据:系统结构:分层架构、总体架构、Hadoop、MapReduce 关键技术:并行计算、存储处理、ETL、多维显示 相关领域:物联网、云计算、各应用领域讨 论:大数据系统架构很多,如果要你进行分类,你从哪些维度来划分为哪些类型的架构?,作业:题目:下图是“车联网”系统,请理解,然后回答问题。,作业:问题,如上图是“车联网”系统架构,请根据图并结合日常生活经验作答:关于车联网系统,其包含哪些“数据”,这些数据从何而来,到何处去?(画数据流图)车联网系统

21、中,有哪些场景下用到的数据可能很大,对系统的哪些环节有更高要求?你能设计一个车联网大数据的系统方案吗?车联网系统中,可能用到哪些数据分析工具或算法,在哪些场景下有用?,主要参考文献:,1.工业和信息化部电信研究院,中国大数据白皮书(2014),2014年5月.2.大数据的系统架构支持,林仕鼎,2013年4月.3.物联网与智能计算,陈志成,2010年8月.4.基于大数据的工业节能系统,北京易能境科技公司,2014年5月.5.软件工程领域建模,蒋严冰,北京大学软件学院,2012年4月.6.大数据文档,百度网站,2014年5月.,心语共勉:学习、工作、生活的本质:,Smile and do well

22、.,微笑着做好(笑对人生、干事认真).,One day,One thing,One person.,站好一班岗,做好一件事,影响一个人,Think it,do it,and Done it.,敢想,敢做,做好,谢谢大家!,(第14讲)考场作文开拓文路能力分解层次(网友来稿)江苏省镇江中学 陈乃香说明:本系列稿共24讲,20XX年1月6日开始在资源上连载【要义解说】文章主旨确立以后,就应该恰当地分解层次,使几个层次构成一个有机的整体,形成一篇完整的文章。如何分解层次主要取决于表现主旨的需要。【策略解读】一般说来,记人叙事的文章常按时间顺序分解层次,写景状物的文章常按时间顺序、空间顺序分解层次;说

23、明文根据说明对象的特点,可按时间顺序、空间顺序或逻辑顺序分解层次;议论文主要根据“提出问题分析问题解决问题”顺序来分解层次。当然,分解层次不是一层不变的固定模式,而应该富于变化。文章的层次,也常常有些外在的形式:1小标题式。即围绕话题把一篇文章划分为几个相对独立的部分,再给它们加上一个简洁、恰当的小标题。如世界改变了模样四个小标题:寿命变“长”了、世界变“小”了、劳动变“轻”了、文明变“绿”了。2序号式。序号式作文与小标题作文有相同的特点。序号可以是“一、二、三”,可以是“A、B、C”,也可以是“甲、乙、丙”从全文看,序号式干净、明快;但从题目上看,却看不出文章内容,只是标明了层次与部分。有时

24、序号式作文,也适用于叙述性文章,为故事情节的展开,提供了明晰的层次。3总分式。如高考佳作人生也是一张答卷。开头:“人生就是一张答卷。它上面有选择题、填空题、判断题和问答题,但它又不同于一般的答卷。一般的答卷用手来书写,人生的答卷却要用行动来书写。”主体部分每段首句分别为:选择题是对人生进行正确的取舍,填空题是充实自己的人生,判断题是表明自己的人生态度,问答题是考验自己解决问题的能力。这份“试卷”设计得合理而且实在,每个人的人生都是不同的,这就意味着这份人生试卷的“答案是丰富多彩的”。分解层次,应追求作文美学的三个价值取向:一要匀称美。什么材料在前,什么材料在后,要合理安排;什么材料详写,什么材

25、料略写,要通盘考虑。自然段是构成文章的基本单位,恰当划分自然段,自然就成为分解层次的基本要求。该分段处就分段,不要老是开头、正文、结尾“三段式”,这种老套的层次显得呆板。二要波澜美。文章内容应该有张有弛,有起有伏,如波如澜。只有这样才能使文章起伏错落,一波三折,吸引读者。三要圆合美。文章的开头与结尾要遥相照应,把开头描写的事物或提出的问题,在结尾处用各种方式加以深化或回答,给人首尾圆合的感觉。【例文解剖】话题:忙忙,不亦乐乎 忙,是人生中一个个步骤,每个人所忙的事务不同,但是不能是碌碌无为地白忙,要忙就忙得精彩,忙得不亦乐乎。忙是问号。忙看似简单,但其中却大有学问。忙是人生中不可缺少的一部分,

26、但是怎么才能忙出精彩,忙得不亦乐乎,却并不简单。人生如同一张地图,我们一直在自己的地图上行走,时不时我们眼前就出现一个十字路口,我们该向哪儿,面对那纵轴横轴相交的十字路口,我们该怎样选择?不急,静下心来分析一下,选择适合自己的坐标轴才是最重要的。忙就是如此,选择自己该忙的才能忙得有意义。忙是问号,这个问号一直提醒我们要忙得有意义,忙得不亦乐乎。忙是省略号。四季在有规律地进行着冷暖交替,大自然就一直按照这样的规律不停地忙,人们亦如此。为自己找一个目标,为目标而不停地忙,让这种忙一直忙下去。当目标已达成,那么再找一个目标,继续这样忙,就像省略号一样,毫无休止地忙下去,翻开历史的长卷,我们看到牛顿在

27、忙着他的实验;爱迪生在忙着思考;徐霞客在忙着记载游玩;李时珍在忙着编写本草纲目。再看那位以笔为刀枪的充满着朝气与力量的文学泰斗鲁迅,他正忙着用他独有的刀和枪在不停地奋斗。忙是省略号,确定了一个目标那么就一直忙下去吧!这样的忙一定会忙出生命灵动的色彩。忙是惊叹号。世界上的人都在忙着自己的事,大自然亦如此,小蜜蜂在忙,以蜂蜜为回报。那么人呢?居里夫人的忙,以放射性元素的发现而得到了圆满的休止符;爱因斯坦在忙,以相对论的问世而画上了惊叹号;李白的忙,以那豪放的诗歌而有了很大的成功;张衡的忙,因为那地动仪的问世而让世人仰慕。每个人都应该有效率的忙,而不是整天碌碌无为地白忙。人生是有限的、短暂的,因此,

28、每个人都应该在有限的生命里忙出属于他的惊叹号;都应在有限的生命里忙出他的人生精彩篇章。忙是万物、世界、人生中都不可缺少的一部分。作为这世上最高级动物的我们,我们在忙什么呢?我们要忙得有意义,有价值,我们要忙出属于我们的精彩。我们的忙不能永远是问号,而应是省略号和感叹号。忙就要忙得精彩,忙得不亦乐乎。解剖:本文将生活中的一句口头禅“忙得不亦乐乎”机智翻新,拟作标题,亮出一道美丽的风景。并据此展开述说,让人神清气爽。文章开篇扣题,亮出观点:忙,是人生中一个个步骤,不能碌碌无为地白忙,要忙就忙得精彩,忙得不亦乐乎。然后,作者分别用问号、省略号、惊叹号巧妙设喻,抓住这三种标点符号的特征,摆实事,讲道理

29、,入情入理,入理入心。深刻地阐明人生忙,忙要像问号一样,经常问问自己,不能盲目,不能瞎忙,要忙得有意义;人生如四季一样是有规律的,要选准目标,像省略号一样,毫无休止地忙下去,忙出生命灵动的色彩;而人生有限,每个人都应有限的生命里忙出属于他的惊叹号,忙出人生精彩的篇章。结尾,作者用一个段落总结全文,照应开头,照应题目,有力收束。【精题解析】阅读下面的材料,根据要求作文。在一处地势十分险恶的峡谷,谷底奔腾着咆哮的急流,峡谷间有一座索桥,几根光秃秃、晃悠悠的铁索横在峡谷间,它是通过这个地方的唯一路径,这里经常有人因为失足而跌入深谷。有一天,有三个人来到了这里。一个聋子,一个瞎子,还有一个健康的人。聋

30、子看看这座桥,很害怕,但是他听不到急流的声音,他用眼睛看着脚下步伐,很顺利地过去了。瞎子不知峡谷的险恶,他心平气和,十分稳妥地通过了。第三个人是健康人,一直犹豫不敢走这索桥,可是又没有其他路可走。于是,他十分紧张地硬着头皮走上索桥,到了桥中央,他看到脚下万丈深渊,云雾升腾,听到谷底急流咆哮,早已两腿颤颤,面如土色,一不小心跌下桥去。请就“不要把困难看得太明白”为话题写一篇文章。注意所写内容必须在话题范围之内。试题引用的材料,考生在文章中可用也可不用。立意自定。文体自选。题目自拟。不少于800字。不得抄袭。解析:有时候,把困难看得太明白,分析得太透彻,反而会被困难吓倒以至于阻拦我们前进的脚步。倒是那些未把困难完全看清楚而勇往直前的人,更容易达到终点。作者邮箱:13952865227,谢谢观赏,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号