大数据概论ppt课件.ppt

上传人:小飞机 文档编号:1408502 上传时间:2022-11-20 格式:PPT 页数:85 大小:12.88MB
返回 下载 相关 举报
大数据概论ppt课件.ppt_第1页
第1页 / 共85页
大数据概论ppt课件.ppt_第2页
第2页 / 共85页
大数据概论ppt课件.ppt_第3页
第3页 / 共85页
大数据概论ppt课件.ppt_第4页
第4页 / 共85页
大数据概论ppt课件.ppt_第5页
第5页 / 共85页
点击查看更多>>
资源描述

《大数据概论ppt课件.ppt》由会员分享,可在线阅读,更多相关《大数据概论ppt课件.ppt(85页珍藏版)》请在三一办公上搜索。

1、大数据概论,大数据概论,1 大数据技术简介,半个世纪以来,随着计算机技术全面融入社会生活,信息爆炸已经积累到了一个开始引发变革的程度。它不仅使世界充斥着比以往更多的信息,而且其增长速度也在加快。信息爆炸的学科如天文学和基因学,创造出了“大数据”这个概念。如今,这个概念几乎应用到了所有人类智力与发展的领域中。,1.1大数据的时代背景,20世纪90年代,数据仓库之父的Bill Inmon就经常提及Big Data。,1.1大数据的时代背景,互联网(社交、搜索、电商)、移动互联网(微博)、物联网(传感器,智慧地球)、车联网、GPS、医学影像、安全监控、金融(银行、股市、保险)、电信(通话、短信)都在

2、疯狂产生着数据。,21世纪是数据信息大发展的时代,移动互联、社交网络、电子商务等极大拓展了互联网的边界和应用范围,各种数据正在迅速膨胀并变大。,2011年5月,在“云计算相遇大数据”为主题的EMC World 2011 会议中,EMC 抛出了Big Data概念。,1.1大数据的时代背景,数据的本质是生产资料和资产,数据爆炸式增长-每分钟,1.2大数据定义,1.2大数据的定义,大数据(big data),又称巨量数据集合,是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。对于“大数据”研究机构Gartner给出了这样的定义:“大数据”是需要新处理模式才能具有更强的决策力

3、、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据加上云计算被认为是继信息化和互联网后整个信息产业的第三次革命。,1.3大数据的4V特征,大数据的4V特征,大数据的4V特征,大数据的4V特征,大数据的4V特征,大数据的4V特征,体量Volume,多样性Variety,价值密度Value,速度Velocity,非结构化数据的超大规模和增长占总数据量的8090%比结构化数据增长快10倍到50倍是传统数据仓库的10倍到50倍,大数据的异构和多样性很多不同形式(文本、图像、视频、机器数据)无模式或者模式不明显不连贯的语法或句义,大量的不相关信息对未来趋势与模式的可预测分析深度复杂分析

4、(机器学习、人工智能Vs传统商务智能(咨询、报告等),实时分析而非批量式分析数据输入、处理与丢弃立竿见影而非事后见效,“大量化(Volume)、多样化(Variety)、快速化(Velocity)、价值密度低(Value)”就是“大数据”的显著特征,或者说,只有具备这些特点的数据,才是大数据。,大数据的构成,大数据 = 海量数据 + 复杂类型的数据,大数据包括:交易数据和交互数据集在内的所有数据集,海量交易数据:企业内部的经营交易信息主要包括联机交易数据和联机分析数据,是结构化的、通过关系数据库进行管理和访问的静态、历史数据。通过这些数据,我们能了解过去发生了什么。,海量交互数据:源于Face

5、book、Twitter、LinkedIn及其他来源的社交媒体数据构成。它包括了呼叫详细记录CDR、设备和传感器信息、GPS和地理定位映射数据、通过管理文件传输Manage File Transfer协议传送的海量图像文件、Web文本和点击流数据、科学信息、电子邮件等等。可以告诉我们未来会发生什么。,海量数据处理:大数据的涌现已经催生出了设计用于数据密集型处理的架构。例如具有开放源码、在商品硬件群中运行的Apache Hadoop。,大数据的特点,1.4大数据的数据格式,结构化信息:这种信息可以在关系数据库中找到,多年来一直主导着IT应用,是关键任务OLTP(联机事务处理)系统业务所依赖的信息

6、。另外,这种信息还可对结构数据库信息进行排序和查询。例如VF中的表。半结构化信息:包括电子邮件、文字处理文件及大量保存和发布在网络上的信息。非结构化信息:该信息在本质形式上可认为主要是位映射数据。,大数据需要解决的问题,Volume海量的数据规模,Variety多样的数据类型,Value,Velocity快速的数据流转,发现数据价值,1.5大数据的处理流程,1.6大数据的技术架构,大数据的四层堆栈式技术架构,1.7大数据的整体技术,一般包括:数据采集、数据存取、基础架构、数据处理、统计分析、数据挖掘、模型预测和结果呈现等。,大数据的相关技术,数据采集,数据存储与管理,数据分析与挖掘,计算结果展

7、示,大数据的相关技术,1.8大数据分析的四种典型工具简介,1HadoopHadoop是一个能够对大量数据进行分布式处理的软件框架,是一个能够让用户轻松架构和使用的分布式计算平台。2SparkSpark是一个基于内存计算的开源集群计算系统,目的是更快速的进行数据分析。,大数据分析的四种典型工具简介,3StormStorm是一种开源软件,一个分布式、容错的实时计算系统。4Apache Drill为了帮助企业用户寻找更为有效、加快Hadoop数据查询的方法,Apache软件基金会发起了一项名为Drill的开源项目。Apache Drill实现了Googles Dremel。,大数据的相关技术,Had

8、oop是一个由Apache基金会所开发的分布式系统基础架构。Hadoop是以分布式文件系统(Hadoop Distributed File System,简称HDFS)和MapReduce等模块为核心,为用户提供细节透明的系统底层分布式基础架构。,大数据的相关技术,MapReduce是面向大数据并行处理的计算模型、框架和平台。 MapReduce由Map和Reduce两部分用户程序组成,利用框架在计算机集群上根据需求运行多个程序实例来处理各个子任务,然后再对结果进行归并输出。,大数据的相关技术,MapReduce举例: “统计54张扑克牌中有多少张?” 最直观的做法:你自己从54张扑克牌中一张

9、一张地检查并数出13张。而MapReduce的做法及步骤如下:1.给在座的所有牌友(比如4个人)尽可能的平均分配这54张牌;2.让每个牌友数自己手中的牌有几张是,比如老张是3张,老李是5张,老王是1张,老蒋是4张,然后每个牌友把的数目分别汇报给你;3.你把所有牌友的数目加起来,得到最后的结论:一共13张。这个例子告诉我们,MapReduce的两个主要功能是Map和Reduce。Map:把统计数目的任务分配给每个牌友分别计数。 Reduce:每个牌友不需要把牌递给你,而是让他们把各自的数目告诉你。,1.9大数据带来的变革,商业模式,以数据/数据产品为输入,数据/数据产品为输出的新商业模式,大数据

10、让教育真正面对每一个独立的个体,利用数据进行决策,数据挖掘与认识论挑战数据资源与价值观转变数据足迹与伦理观危机,大数据带来的思维变革,大数据时代的思维方式,大数据时代,人们对待数据的思维方式变化:从样本思维转向总体思维:带来更全面的认识,可以更清楚地发现样本无法揭示的细节信息;从精确思维转向容错思维:当拥有海量即时数据时,绝对的精准不再是追求的主要目标,适当忽略微观层面上的精确度,容许一定程度的错误与混杂,反而可以在宏观层面拥有更好的知识和洞察力;从因果思维转向相关思维:努力颠覆千百年来人类形成的传统思维模式和固有偏见,才能更好地分享大数据带来的深刻洞见。从自然思维转向智能思维,不断提升机器或

11、系统的社会计算能力和智能化水平,从而获得具有洞察力和新价值的东西,甚至类似于人类的“智慧”。,1.10大数据的应用领域,RFID传感器,军事侦察,社会网络、数据,天文学,摄影档案馆视频档案,医疗记录,互联网搜索索引,网络日志,生物、基因组学,大规模的电子商务,大数据应用案例之:医疗行业IBM最新沃森医疗保健内容分析预测技术,该技术允许企业找到大量病人相关的临床医疗信息,通过大数据处理,更好地分析病人的信息。在加拿大多伦多的一家医院,针对早产婴儿,每秒钟有超过3000次的数据读取。通过这些数据分析,医院能够提前知道哪些早产儿出现问题并且有针对性地采取措施,避免早产婴儿夭折。为了让更多的创业者更方

12、便地开发产品,比如可以通过社交网络来收集数据的健康类App。也许未来数年后,这些搜集的数据能让医生给你的诊断变得更为精确,比方说不是通用的成人每日三次一次一片,而是检测到你的血液中药剂已经代谢完成会自动提醒你再次服药。,大数据的应用案例,大数据应用案例之:能源行业智能电网现在欧洲已经做到了终端,也就是所谓的智能电表。在德国,为了鼓励利用太阳能,会在家庭安装太阳能,除了卖电给你,当你的太阳能有多余电的时候还可以买回来。通过电网收集每隔五分钟或十分钟收集一次数据,收集来的这些数据可以用来预测客户的用电习惯等,从而推断出在未来23个月时间里,整个电网大概需要多少电。有了这个预测后,就可以向发电或者供

13、电企业购买一定数量的电。因为电有点像期货一样,如果提前买就会比较便宜,买现货就比较贵。通过这个预测后,可以降低采购成本。维斯塔斯风力系统,依靠的是BigInsights软件和IBM超级计算机,对气象数据进行分析,找出安装风力涡轮机和整个风电场最佳的地点。利用大数据,以往需要数周的分析工作,现在仅需要不足1小时便可完成。,大数据的应用案例,大数据应用案例之:通信行业XOCommunications通过使用IBMSPSS预测分析软件,减少了将近一半的客户流失率。XO现在可以预测客户的行为,发现行为趋势,并找出存在缺陷的环节,从而帮助公司及时采取措施,保留客户。此外,IBM新的Netezza网络分析

14、加速器,将通过提供单个端到端网络、服务、客户分析视图的可扩展平台,帮助通信企业制定更科学、合理决策。电信业者透过数以千万计的客户资料,能分析出多种使用者行为和趋势,卖给需要的企业,这是全新的资料经济。中国移动通过大数据分析,对企业运营的全业务进行针对性的监控、预警、跟踪。系统在第一时间自动捕捉市场变化,再以最快捷的方式推送给指定负责人,使他在最短时间内获知市场行情。,大数据的应用案例,大数据应用案例之:零售业时装零售商希望向客户提供差异化服务,定位公司的差异化,Informatica的技术通过从Twitter和Facebook上收集社交信息,更深入的理解化妆品的营销模式,他们认识到必须保留两类

15、有价值的客户:高消费者和高影响者。希望通过接受免费化妆服务,让用户进行口碑宣传,这是交易数据与交互数据的完美结合,为业务挑战提供了解决方案。零售企业也监控客户的店内走动情况以及与商品的互动。它们将这些数据与交易记录相结合来展开分析,从而在销售哪些商品、如何摆放货品以及何时调整售价上给出意见,此类方法已经帮助某领先零售企业减少了17%的存货,同时在保持市场份额的前提下,增加了高利润率自有品牌商品的比例。,大数据的应用案例,商业价值在大数据推动的商业革命暗涌中,要么学会使用大数据的杠杆创造商业价值,要么被大数据驱动的新生代商业格局淘汰。,大数据的应用价值,对顾客群体细分模拟实境提高投入回报率数据存

16、储空间出租管理客户关系个性化精准推荐数据搜索,大数据的商业价值-个性化营销,大数据的商业价值-互联网金融的核心是大数据,商业价值-淘宝,大数据的商业价值,大数据的应用价值,大数据已上升为国家战略大数据有助于破解中国社会转型中的难题。大数据可以提高宏观经济预测的准确性。大数据催生新产业,带来经济增长新空间。大数据是一个事关国家社会发展全局的产业。大数据能有效减少社会运行成本,提高经济与社会运行效率。大数据带来精准营销,改变传统商业模式。大数据推动政府开放,提高公共决策的预见性和响应性。,大数据的应用价值,大数据改变生活,大数据隐私和安全问题1大数据引发个人隐私、企业和国家安全问题大数据时代将引发

17、个人隐私安全问题。大数据时代,企业将面临信息安全的挑战。大数据时代,大数据安全应该上升为国家安全。2正确合理利用大数据,促进大数据产业的健康发展大数据时代,必须对数据安全和隐私进行有效的保护,2 大数据的采集和预处理,2.1数据采集简介,2.1.1 数据采集 大数据的数据采集是在确定用户目标的基础上,针对该范围内所有结构化、半结构化和非结构化的数据的采集。,2.1数据采集简介,2.1.2 数据采集的数据来源 按照数据来源划分,大数据的三大主要来源为:商业数据、互联网数据与物联网数据。,2.1数据采集简介,2.1.3 数据采集的技术方法1系统日志采集方法 很多互联网企业都有自己的海量数据采集工具

18、,多用于系统日志采集,如:Hadoop的ChukwaCloudera的FlumeFacebook的Scribe,2.1数据采集简介,2对非结构化数据的采集 非结构化数据的采集就是针对所有非结构化的数据的采集,包括企业内部数据的采集和网络数据采集等。企业内部数据的采集是对企业内部各种文档、视频、音频、邮件、图片等数据格式之间互不兼容的数据采集。网络数据采集是指通过网络爬虫或网站公开API等方式从网站上获取互联网中相关网页内容的过程,并从中抽取出用户所需要的属性内容。网络爬虫是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引

19、擎的重要组成。,2.1数据采集简介,3其他数据采集方法 对于企业生产经营数据或学科研究数据等保密性要求较高的数据,可以通过与企业或研究机构合作,使用特定系统接口等相关方式采集数据。,2.2大数据的预处理,大数据预处理的方法主要包括:数据清洗、数据集成、数据变换和数据规约。,大数据处理流程,3 大数据分析概论,3.1.1 大数据分析 大数据分析是指对规模巨大的数据进行分析。通过多个学科技术的融合,实现数据的采集、管理和分析,从而发现新的知识和规律。,大数据分析流程,3.1大数据分析简介,3.1大数据分析简介,数据质量和数据管理,3.1.2 大数据分析的基本方法,预测性分析,可视化分析,大数据挖掘

20、算法,语义引擎,从大数据中挖掘出有价值的知识和规则,通过科学建模的手段呈现出结果,然后可以将新的数据带入模型,从而预测未来的情况。,常用的数据挖掘方法有:分类、预测、关联规则、聚类、决策树、描述和可视化、复杂数据类型挖掘(Text、Web 、图形图像、视频、音频)等。,能够直观的呈现大数据特点,同时能够非常容易被用户所接受。,语义引擎通过对网络中的资源对象进行语义上的标注,以及对用户的查询表达进行语义处理,使得自然语言具备语义上的逻辑关系,能够在网络环境下进行广泛有效的语义推理,从而更加准确、全面的实现用户的检索。,为了满足信息利用的需要,对信息系统的各个信息采集点进行规范,包括建立模式化的操

21、作规程、原始信息的校验、错误信息的反馈、矫正等一系列的过程。,3.1大数据分析简介,分析结果的解析,数据,数据分析,3.1.3 大数据处理流程,3.2 大数据分析的主要技术,3.2.1 深度学习 深度学习是一种能够模拟出人脑的神经结构的机器学习方式,从而能够让计算机具有人一样的智慧。利用层次化的架构学习出对象在不同层次上的表达,这种层次化的表达可以帮助解决更加复杂抽象的问题。,梵高的星夜风格的小镇,德国小镇一瞥,3.2 大数据分析的主要技术,3.2.2 知识计算 知识计算是从大数据中首先获得有价值的知识,并对其进行进一步深入的计算和分析的过程。 也就是要对数据进行高端的分析,需要从大数据中先抽

22、取出有价值的知识,并把它构建成可支持查询、分析与计算的知识库。,心房颤动知识图谱,心肌炎知识图谱,3.3 大数据分析的应用,互联网领域,用户行为数据分析,用户消费数据分析,用户地理位置数据分析,互联网金融数据分析,用户社交等数据分析,3.3 大数据分析的应用,医疗领域,公共卫生,循证医学,基因组分析,设备远程监控,疾病预测,临床操作,4 大数据可视化简介,4.1 大数据可视化简介,1. 大数据可视化与数据可视化大数据可视化与数据可视化的比较:,4.1 大数据可视化简介,2. 大数据可视化的过程大数据可视化的过程主要有以下9个方面:(1)数据的可视化 可视化的核心的是对原始数据采用什么样的可视化

23、元素来表达。,中国电信区域人群检测系统,其中利用柱状图显示年龄的分布情况,利用饼图显示性别的分布情况。,4.1 大数据可视化简介,(2)指标的可视化 采用可视化元素的方式将指标可视化,会将可视化的效果增彩很多。,图中显示的是将近100G的QQ群数据,其中企鹅图标的节点代表QQ,群图标的节点代表群。每条线代表一个关系,一个QQ可以加入N个群,一个群也可以有N个QQ加入。线的颜色分别代表:黄色为群主;绿色为群管理员;蓝色为群成员。群主和管理员的关系线也比普通的群成员长一些,这是为了突出群内的重要成员的关系。,4.1 大数据可视化简介,(3)数据关系的可视化 数据关系往往也是可视化数据核心表达的主题

24、宗旨。,图中显示的是将Windows比喻成太阳系,Windows XP、Window 7等比喻成太阳系中的行星;其他系统比喻成其他星系。,4.1 大数据可视化简介,(4)背景数据的可视化 光有原始数据是不够的,因为数据没有价值,信息才有价值。,设计师马特罗宾森和汤姆维格勒沃斯用不同的圆珠笔和字体写“Sample”这个单词。因为不同字体使用墨水量不同,所以每支笔所剩的墨水也不同。在这幅图中不再需要标注坐标系,因为不同的笔及其墨水含量已经包含了这个信息。,4.1 大数据可视化简介,(5)转换成便于接受的形式 优化包括按照人的接受模式、习惯和能力,甚至还需要考虑显示设备的能力,然后进行综合改进,这样

25、才能更好地达到被接受的效果。,例如做一个关于“销售计划”的可视化产品,原始数据是销售额列表,采用柱状图来表达;在图表中增加一条销售计划线来表示销售计划数据;最后在销售计划线上增加勾和叉的符号,来表示完成和未完成计划,如此看图表的人更容易接受。,4.1 大数据可视化简介,(6)聚焦 聚焦就必须要讲讲大数据。因为是大数据,所以很多时候数据、信息、符号对于接受者而言是过载的,可能就分辨不出来了,这时我们就需要在原来的可视化结果基础上再进行优化。,在上述的“销售计划”中,假设这个图表重点是针对没有完成计划的销售员的,那么我们可以强化“叉”是红色的。如果柱状图中的柱是黑色,勾也是黑色,那么红色的叉更为显

26、眼。,4.1 大数据可视化简介,(7)集中或者汇总展示,对这个“销售计划”可视化产品来说,还有很大的完善空间,例如为了让管理者更好地掌握情况,我们可以增加一张没有完成计划的销售人员数据表,这样管理者在掌控全局的基础上,还可以很容易抓住所有焦点,进行逐一处理。,(8)收尾的处理 修饰是为了让可视化的细节更为精准、甚至优美,比较典型的工作包括设置标题,表明数据来源,对过长的柱子进行缩略处理,进行表格线的颜色设置,各种字体、图素粗细、颜色设置等。,4.1 大数据可视化简介,(9)完美的风格化 所谓风格化就是标准化基础上的特色化,最典型的例如增加企业、个人的LOGO,让人们知道这个可视化产品属于哪个企

27、业、哪个人。,大数据可视化工具Tableau Tableau是一款功能非常强大的可视化数据分析软件,其定位在数据可视化的商务智能展现工具。可以用来实现交互地、可视化的分析和仪表盘分析应用。就和Tableau这个词汇的原意“画面”一样,它带给用户美好的视觉感官。,5 云计算与大数据,5.1 云计算概论,5.1.1 云计算定义 云计算是一种用于对可配置共享资源池(网络、服务器、存储、应用和服务),通过网络方便的、按需获取的模型,它以最少的管理代价或以最少的服务商参与,快速地部署与发布。,5.1 云计算概论,5.1.2 云计算与大数据的关系 云计算是大数据分析与处理的一种重要方法,云计算强调的是计算

28、,而大数据则是计算的对象。,5.1 云计算概论,5.1.3 云计算基本特征1强大的虚拟化能力2高可扩展性3按需服务4网络化的资源接入5高可靠性,5.2 云计算核心技术,5.2.1 虚拟化技术 虚拟化技术是指把有限的、固定的资源根据不同需求进行重新规划以达到最大利用率的技术。 云计算基础架构广泛采用包括计算虚拟化、存储虚拟化、网络虚拟化等虚拟化技术。,5.2 云计算核心技术,5.2.2 资源池化技术 资源池是指云计算数据中心中所涉及到的各种硬件和软件的集合。 云计算把所有计算的资源整合成计算资源池,所有存储的资源整合成存储资源池,把全部IT资源都变成一个个池子,再基于这些基础架构的资源池上面去建

29、设应用,以服务的方式去交付资源。,5.2 云计算核心技术,5.2.3 云计算部署模式 云计算按照其资源交付的范围,有三种部署模式,即公有云、私有云和混合云.,5.3 云计算应用案例,1云服务模式应用案例【例5-1】申请百度网盘:百度网盘是一项云存储服务,首次注册即有机会获得15GB的空间,用户可以轻松把自己的文件上传到网盘上,并可以跨终端随时随地查看和分享。,5.3 云计算应用案例,【例5-2】接入网易云信:网易云信是一项基于PaaS的即时通讯(Instant Messaging,简称IM)云服务,开发者通过调用云信软件开发工具包(Software Development Kit,简称SDK)和云端API的方法可以快速接入IM即时通讯功能。,5.3 云计算应用案例,【例5-3】注册华为企业云:华为企业云提供包括云主机、云托管、云存储等一站式云计算基础设施服务。,本章结束,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号