大数据技术与应用课件第1章(上).ppt

上传人:牧羊曲112 文档编号:1748116 上传时间:2022-12-17 格式:PPT 页数:25 大小:1.16MB
返回 下载 相关 举报
大数据技术与应用课件第1章(上).ppt_第1页
第1页 / 共25页
大数据技术与应用课件第1章(上).ppt_第2页
第2页 / 共25页
大数据技术与应用课件第1章(上).ppt_第3页
第3页 / 共25页
大数据技术与应用课件第1章(上).ppt_第4页
第4页 / 共25页
大数据技术与应用课件第1章(上).ppt_第5页
第5页 / 共25页
点击查看更多>>
资源描述

《大数据技术与应用课件第1章(上).ppt》由会员分享,可在线阅读,更多相关《大数据技术与应用课件第1章(上).ppt(25页珍藏版)》请在三一办公上搜索。

1、第1章 大数据介绍,第1章 大数据介绍,大数据概述,大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。,大数据时代的概念最早是全球知名咨询公司麦肯锡提出的。按照麦肯锡的理念来理解,大数据并不是神秘的,不可触摸的,它是一种新兴的产业,从提出概述至今不断在推动着世界经济的转型和进一步的发展。,大数据概述 大数据(big data),指无法在一,“大数据”一词在1980年未来学家阿尔文托夫勒著的第三次浪潮书中将“大数据”称为“第三次浪潮的华彩乐章”。,199

2、7年美国宇航局研究员迈克尔考克斯和大卫埃尔斯沃斯首次使用“大数据”这一术语来描述20世纪90年代的挑战。,20072008年随着社交网络的激增,技术博客和专业人士为“大数据” 概念注入新的生机。,2008年9月自然杂志在推出了名为“大数据”的封面专栏,同年“大数据”概念得到了美国政府的重视。,“大数据”一词在1980年未来学家阿尔文托夫勒著的,从2009-2010年“大数据”成为互联网技术行业中的热门词汇。,“大数据时代已经到来”出现在2011年6月麦肯锡发布了关于“大数据”的报告,正式定义了大数据的概念,后逐渐受到了各行各业关注。,2012年,大数据一词越来越多地被提及,人们用它来描述和定义

3、信息爆炸时代产生的海量数据,并命名与之相关的技术发展与创新。,2008年9月自然杂志在推出了名为“大数据”的封面专栏,同年“大数据”概念得到了美国政府的重视。,从2009-2010年“大数据”成为互联网技术行业,2014年“大数据”首次出现在我国国内的政府工作报告中。,2015年国务院正式印发促进大数据发展行动纲要。,2016年我国大数据行业发展的相关政策细化落地,国家发改委、环保部、工信部、国家林业局、农业部等均推出了关于大数据的发展意见和方案。,2014年“大数据”首次出现在我国国内的政府工作报告,大数据的影响,(1)大数据对科学活动的影响(2)大数据对思维方式的影响 (3)大数据对社会发

4、展的影响(4)大数据对就业市场的影响,大数据的影响(1)大数据对科学活动的影响,数据,在我们的生活中,数据无处不在。比如银行通过收集客户的受教育程度、经济能力、住房情况等数据,可以开展相应的金融业务和服务。再比如医院的电子病历上,通常包含患者的病程情况、检查检验结果、手术记录等,这些数据可以有效的辅助医生来监控病人的病情。,数据 在我们的生活中,数据无处不在。比如银行通过收,简单来说,数据就是为了某种目的而收集和转换的任意字符集。数据既包括文本、数字,也包含图像、语音和视频等。将数据记录下来,可以帮助我们更好地分析、整理和提取数据中蕴含的知识以及规律。数据在计算机系统中是以二进制的形式来存储的

5、,用0或1来表示。,简单来说,数据就是为了某种目的而收集和转换的任,结构化数据 存储在计算机的数据又分成两类。第一类称为结构化数据,是指在系统中定义好数据的结构,再严格地按照定义好的结构来存储、计算和管理数据。 最常见的结构化数据就是关系型数据库中的二维表,其中每一行称为一个记录,每一列称作一个字段。比如在表中我们记录的是每一年每个国家二氧化碳的总排放量和人均排放量,那么在表中先定义了4个字段,年份、人均二氧化碳排放量、国家和总二氧化碳排放量。,结构化数据,非结构化数据另一类称为非结构化数据,是指数据结构不规则或不完整,甚至没有预定义的数据模型。非结构化数据是大量存在的,比如文本、图像、视频和

6、语音等。这些数据对我们的生活是非常重要的。在很多的行业领域里,80%的业务相关的信息都是来自于非结构化数据,特别是文本数据。在图中展示了从2009年到2017年数据的增长情况,可以看出非结构化数据增长得非常迅速。,非结构化数据,非结构化数据的第一类文本数据,是最常见的也是最多的。我们展示了两个文本数据,第一个是新闻数据,标题是“解码澳门经济快速发展的隐形翅膀”,它的来源是新华社的一篇新闻。这样一个有标题、有正文的新闻是一个典型的文本数据。,非结构化数据的第一类文本数据,是最常见的也是最,文本数据比结构化数据要占用更多的内存,比如“hello!”这样一个简单的单词,计算机用二进制表示出来,会看到

7、一长串数字。那么可想而知,大量的文本将占用更多的存储空间,表示起来也更加复杂。,文本数据比结构化数据要占用更多的内存,比如“hel,图像是另一种非结构化数据。一张标有数字8的图像,大家看到它可能会想到马路上各种各样的广告牌和数字显示LED屏。这个图像是由很多小方格组成的,小方格被称为像素点。,图像是另一种非结构化数据。一张标有数字8的图像,大,数字8的图像中,横排有16个像素点,竖排有22个像素点,一共由1622个像素点组成。图像是黑白的灰度图,为了表现黑白的深浅不同,我们在每一个像素点上标有不同的数值,大家可以发现最小的是0,最大的是255,也就是说用256个等级来区分颜色的深浅度,这样我们

8、就得到了一个矩阵。事实上在计算机中也是用数字矩阵的形式存储图像的。,数字8的图像中,横排有16个像素点,竖排有22,语音是第三种非结构化数据形式。例如人说话的声音、唱歌,都是由于空气震动而产生的声波。除了空气以外,在固体和液体中声音也是可以传播的。,语音是第三种非结构化数据形式。例如人说话的声音、唱,第四类非结构化数据是视频,它是由一系列的静态影像与声音组合而成的。视频按照一定的刷新频率进行刷新和播放,利用了人眼的视觉暂留原理,当播放的速率超过每秒24帧以上时,可以给人一种平滑连续变化的动态视觉效果。,因此视频的本质实际上是不断变化的图像,可以把它看作是单位时间内声音的存储和若干帧图像的存储来

9、处理,只不过处理视频需要更强大的存储和计算能力。,第四类非结构化数据是视频,它是由一系列的静态影像与,在我们的日常生活中数据随处可见。数据是为了某种目的而收集和整理的任意字符集。在计算机中数据最终使用0和1来表示。数据可以分类结构化数据和非结构化数据。非结构化数据包括文本、图像、语音和视频等,它们是现在大数据和人工智能领域关注的重点。,在我们的日常生活中数据随处可见。数据是为了某种,大数据的特征,随着对大数据认识的不断加深,人们认为大数据一般具有四个特征:数据量大、数据类型繁多、数据产生速度快以及数据价值密度低。,大数据的特征 随着对大数据认识的不断加深,人们认为,1. 数据量大 大数据中的数

10、据量大,就是指的海量数据。由于大数据往往是采取全样分析,因此大数据的“大”首先体现在其规模和容量远远超出传统数据的测量尺度,1. 数据量大,2. 数据类型繁多(1)结构化数据常指存储关系在数据库中的数据,该数据遵循某种标准,如企业财务报表、医疗数据库信息、行政审批数据、学生档案数据等。(2)非结构化数据常指不规则或不完整的数据,包括所有格式的办公文档、XML、HTML、各类报表、图片、图像以及咅频、视频信息等。企业中80%的数据都是非结构化数据,这些数据每年都按指数增长60%。相对于以往便于存储的以文本为主的结构化数据,越来越多的非结构化数据的产生给所有厂商都提出了挑战。在网络中非结构化数据越

11、来越成为数据的主要部分。值得注意的是:非结构化数据具有内部结构,但不通过预定义的数据模型或模式进行结构化。它可能是文本的或非文本的,也可能是人为的或机器生成的。它也可以存储在像NoSQL这样的非关系数据库中。(3)半结构化数据常指有一定的结构与一致性约束,但在本质上不存在关系的数据,如常用于跨平台传输的XML数据以及JSON数据等。,2. 数据类型繁多,3.数据产生速度快 在数据处理速度方面,有一个著名的“1秒定律”,即要在秒级时间范围内给出分析结果,超出这个时间,数据就失去价值了。大数据是一种以实时数据处理、实时结果导向为特征的解决方案,3.数据产生速度快,4. 数据价值密度低 随着互联网以及物联网的广泛应用,信息感知无处不在,信息海量,但价值密度较低,如何结合业务逻辑并通过强大的机器算法来挖掘数据价值,是大数据时代最需要解决的问题。,4. 数据价值密度低,大数据技术应用与基础 大数据的应用无处不在,从金融业到娱乐业,从制造业到互联网行业,从物流业到运输业,到处都有大数据的身影。,大数据技术应用与基础,大数据技术与应用课件第1章(上),大数据技术与应用课件第1章(上),

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号