大数据的处理和分析计算机科学导论十讲.ppt

资源描述

《大数据的处理和分析计算机科学导论十讲.ppt》由会员分享，可在线阅读，更多相关《大数据的处理和分析计算机科学导论十讲.ppt（57页珍藏版）》请在三一办公上搜索。

1、大数据的处理和分析计算机科学导论第十讲,计算机科学技术学院陈意云0551-63607043,http:/,课程内容,课程内容围绕学科理论体系中的模型理论,程序理论和计算理论1.模型理论关心的问题给定模型M，哪些问题可以由模型M解决；如何比较模型的表达能力2.程序理论关心的问题给定模型M，如何用模型M解决问题包括程序设计范型、程序设计语言、程序设计、形式语义、类型论、程序验证、程序分析等3.计算理论关心的问题给定模型M和一类问题,解决该类问题需多少资源,2,本次讲座与这些内容关系不大,讲座提纲,大数据的魅力数据挖掘、大数据、大数据案例、大数据的特点大数据时代的思维变革样本和全体、精

2、确性和混杂性、因果关系和相关关系大数据的处理几种主要处理方式、MapReduce编程模型大数据的分析关键技术概述、PageRank初步,3,数据挖掘数据挖掘的定义1.从数据中提取出隐含的、过去未知的、有价值的潜在信息2.从大量数据或者数据库中提取有用信息的科学相关概念：知识发现1.数据挖掘是知识发现过程中的一步2.粗略看：数据预处理数据挖掘数据后处理预处理:将未加工输入数据转换为适合处理的形式后处理:如可视化,便于从不同视角探查挖掘结果,大数据的魅力,4,数据挖掘典型事例：购物篮分析顾客一次购买商品 1面包、黄油、尿布、牛奶 2咖啡、糖、小甜饼、鲑鱼 3面包、黄油、咖啡、尿布、牛奶、鸡蛋 4面

3、包、黄油、鲑鱼、鸡 5鸡蛋、面包、黄油 6鲑鱼、尿布、牛奶 7面包、茶叶、糖、鸡蛋 8咖啡、糖、鸡、鸡蛋 9面包、尿布、牛奶、盐10茶叶、鸡蛋、小甜饼、尿布、牛奶,大数据的魅力,5,数据挖掘典型事例：购物篮分析顾客一次购买商品 1面包、黄油、尿布、牛奶 2咖啡、糖、小甜饼、鲑鱼 3面包、黄油、咖啡、尿布、牛奶、鸡蛋 4面包、黄油、鲑鱼、鸡 5鸡蛋、面包、黄油 6鲑鱼、尿布、牛奶 7面包、茶叶、糖、鸡蛋 8咖啡、糖、鸡、鸡蛋 9面包、尿布、牛奶、盐10茶叶、鸡蛋、小甜饼、尿布、牛奶经关联分析，可发现顾客经常同时购买的商品：尿布牛奶,大数据的魅力,6,大数据大数据，或称海量数据，指所涉及的数据量规

4、模巨大到无法通过人工，在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息例如：Google每天有来自全球30亿条搜索指令每天都有成千上万的人通过Google搜索信息，从出游的路线和耗时、治疗某种疾病的方法和某研究方向的最新学术资料，各式各样的搜索要求都有这样的搜索引擎无疑极大地方便了人们的生活和工作,大数据的魅力,7,大数据大数据，或称海量数据，指所涉及的数据量规模巨大到无法通过人工，在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息这一系列搜索数据从侧面显示出搜索这些信息的人的本身情况，比如他们的想法、需求、忧虑等非常有价值的信息如果这些搜索数据能准确地反映人们的

5、生活和工作状况，那么就有可能利用这些信息来察觉商业趋势、避免疾病扩散、打击犯罪、测定实时交通路况和预测选举结果等,大数据的魅力,8,大数据大数据，或称海量数据，指所涉及的数据量规模巨大到无法通过人工，在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息与小数据集的比较：在总数据量相同的情况下，与个别分析独立的小型数据集相比，将各个小型数据集合并后进行大数据分析可得出许多额外的信息和数据关联性这正是大型数据集盛行的原因数据挖掘则是探讨用以解析大数据的方法,大数据的魅力,9,大数据案例谷歌预测冬季流感的传播2008年11月谷歌公司启动“谷歌流感趋势”(Google Flu Trends,

6、GFT)项目GFT项目把5000万个美国人最频繁检索的词项与美国疾病预防控制中心告知的2003年2008年季节性流感传播期间的数据进行比较，以确定相关检索词项为测试这些检索词项的使用频率与流感在时间和空间上传播之间的联系，GFT共处理了4.5亿个不同的数学模型,大数据的魅力,10,大数据案例谷歌预测冬季流感的传播为测试这些检索词项的使用频率与流感在时间和空间上传播之间的联系，GFT共处理了4.5亿个不同的数学模型在把得出的预测与2007年和2008年疾病预防控制中心记录的实际流感病例进行对比后，GFT的软件发现了45个检索词项的组合把这些检索词项用于一个特定的数学模型后，其预测与官方数据相关性

7、高达97%,大数据的魅力,11,大数据案例谷歌预测冬季流感的传播2009年谷歌把研究成果发表在自然杂志上，这篇引人注目的论文令公共卫生官员和计算机科学家感到震惊文章不仅预测了流感在全美的传播，而且具体到特定的地区和州并且预测非常及时，不像疾病预防控制中心的信息会有一两周的延迟（因为人们从患病到求医会滞后，信息从医院传到疾控中心也需要时间，疾控中心每周只进行一次数据汇总）信息滞后两周对一种飞速传播的疾病是致命的,大数据的魅力,12,大数据案例谷歌预测冬季流感的传播在论文发表后的几周内，出现了一种称为甲型H1N1的新流感病毒，它在短短几周内迅速传播开来，全球的公共卫生机构都担心一场致命的流行病即将

8、来袭这时，与习惯性滞后的官方数据相比，谷歌的预测是一个更有效、更及时的指示标，公共卫生机构的官员因此获得了非常有价值的数据信息谷歌的方法不需要分发口腔试纸和联系医生，因为它是建立在大数据的基础之上,大数据的魅力,13,大数据的魅力,大数据案例谷歌预测冬季流感的传播这是当今社会所独有的一种新型能力：以一种前所未有的方式，通过对海量数据的分析，获得巨大价值的产品和服务，或深刻的洞见大数据不仅会变革公共卫生，也会变革商业、变革思维，改变政府与民众关系的方法，开启重大的时代转型,14,大数据的魅力,大数据案例谷歌预测冬季流感的传播2013年2月，GFT再次上头条，不是因为什么新的成就，而是因2013年

9、1月，美国流感发生率达到峰值，GFT事先的估计比实际数据高两倍造成这种结果的原因：大数据傲慢（Big Data Hubris）：认为自己拥有的数据是总体，可以完全取代科学抽样基础上形成的传统小数据，而非作为后者的补充还有搜索算法变化等原因大数据运用的典范GFT的失败并不能够抹灭大数据本身的价值,15,大数据的魅力,大数据的特点体量巨大(Volume)数据集合的规模不断扩大，已从GB(1024MB)到TB(1024GB)再到PB级，甚至已经开始以EB和ZB来计数至今，人类生产的所有印刷材料的数据量是200PB 未来10年，全球大数据将增加50倍，管理数据仓库的服务器的数量将增加10倍,16,

10、大数据的魅力,大数据的特点种类繁多(Variety)数据种类繁多，并且被分为结构化、半结构化和非结构化的数据半结构化和非结构化的数据，包括网络日志、传感器数据、音频、视频、图片、地理位置信息等，占有量越来越大，已远远超过结构化数据,17,大数据的魅力,大数据的特点价值密度低(Value)数据总体的价值巨大，但价值密度很低以视频为例，在长达数小时连续不断的视频监控中，有用数据可能仅一二秒另一极端是各个数据都有贡献，但单个数据价值很低,18,大数据的魅力,大数据的特点速度快(Velocity)数据往往以数据流的形式动态快速地产生，具有很强的时效性用户只有把握好对数据流的掌控才能有效利用这些

11、数据例如，一天之内需要审查500万起潜在的贸易欺诈案件；需要分析5亿条日实时呼叫的详细记录，以预测客户的流失率,19,大数据时代的思维变革,数据采集和数据处理技术已经发生了翻天覆地的变化，人们的思维和方法要跟得上这个变化大数据时代的精髓在于人们分析信息时的三个转变，这些转变将改变人们决策的制定和对表象的理解,20,大数据时代的思维变革,变革一更多:不是随机样本,而是全体数据1.随机抽样：用最少的数据获得最多的信息过去由于获取和分析全体数据的困难，抽样调查是一种常用统计分析方法。它根据随机原则从总体中抽取部分实际数据进行调查，并运用概率估计方法，根据样本数据推算总体相应的数量指标抽样分析的精

12、确性随抽样随机性的增加而提高，与样本数量的增加关系不大。抽样随机性高时，分析的精度能达到把全体作为样本调查时的97%样本选择的随机性比样本数量更重要,21,大数据时代的思维变革,变革一更多:不是随机样本,而是全体数据1.随机抽样：用最少的数据获得最多的信息抽样分析的成功依赖于抽样的随机性，但实现抽样的随机性非常困难当想了解更深层次的细分领域的情况时，随机抽样方法不一定有效，即在宏观领域起作用的方法在微观领域可能失去了作用随机抽样需要严密的安排和执行，人们只能从抽样数据中得出事先设计好的问题的结果,22,大数据时代的思维变革,变革一更多:不是随机样本,而是全体数据2.全体数据：用全体数据可

13、对数据进行深度探讨流感趋势预测分析了整个美国几十亿条互联网检索记录，使得它能提高微观层面分析的准确性，甚至能够推测某个特定城市的流感状况信用卡诈骗需通过观察异常情况来识别，这只有在掌握所有的数据时才能做到社会科学是被“样本=全体”撼动得最厉害的一门学科。这门学科过去非常依赖于样本分析、研究和调查问卷。当记录下人们的平常状态，就不用担心在做研究和调查问卷时存在的偏见了,23,大数据时代的思维变革,变革二更杂：不是精确性，而是混杂性对小数据而言，最基本和最重要的要求就是减少错误，保证质量。因为收集的数据较少，应确保每个数据尽量精确，以保证分析结果的准确性允许不精确数据是大数据的一个亮点,而非缺

14、点。因为放松了容错的标准，就可以掌握更多数据；而掌握大量新型数据时，精确性就不那么重要了例如，与服务器处理投诉时的数据进行比较，用语音识别系统识别呼叫中心接到的投诉会产生不太准确的结果,但它有助于把握事情的大致情况不精确的大量新型数据能帮助掌握事情发展趋势,24,大数据时代的思维变革,变革二更杂：不是精确性，而是混杂性执迷于精确性是信息缺乏时代的产物，大数据时代要求重新审视精确性的优劣，如果将传统的思维模式运用于数字化、网络化的21世纪，就会错过重要信息，失去做更多事情，创造出更好结果的机会另一方面，需要与数据增加引起的各种混乱（数据格式不一致，数据错误率增加等）做斗争。错误并不是大数据的固

15、有特性，但可能是长期存在并需要去处理的现实问题,25,大数据时代的思维变革,变革三更好:不是因果关系,而是相关关系1.因果关系与相关关系因果关系是指一个事件是另一个事件的结果相关关系是指两个事件的发生存在某个规律与通过逻辑推理研究因果关系不同，大数据研究通过对巨量数据做统计性的搜索、比较、聚类、分析和归纳，寻找事件（或数据）之间的相关性一般来说，统计学无法检验逻辑上的因果关系也许正因为统计方法不致力于寻找真正的原因,才促进数据挖掘和大数据技术在商业领域广泛应用,26,大数据时代的思维变革,变革三更好:不是因果关系,而是相关关系2.相关关系帮助捕捉现在和预测未来如果A和B经常一起发生，则只需

16、注意到B发生了,就可以预测A也发生了故障经常是慢慢出现的，通过收集所有数据，可预先捕捉到事物要出故障的信号。如把发动机的嗡嗡声、引擎过热等异常情况与正常情况对比，就能知道什么地方将出毛病，及时更换或修复过去需先有想法，然后收集数据来测试想法的可行性，现在可以对大数据进行相关关系分析知道机票是否会飞涨、哪些词项最能显示流感的传播,27,大数据时代的思维变革,变革三更好:不是因果关系,而是相关关系3.大数据改变人类探索世界的方法越来越多的事物不断地数据化，将拓展人类的视野，使得人们可从大量的数据中，发现隐藏在其中的自然规律、社会规律和经济规律当网页变成数据，谷歌具备了令人大跌眼球的全文搜索能力，

17、在几个毫秒之内，就能让人们检索世界上几乎所有的网页当方位变成数据，每个人都能借助GPS 快速到达目的地,28,大数据时代的思维变革,变革三更好:不是因果关系,而是相关关系3.大数据改变人类探索世界的方法当情绪变成数据，人们甚至根据大家快乐与否判断股市的涨跌上述这些不同的数据可归结为几类相似的数学模型，从而使得“数据科学”（应用数据学习知识的学科）成为一门具备普遍适用的学科生物信息学、计算社会学、天体信息学、电子工程、金融学、经济学等学科，都依赖数据科学的发展,29,大数据的处理,大数据处理的几种主要方式海量数据的处理对于当前的技术来说是一种极大的挑战，目前大数据的主要处理形式如下：静态数据

18、的批量处理数据体量巨大、精度高、价值密度低利用批量数据，挖掘合适的模式(数据的结构、属性、联系和约束的描述)、得出具体的含义、制定明智的决策、做出有效的应对措施、实现业务目标用于社交网络、电子商务、搜索引擎等,30,大数据的处理,大数据处理的几种主要方式海量数据的处理对于当前的技术来说是一种极大的挑战，目前大数据的主要处理形式如下：在线数据的实时流式处理日志数据、传感器数据、Web数据等数据连续不断、来源众多、格式复杂、物理顺序不一、价值密度低流式挖掘、实时分析、应用于智能交通、环境监控、灾难预警、金融银行等还有在线数据的交互处理、图数据处理,31,大数据的处理,MapReduc

19、e编程模型是批量数据处理的一种常用编程模型，源于函数式编程语言的两个高阶函数：map和reducemap(f1,x1,xn)=f1(x1),f1(xn)f1作用于n个变元的计算可以并行reduce(f2,y1,yn)=f2(f2(f2(y1,y2),y3),yn)若二元函数f2是有交换律和结合率的运算，则f2作用于n个变元的计算也可以适当并行两者的复合：reduce(f2,map(f1,x1,xn)MapReduce源于此，但更加一般,32,MapReduce编程模型MapReduce是一种比较专用的并行编程模型，面向大数据集上的可并行化的问题Map完成过滤或分类，例如，它把数据集中所有的人按

20、姓氏分成若干队列，每个姓氏一个队列；Reduce完成概括总结操作，例如，计算各姓氏队列中的人数，产生按姓氏的人口比例MapReduce可以在并行计算机、计算机集群和计算机网格上实现,大数据的处理,33,MapReduce编程模型计算过程如图所示程序员只需编写Map和Reduce函数1.Map任务执行Map函数的多个任务并行执行每个Map任务把文件块转换成“键-值”(key-value)对序列,大数据的处理,34,MapReduce编程模型2.按键组合其处理方式与两个函数无关把“键-值”对序列组成“键-值表”对序列把各“键-值表”对分发给Reduce任务按键组合由主控程序完成,大数据的处理,35

21、,MapReduce编程模型3.Reduce任务执行Reduce函数的多个任务并行执行每个Reduce任务把“键-值表”对中的值以某种方式组合，转换成“键-值”对输出,大数据的处理,36,当矩阵很大时，可用MapReduce实现矩阵运算。对于分块乘：1.Map任务计算两块的乘，用结果在Z中的位置作为键2.Reduce任务按键值来分别累加Map任务的结果,大数据的处理,Z:,37,当矩阵很大时，可用MapReduce实现矩阵运算。对于分块乘：1.Map任务计算两块的乘，用结果在Z中的位置作为键2.Reduce任务按键值来分别累加Map任务的结果,大数据的处理,Z:,38,大数据的处理,Z:,当矩

22、阵很大时，可用MapReduce实现矩阵运算。对于分块乘：1.Map任务计算两块的乘，用结果在Z中的位置作为键2.Reduce任务按键值来分别累加Map任务的结果,39,大数据的处理,Z:,当矩阵很大时，可用MapReduce实现矩阵运算。对于分块乘：1.Map任务计算两块的乘，用结果在Z中的位置作为键2.Reduce任务按键值来分别累加Map任务的结果,40,当矩阵很大时，可用MapReduce实现矩阵运算。对于分块乘：1.Map任务计算两块的乘，用结果在Z中的位置作为键2.Reduce任务按键值来分别累加Map任务的结果,大数据的处理,Z:,41,大数据的处理,Z:,当矩阵很大时，可用Ma

23、pReduce实现矩阵运算。对于分块乘：1.Map任务计算两块的乘，用结果在Z中的位置作为键2.Reduce任务按键值来分别累加Map任务的结果,42,大数据的处理,Z:,当矩阵很大时，可用MapReduce实现矩阵运算。对于分块乘：1.Map任务计算两块的乘，用结果在Z中的位置作为键2.Reduce任务按键值来分别累加Map任务的结果,43,大数据分析的关键技术要挖掘大数据的大价值，必须对大数据进行内容上的分析与计算深度学习和知识计算是大数据分析的基础深度学习大数据的出现提供了使用复杂（而不是简单或浅层）的模型来有效地表征和解释数据的机会深度学习就是利用层次化的架构学习出对象在不同层次上

24、的表达（例:降低语音识别错误率）近几年，深度学习在语音、图像和自然语言理解等应用领域取得重大进展,大数据的分析,44,大数据分析的关键技术要挖掘大数据的大价值，必须对大数据进行内容上的分析与计算深度学习和知识计算是大数据分析的基础知识计算要对大数据进行高端分析，就需要从大数据中抽取出有价值的知识并将其构建成可支持查询、分析和计算的知识库涉及知识库的构建、多源知识的融合和知识库的更新、知识的复用,大数据的分析,45,大数据的分析,大数据分析的关键技术要挖掘大数据的大价值，必须对大数据进行内容上的分析与计算社会计算是现代计算技术与社会科学之间的交叉学科它是指面向社会活动、社会过程、社会结

25、构、社会组织和社会功能的计算理论和方法在线社会计算包括在线社会网络的结构分析、信息传播模型以及信息内容的分析、建模与挖掘等,46,大数据的分析,大数据分析的关键技术要挖掘大数据的大价值，必须对大数据进行内容上的分析与计算可视化可视化不仅可对数据分析的结果进行更有效的展示，而且在大数据的分析过程中发挥重要作用不同于传统的信息可视化，大数据可视化的最大挑战源自其数据规模如何提出新的可视化方法，它能够帮助人们分析大规模、高维度、多来源、动态演化的信息，并辅助作出实时的决策,47,大数据的分析,PageRank初步PageRank（网页排名）通过对网络浩瀚的超链接关系的分析来确定一个页面的等级

26、Google把从A页面到B页面的链接解释为A页面给B页面投票，B页面从A页面的投票能得多少分还与A页面的等级有关一个页面的PageRank，由所有给它投票的页面的数量和重要性，经过迭代计算得到这项技术使得Google成为第一个能够战胜作弊者的搜索引擎。当然，与作弊者之间的斗争永远不会停止,48,大数据的分析,PageRank初步1.早期搜索引擎与词项作弊搜索引擎：词项出现在网页头部比在普通正文的得分高、词项在网页中出现的次数越多得分越高作弊者：在自己的网页上增加热门词项,如movie,并重复很多次，以提高与movie的相关性。词项movie在该网页上的颜色与背景色一样，以掩盖作弊者的不道德行为

27、,49,大数据的分析,PageRank初步2.Google的对策使用PageRank技术来模拟Web漫游者的行为：他们从随机页面出发，每次从当前网页随机地选择出链前行，该过程可以迭代多次。最终，较多漫游者访问的网页则重要性较高。在决定查询应答顺序时，Google把重要页面放在前面在判断网页内容时,不仅考虑网页上出现的词项，还考虑有链接指向该网页的网页中所使用的词项,50,大数据的分析,PageRank初步3.最简单的PageRank举例PageRank：网页集实数，值越大则网页越重要定义网页的Web迁移矩阵M来描述随机漫游者的下一步访问行为例：从A出发，以1/3的概率访问B、C和D，访问A的概

28、率为0,51,大数据的分析,PageRank初步3.最简单的PageRank举例随机漫游者位置的概率分布可通过一个n维向量v来描述，每个分量表示处于相应网页的概率例(续)：假定处于各网页的初始概率相等Mkv是随机漫游者k步后的概率分布向量,52,大数据的分析,PageRank初步3.最简单的PageRank举例在Web网页链接图满足一定的条件下，概率分布向量将逼近一个极限分布，它满足v=Mv并且，若分布向量各分量之和为1时，方程v=Mv有唯一解在常规情况下，可用高斯消去法解方程v=Mv在实际情况下，图由几百亿甚至几千亿个节点组成，高斯消去法不可行，原因在于其时间复杂度是方程个数的三次方若迭代求

29、解，每轮迭代的时间复杂度是平方级,53,大数据的分析,PageRank初步3.最简单的PageRank举例例(续)：对矩阵M进行迭代计算：相当把求解方程v=Mv转化为找函数v.Mv最小不动点的迭代过程,54,大数据的分析,PageRank初步3.最简单的PageRank举例需要基于MapReduce进行PageRank的迭代计算,55,小结,本讲座小结概要介绍了大数据的基本概念和特点、大数据时代的思维变革，大数据的处理和分析技术面临的挑战数据复杂：数据的种类复杂、结构复杂和模式复杂，使得数据感知、表达、理解和计算都面临挑战计算复杂：数据多源异构、规模巨大、快速多变,使传统的机器学习、信息检索和数据挖掘都显不足系统复杂：对处理系统的系统架构、计算框架、处理方法、运行效率和单位能耗等都有挑战,56,小结,参考文献维克托尔耶舍恩伯格等，大数据时代：生活、工作与思维的大变革，浙江人民出版社，2012Anand Rajaraman等,大数据：互联网大规模数据挖掘与分布式处理，人民邮电出版社，2012程学旗等，大数据系统和分析技术综述，软件学报，25(9):1889-1908,2014相关课程机器学习与知识发现（研）、机器学习与数据挖掘前沿（研）,57,

展开阅读全文