数据技术体系及人才需求.ppt

资源描述

《数据技术体系及人才需求.ppt》由会员分享，可在线阅读，更多相关《数据技术体系及人才需求.ppt（23页珍藏版）》请在三一办公上搜索。

1、大数据技术体系及人才需求,主讲：刘军辉,经李克强总理签批，2015年9月，国务院印发促进大数据发展行动纲要系统部署大数据发展工作。纲要部署三方面主要任务：一要加快政府数据开放共享，推动资源整合，提升治理能力。二要推动产业创新发展，培育新兴业态，助力经济转型。三要强化安全保障，提高管理水平，促进健康发展。,大数据国家战略,1.政府数据将成为地方政府最重要的资产。2.大数据四要素是预警、预测、决策、智能。3.中国大数据70%的需求集中在政府和金融应用。4.大数据产业与传统产业深度融合。5.数据源服务商构建大数据生态圈。6.大数据智能会逐步取代搜索引擎。,大数据行业趋势,1.物联网：为大数据分析提供

2、数据源2.云计算：为大数据分析提供计算平台3.虚拟现实：为大数据分析提供应用场景5.人工智能：模型训练需要依赖大量数据,大数据与其他技术的关系,1.趋势分析2.行为分析3.关系分析4.异常检测,大数据应用场景,一、医疗大数据看病更高效二、生物大数据改良基因三、金融大数据理财利器四、零售大数据最懂消费者五、电商大数据精准营销法宝六、农牧大数据量化生产七、交通大数据畅通出行八、教育大数据因材施教九、舆情监控大数据名探柯南十、环保大数据对抗PM2.5,大数据行业应用,1.数据科学家2.大数据算法工程师3.数据规划师4.数据分析师5.大数据系统架构师6.大数据开发工程师7.大数据运

3、维工程师,大数据岗位需求,一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合，具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。大数据的5V特点：Volume（大量）、Velocity（高速）、Variety（多样）、Value（低价值密度）、Veracity（真实性）。,什么是大数据？,大数据处理之一：采集数据大数据处理之二：导入数据并进行预处理大数据处理之三：进行统计与分析大数据处理之四：对数据进行挖掘大数据处理之五：可视化分析结果,大数据分析过程,HDFS：分布式文件系统，解决大数据存储问题。MapReduce：分布式计算框架，

4、解决大数据计算问题。HBase:列存储数据库，解决数据检索问题。Hive：数据仓库工具，解决数据挖掘问题。,Hadoop技术体系,Spark Core:包括任务调度、内存管理、错误恢复、与存储系统交互，RDD的API定义。Spark SQL:用来操作结构化数据。Spark Streaming:用来操作实时的流数据。Mllib：提供机器学习算法库。GraphX:用来操作图形，可以进行并行图计算。,Spark技术体系,更快的速度:内存计算下，Spark 比 Hadoop 快100倍。易用性:Spark 提供了80多个高级运算符。通用性:Spark 提供了大量的库，包括SQL、DataFrames、

5、MLlib、GraphX、Spark Streaming。多语言：Spark 支持Scala、python、java、R 等多种开发语言。多集群：Spark 支持 Hadoop YARN，Apache Mesos，及其自带的独立集群管理器,Spark VS Hadoop,map:返回一个新的分布式数据集，由每个原元素经过func函数转换后组成filter:返回一个新的数据集，由经过func函数后返回值为true的原元素组成flatMap:类似于map，但是每一个输入元素，会被映射为0到多个输出元素sample(withReplacement,frac,seed):根据给定的随机种子seed，随

6、机抽样出数量为frac的数据union:返回一个新的数据集，由原数据集和参数联合而成groupByKey:在一个由（K,V）对组成的数据集上调用，返回一个（K，SeqV)对的数据集。reduceByKey:在一个（K，V)对的数据集上使用，返回一个（K，V）对的数据集，Join：在类型为（K,V)和（K,W)类型的数据集上调用，返回一个（K,(V,W)对，每个key中的所有元素都在一起的数据集groupWith:在类型为（K,V)和(K,W)类型的数据集上调用，返回一个数据集。cartesian:笛卡尔积。但在数据集T和U上调用时，返回一个(T，U）对的数据集，所有元素交互进行笛卡尔积。,RD

7、D 转化操作,reduce(func):通过函数func先聚集各分区的数据集，再聚集分区之间的数据，func接收两个参数，返回一个新值，新值再做为参数继续传递给函数func，直到最后一个元素collect():以数据的形式返回数据集中的所有元素给Driver程序，为防止Driver程序内存溢出，一般要控制返回的数据集大小count()：返回数据集元素个数first():返回数据集的第一个元素take(n):以数组的形式返回数据集上的前n个元素top(n):按默认或者指定的排序规则返回前n个元素，默认按降序输出takeOrdered(n,ordering):按自然顺序或者指定的排序规则返回前n个

8、元素,RDD 行动操作,MLlib 是Spark的可以扩展的机器学习库，由以下部分组成：通用的学习算法和工具类，包括分类，回归，聚类，协同过滤，降维等。使用Mllib 的步骤：1.用字符串RDD表示信息。2.运行特征提取算法，返回向量RDD。3.对向量RDD调用分类算法。4.使用评函数在测试集上评估模型。,Mllib算法库,summary statistics 概括统计correlations 相关性stratified sampling 分层取样hypothesis testing 假设检验random data generation 随机数生成,基本统计,主要用来从数据中提取特征TF-

9、IDF：词频逆文档频率HashintDF:从一个文档中计算出给定大小的词频向量。,特征提取,分类回归的应用是根据对象的特征预测结果linear models 线性模型（支持向量机，逻辑回归，线性回归）naive Bayes贝叶斯算法decision trees 决策树ensembles of trees(Random Forests and Gradient-Boosted Trees)多种树（随机森林和梯度增强树）,分类回归,聚类主要用于数据探索和异常检测 Clustering 聚类k-means k均值算法,聚类,协同过滤是一种根据用户对各种产品的交互与评分来推荐系统的技术alterna

10、ting least squares(ALS)(交替最小二乘法(ALS),协同过滤与推荐,减少特征的数量使模型训练更加高效，忽略一些无用的维度。singular value decomposition(SVD)奇异值分解principal component analysis(PCA)主成分分析,降维,1.熟悉数据分析的工作过程，了解数据采集、整理、分析和建模工作中的具体工作。2.熟悉Hadoop或Spark生态相关技术，包括MapReduce、hdfs、Hive、Mllib等3.掌握一门编程语言，java,scala,python,R 等。4.不断地学习相关技术，养成大数据分析的思维习惯。,大数据分析岗位要求,

展开阅读全文