《《大数据实时处理技术以及其应用》课件.pptx》由会员分享,可在线阅读,更多相关《《大数据实时处理技术以及其应用》课件.pptx(29页珍藏版)》请在三一办公上搜索。
1、,大数据实时处理技术及其应用,Agenda,大数据的现状业务场景思考技术架构及其应用Q&A,关于京东,营销管理,供应商管理,仓储管理,财务系统,客户数据,网站前台,关于京东(续)京东拥有覆盖企业全部价值链的稳定系统,通过持续优化打造开放平台,全面提升用户体验。,配送管理,3 V:速度、容量、类型 数据的来源更加丰富,商品、订单、社交 营销,数据间的关联性更加复杂,人与人,商品与商品,数据的价值,时效性,新商业模式,大数据时代,大规模数据处理更加容易,ETL/企业数据仓库(Hive/Pig/MR),数据挖掘/建模,(R、Mahout),搜索和推荐,日志存储,“Next Click”运营智能风险控
2、制互动分析,一些场景需要进一步的考量,MapReduce批量处理=延迟较长无法满足用户的实时需求调度开销较大,大数据包括三部分,服务,模型 性能,大数据实时处理的思考,模型,海量数据,数据量大 并发数高,多个数据源整合,预定义好的数据模型,去规格化,数据任务依赖关系简单 推和拉的问题,拉比推好,大数据实时处理的思考(续),性能,高并发需求 大容量需求,GBTB 级后台数据处理吞吐,高速度需求,从数据产生到处理完成结果延迟要求到秒级 计算需要在短时间内完成,批处理预算 硬件支持,内存、CPU、网络,容错,水平扩展,大数据实时处理的思考(续),关联获取价值,维度按需定制互动分析、报表等完成价值交付
3、与其他在线生产系统进行数据对接(数据反哺)计算即服务,大数据实时处理的思考(续)服务,生产数据库,企业数据仓库,大数据实时处理架构财务数据集市,采销数据集市,罗盘数据集市,分析挖掘数据集,数据缓冲区,企业消息总线,流式计算集群,实时数据同步,模型,日志系统,高速存取集群在线实时计算集群,持久 化,PUSH,PULL/PUSH,订阅,ELT,ELT,高速存取集群,ETL,报表应用,分析应用,推荐应用,.,数据推,送,中心,近实时分析集群,近实时计算,实时计算在线服务,离线计算,应用,分布式消息系统缓存集群,日志(用户行为、)批量同步消息队列,开源技术,FlumeScribeKafka,大数据实时
4、处理技术 数据传输,Apache项目:http:/kafka.apache.org/一个分布式的发布/订阅消息系统 术语,Topics,消息分组,Brokers,消息存储,Producers,消息生产者,Consumers,消息消费者,Kafka,大数据实时处理技术 几个点,Sink,Agent,Agent,Storm等,Broker(Topic1),Broker(Topic2)HDFS,Zookeeper,解耦缓冲容错透明跨数据中心数据分发Flume,Kafka,HadoopHBaseCassandraMongoDBRedis,数据库Sharding 合适的就是最好的,大数据实时处理技术 存
5、储 大容量低速存储 高速存储 KV存储 开源NoSQL数据存储,可加计算、不可加计算实时数据的实时计算实时数据的计算数据的实时计算,开源计算框架 Storm Impala,大数据实时处理技术 计算,Impala Cloudera公司贡献 一种通用的SQL查询引擎(Hive语法)与Hadoop整合在一起,HDFS DN,HBase,SQL AppJDBC/ODBC,HiveMetastore,HDFS NN,Statestore,Query PlannerQuery CoordinatorQuery Executor,HDFS DN,HBase,HDFS DN,HBase,SQLrequest,
6、Query PlannerQuery CoordinatorQuery Executor,Query PlannerQuery CoordinatorQuery Executor,Mondrian,Mondrian),(OLAP),大数据实时分析,ImpalaHDFS,ImpaladDataNodeM1,ImpaladDataNodeM2,ImpaladDataNodeM3,HiveMetastore,HDFS NN,Statestore,元数据,缓存,IDEJDBC,ReportJDBC,ROLAPMondrian(OLAP)JDBC,大数据实时分析,明细事实表,聚合表1,聚合表2,聚合表3
7、,基本概念 Streams(流),元组序列 Spouts 流的源头 Bolts Functions,Filters,Joins,Aggregations Topologies 优点 可扩展、容错、易用,在内存中执行,流式计算Storm Twitter开源的分布式处理框架,Spouts,Bolt,Topologies,Nimbus,主控节点,用于任务分配,集群任务监控等,Zookeeper,集群中协调,共有数据的存放(如心跳信息),Supervisor,对应一台物理机,用于启动worker,Worker,工作进程,负责启动task,以及通过zeromq进行tuple的分发,与,接收。,Task,
8、工作线程,任务的处理,Storm的部署,Storm的应用模式,用户查询,大数据存储,数据视图集(批处理),数据流,Hadoop,Storm,数据视图集(实时处理)数据流,数据视图集(实时处理)数据视图集(实时处理),流式计算(续),流式计算(续),应用,事件收集器,Storm,前段展现,事件驱动实现,注意,内存泄露 消息堆积,算法模块拆分,流式计算(续),分析可视化数据可视化数据反哺计算即服务,仔细思考其价值,实时的统计:最流行广告CTR预测ETL:格式转换、重复值过滤、运营需求:资源调派,大数据实时处理技术 服务和应用 价值展现,对系统的压力,数据量,数据展现,数据读写和传输,解决方法,前端和后端解耦,缓存的应用,JS发挥前端的能力,压缩 排队,异步、非阻塞IO模型 线程池,事件驱动,后端更强劲,数据库集群:分库、分表、分区 NoSQL数据库:Hbase、MongoDB等,数据应用的问题,