《基于HadoopHBase的一淘搜索离线系统.ppt》由会员分享,可在线阅读,更多相关《基于HadoopHBase的一淘搜索离线系统.ppt(30页珍藏版)》请在三一办公上搜索。
1、基于Hadoop/HBase的一淘搜索离线系统,莫 问,个人简介,花名:莫问 真名:王峰 2006年硕士毕业于北航计算机系毕业后加入阿里巴巴集团雅虎中国-垂直搜索团队阿里云-计算服务团队淘宝/一淘-网页抓取团队技术方向:分布式系统和大数据处理,提 纲,一淘搜索系统架构基于HBase的分布式存储系统基于Hadoop的分布式计算平台一淘全网商品离线处理系统,抓取系统,存储系统,业务处理流程,索引构建,搜索引擎,搜索前端,淘宝商品,一淘搜索系统架构,淘宝商品导入,基于HBase的分布式存储系统,HBase集群概述HBase主要数据HBase扩展开发基于HBase的分布式消息队列,HBase集群概述,
2、集群版本:0.94.x+扩展优化集群规模:300台+存储量:300TB+每日更新量:10%监控:Ganglia+JMX,HBase主要数据,电子商务网页库(几十亿)全网B2C商品全网导购信息(资讯、问答、论坛、点评等)淘宝+天猫商品(40%)精选优质商品淘客返利商品,HBase扩展开发,定制Load Balance插件定制Region Split/Merge插件和工具扩展ThriftServer API增强的MapReduce Lib支持丰富更多的Metrics指标多种Coprocessor插件,RegionServer,RegionServer,RegionServer,.,RegionSe
3、rver,region,region,region,region,region,region,region,region,region,region,region,region,region,region,RS-Level Balance,RegionServer,RegionServer,RegionServer,.,RegionServer,region,region,region,region,region,region,region,region,region,region,region,region,region,region,region,Table-Level Balance,R
4、egionServer,RegionServer,RegionServer,.,RegionServer,region,region,region,region,region,region,region,region,region,region,region,region,region,region,region,Both RS&Table Level Balance,Queue,Partition 1,Message 1,Message 2,Message 3,.,Partition 2,Message 1,Message 2,Message3,.,.,Column,Timesatamp,R
5、owkey,基于HBase的分布式消息队列(HQueue),Value,Partition ID+Message ID,Topic,Timestamp,Value,Queue is a HBase TablePartition is a HBase RegionMessage is a HBase KeyValue,RegionServer,Timestamp,Sequence ID,Topic,Value,Partition ID,RowKey,HQueue Writer,HTable Put API Wrapper,COPROCESSOr,2.Locate By Partition ID,
6、Sort By TS,PARTITIOn,Message,Message,Message,Message,1.Create Message KV,3.Set MessageID By TS and SeqID,4.Append To Partition,RegionServer,COPROCESSOr,PARTITIOn,Message,Message,Message,Message,MessageID,Message写入流程,RegionServer,HQueue Reader,HTable ScanAPI Wrapper,2.Locate By Partition ID,1.Create
7、Message Scan,Partition IDMessageID(TS)RangeMessage Topic,Message读取流程,RegionServer,PARTITIOn,Message,Message,Message,Message,3.Scan Sequencially,Sort By TS,4.Return By Order,PARTITIOn,Message,Message,Message,Message,Sort By TS,HQueue特性,支持持久化压缩存储(继承HBase)支持自动Failover(继承HBase)支持动态负载均衡(继承HBase)支持TTL设定,自
8、动清理过期消息(继承HBase)支持多语言客户端(扩展HBase ThriftServer)可与HBase统一运维(本质都是HBase)可与Hadoop MR无缝对接(开发HQueue MR Lib),电商网页库,URL选取,URL队列,抓取系统,Page队列,抽取系统,提链事件队列,Dump事件队列,图片、JS事件队列,提链系统,Dump系统,图片、JS处理系统,HQueue应用场景,基于Hadoop的分布式计算平台,Hadoop集群介绍Hadoop集群业务流程Hadoop-2.0基于Hadoop YARN的定制计算服务,集群版本:集群规模:300台+存储量:1PB+每日运行Job数:2万+
9、监控:Ganglia+JMX,Hadoop集群介绍,网页调度与选取网页链接提取网页内容抽取全网商品各维度数据挖掘一淘全网商品搜索数据Dump一淘全网商品搜索Index Build,Hadoop集群业务流程,NameNode HAHDFS所有环节无单点支持HDFS在线升级YARN引入二级调度,Not Only MR,可定制计算模型Cgroups资源隔离方案更彻底,让系统更稳定,Hadoop-2.0,MapReduce-1.0,MapReduce-2.0(YARN),Resource Manager,Node Manager,App Worker,AppMaster,Node Manager,Ap
10、pWorker,Node Manager,App Worker,AppWorker,AppMaster,Client,Node Status,Resource Request,App Status,Client,Service Submission,Fork/Monitor,Lanch,Service Worker,流式数据源(HQueue,MySQL DRC,TimeTunel),中转队列,Service Workers,InputFormat,InputFormat,OutputFormat,ServiceMaster,Metrics,Service Worker,Service Work
11、er,Service Worker,Service Workers,Service Worker,Service Worker,register,基于YARN的流式计算服务,Progress Checkpoint,Metrics,InputSplit,InputSplit,Service Worker,ServiceMaster,1.Metrics(包括进度),InputSplit,InputSplit,Service Worker,Service Worker,2.发现Worker处理进度太慢,3.分裂Worker,动态分裂计算Worker,ServiceMaster,InputSplit,
12、InputSplit,Service Worker,Service Worker,Service Worker,InputSplit,InputSplit,1.Metrics(包括进度),2.发现两个Worker比较空闲,3.合并Worker,动态合并计算Worker,一淘全网商品离线处理系统,全网商品接入(淘宝+外网)全网商品存储(HBase)全网商品Dump(业务逻辑计算)全网商品Index Build,HBase(全网商品库),一淘抓取系统,Import Job,淘宝搜索Hadoop/HBase集群,淘宝商品,外网商品,eHarmony API Service,前端运营工具,人工修正,修
13、正商品状态属性,Import Service,全量,增量,一淘全网商品接入,HBase(全网商品库),Dump Service,Dump Job,Index Build Job,HQueue,XML文件,问天搜索引擎,索引文件,实时消息,定期增量XML文件,全量XML文件,文件索引,HQueue,增量更新事件,商品入库/更新,一淘全网商品Dump+Index Build,Coprocessor,Coprocessor,一淘全网商品业务处理Pipeline,商家业务处理,运费业务处理,类目业务处理,促销业务处理,返利业务处理,排序业务处理,Dump Job,Dump Service,可插件化,全量流程,实时增量流程,业务处理Pipeline,新浪微博:淘莫问,Q&A,