企业级机器学习平台产品解析.ppt

资源描述

《企业级机器学习平台产品解析.ppt》由会员分享，可在线阅读，更多相关《企业级机器学习平台产品解析.ppt（36页珍藏版）》请在三一办公上搜索。

1、1989,1992,1997,2016,2014,2011,BillOthello,Deep Blue,AlphaGo,2007,SPHINX,IBMWatson,AppleSiri,1994,Nuance,ChinookCheckers,1988,FacebookDeepFace,MicrosoftTay,LoebnerPrize,ClaudicoTexas Holdem,2015,GoogleBrain2012,2000,2013,DQN,XboxKinect,GoogleNow,MicrosoftCortana,PalantirMetropolis,Wealthfront,Betterm

2、ent,GoogleAdWords,Kensho,GoogleAuto-Email,MS OfficeGrammar,2012,CMU Boss,BostonDynamics,Google Car,Pepper,Amazon Kiva,人工智能发展的主要里程碑,AI=机器学习+大数据,存储和计算能力的发展：Intel/Nvidia/SSD/Infiniband数据规模的变化：O2O/物联网/互联网+,机器学习领域的发展：框架、人才、数据科学家,大纲,1.机器学习产品2.算法与算法框架3.可扩展平台架构4.面向部署集成5.案例与选型,企业级机器学习产品架构解析,机器学习产品要解决什么问题？,业务

3、专家：利用大数据和机器学习获得业务提升关心：模型效果、与业务结合、可解释,系统管理人员：维护大量数据流&线上模型服务关心：资源使用、一致性、可管理性,数据科学家：处理数据&模型调研关心：算法、灵活性、可扩展性、性能,模型效果 VS 调研成本大量数据导入导出&预处理特征工程&调参领域知识 VS 技能要求问题定义和优化目标需要业务经验需要懂Python/Spark/Tensorflow,投产要求 VS 运维难度线上特征实时预估服务,机器学习平台的困难？VSVS,VS,提升算法效果,聪明 VS 笨,天真无邪 VS 博览群书一代宗师 VS 走火入魔,确保模型效果充分使用尽可能多的数据,经

4、验风险：模型对于训练数据分类结果的误差置信风险：模型对于未知数据分类结果的误差样本不足的情况下，VC维越高，越容易过拟合样本充足的情况下，VC维越高，模型效果越好,-如何获得足够的样本数据：使用更多的表和字段，3维特征-如何获得足够的计算能力：分布式机器学习,VC维=机器学习的智商,大规模机器学习框架GDBT,C+14/兼具运行效率和开发效率,机器学习过程抽象，隐藏分布式细节,数据流与学习过程的紧密结合,面向实际客户问题的算法包,SplitRR,SplitRR,SplitRR,map,map,map,(Sort)reduce,OutputFormat,filefileRecordReaders

5、,Input(k,v)pairs,Intermediate(k,v)pairsPartitioner,Write back tolocal HDFSstore,MR/Spark ML 计算模型Node 1Files loaded from local HDFS storesInput Format,SplitRR,SplitRR,SplitRR,map,map,map,Partitioner,(Sort)reduce,OutputFormat,filefileRecordReaders,Input(k,v)pairs,Intermediate(k,v)pairs,Write back tolo

6、cal HDFSstore,Node 2Files loaded from local HDFS storesInput Format,“Shuffling”process,Intermediate(k,v)pairsexchanged by allnodes,Dataflow,Map,Shuffle,Reduce,WorkerData Shared,WorkerData Shared,WorkerData Shared,Partion 2,ww=w-ww,ww=w-ww,ww=w-ww,w,w,GDBT 计算模型ParameterServerPartion 1,w inHQueue,ww,w

7、,w,Partitioned by featurePartion 3,MinibatchPush/Pull wLoad DataFrom Datasource,GDBT Not Only Parameter Server,存储|计算|通讯|灾备|开放接口|场景优化,HDFS,Local FS,S3,zeromq,CUDA,MKL,Yarn,MPI,Mesos,GDBT DataSource/HeterCache,GDBT RpcService,GDBTHeterComputation,GDBT Channel,GDBTProcesses,GDBT ExecEngine,GDBT Group C

8、ommunication,GDBT ML Components,GDBT Wrapper,GDBT LR/FM,GDBT Transfer,GDBT TreeNet,GDBTAutoFeature,GDBT W&D NN,GDBT Ensemble,GDBT PS,GDBT集成面向客户适用的算法,DNN modelLR fea-weight,GBDT modelCOEC,continuousfeatures,机器学习问题并非0和1问题需要尽可能利用离散&连续特征面向客户场景（模型稳定性）Bagging+,Deep Sparse Network（第四范式新一代深度学习模型，2015）,GDB

9、T架构收益,开发新算法只需要一百到几百行代码（LR、FM）,无须关心分布式细节，就可获得分布式算法,支持LossFunction/算法数据流的定制,降低成本与门槛,业务专家数据科学家机器学习系统开发人才,AI 价值与成本培养一个合格的AI人才需要6-10年的时间,-杨强 AAAI Fellow，第四范式首席科学家,培养一个合格的AI人才可增加经济收益500-1000万美元-Andrew Moore 卡耐基梅隆大学计算机学院院长在白宫AI发展听证会上的讲话,BI SQL Oracle DB/DB2,降低技能门槛 AutoML/AssistML/TransferLearning,算法创新：较少

10、的需要参数手动调整,自动特征工程：利用DSN，同时获得千人千面+可推理的效果高级特征工程算子：序列事件特征、社交关系特征特征和模型可解释性：辅助建模人员更有效率工作,Transfer Learning(IN PROGRESS)：如何打破全局意义上的数据分割,Prophet 对模型的全生命周期管理,增量测试数据,样本数据,算法,优化算法,标签,待评估数据,特征测试数据,优化特征迭代训练,其他场景,迁移,数据源,准备数据,分析处理,数据建模,价值应用,数据接入,模型应用,数据处理,数据分析,特征处理,模型训练,模型评估,模型训练,应用,分析,整理,模型,数据科学家/业务专家,多功能多语言支持P

11、ython、R、SQL等多功能语言和用户习惯的使用方式,团队协作为不同的团队角色的提供针对性的功能和与之对应的协作方式，同时提供不同角色的培训服务,易使用交互式的图形化界面能快速的完成业务问题转化和建模过程的定义,高效率提供多种系统化实验，并提供自动的优化和调参功能,高效能自主知识产权的专利算法和计算框架提供高效的计算能力和精准的应用效果,快速定制作为通用开发平台，开发者可快速依托平台的组件库和架构完成专属的人工智能业务系统的定制和对接,高可扩展提供多语言的SDK，帮助开发者在此基础上完成二次开发和扩展使用,高处理能力大规模分布式的底层架构，满足高业务复杂度和数据量的存储和处理需求,开发者/系

12、统工程师,Node ExecutorGDBT OperatorSpark OperatorHDFS FunctionYarn Function,Bigdata ClusterYarn ClusterHDFS StorageSpark StreamingDB Instances,CallReport,ABI Register,Task Pull,Prophet 系统架构Lamma&SDKDAGProphet API Services,Model,Transwarp,PredMgrOnline ClusterPrediction ServiceCannon KVStoreDocker Contai

13、nerOnlineNode Agent,管理在线服务&离线任务Web界面&Python SDK任务调度：DAG,集群功能代理机制,集群动态注册、卸载机制,图形机器学习操作界面-Lamma,算子区,DAG操作区,参数配置区,计划操作区,图形机器学习操作界面-Lamma,使用场景以PC为主 ReactJS（核心框架）Lamma-Flux（数据流框架）Lamma-Parts（组件框架）,图形机器学习操作界面-Lamma,taskType:DataSplitAtom,enableGroup:false,nodeTemplates:,name:DataSplitAtom,label:数据拆分,tag:D

14、ataSplit,inputs:type:data,slots:type:data,outputs:,type:data,slots:type:data,type:data,config:basic:,method:content:0,widget:,name:DropDown,isVisible:true,order:1,candidates:,label:按比例拆分数据,value:0,isDefault:true,label:按规则拆分数据,value:1,label:先排序后拆分数据,value:2,label:拆分方式,isParent:true,界面组件模板化开发,Lamma-前后

15、端打通服务器端语法推断和验证,Spark代理,Web UIAPI GatewayFunc调度器节点注册同时验证函数注册Feature代理验证&执行Hadoop Cluster,SDK 更快的调研或生产 Web的优点：直观、可视化 Web的缺点：操作复杂，不利于重复任务（例如For循环）SDK,Web,共用Prophet API ServiceProphet BackendCluster ComputingDistributed Storage,架构收益,工程团队和算法团队的粘合剂：缩短新技术产品化流程模型调研过程更有效率，无人值守提供前后端打通功能：训练过程可视化、进度和错误可上线,面向部署

16、集成,大客户IT三件事,安全、稳定、规范,企业产品运维三件事标准、灵活、自动化,大数据&机器学习给IT运维管理人员带来的麻烦,资源抢占Troubleshooting麻烦大数据集群兼容性上线困难,资源抢占与资源调度Problem：机器学习任务的灾备设计与ETL不同局部独占是通常较优的调度策略除了Yarn默认的vCPU/内存以外，网络带宽、IO也是重要考量因素,TaskScheduler,TS Node,TS NodeTS Node,Network Traffic,IO Usage by device,IncomingTasks,Yarn Container,Yarn ContainerYar

17、n Container,Node AgentCluster(Yarn)Computing,Dango Yarn on Yarn 全功能调度计算和存储分离可能根据Ability调度任务多集群灾备,Node AgentCluster(Mesos+CUDA)Computing,Storage,Ability ManagerAbility Register,Task SchedulerStorage ManagerStorageRegister,TroubleShooting问题Problem：Hadoop默认UI不友好（域名、端口、操作方式）分布式任务的TroubleShooting需要经验

18、小错误导致的时间浪费（大型人物半途终止）,Solution：LogStreaming/WebViewer/LogDownloader 对日志的关键条目进行分析并展示到UI 执行计划预先推断,Data Access Adapter,大数据集群兼容性Problem：企业通常已有商业版本的Hadoop集群，开启安全机制（Kerberos）安全机制导致的数据服务器到应用服务器有限端口开放多集群管理,ResourceManager,ApplicationInput/Output Data by NameKerberosKeytab&PrincipalInput/Output Data by Strea

19、mActual Node Process,AppZoneFirewallDataZone,Prophet Server1对多，仅HTTP端口Prophet Agent1对1，完整端口访问Hadoop Cluster,机器学习应用的上线,线下DAG图到线上DAG图的自动转换自动容器化部署与资源调度分布式在线模型存储与计算时间窗口特征计算与存储,经验&选型参考,哪些业务最适合开始机器学习实践？传统金融（有历史数据、有业务干预点）：推荐类：千人千面营销方案、产品组合推荐定价类：因人而异的服务组合和定价策略风险类：新户风险评分，贷后风险评分，欺诈识别,新兴互联网企业：业务闭环可打通（购买行为、评价、反馈）有一定的数据规模，更重要的是数据累积速度基础设施建设（日志、物料库、效果分析系统）,搭建机器学习系统经验学习目的 OR 生产目的？是否具备足够的样本规模？是否需要平台化管理？是否需要线上实时应用？,高成本高收益高成本低收益,低成本低收益,

展开阅读全文