2020年全球运维大会 迈向智能运维时代 AIO课件.pptx

上传人:牧羊曲112 文档编号:1573865 上传时间:2022-12-07 格式:PPTX 页数:28 大小:1.69MB
返回 下载 相关 举报
2020年全球运维大会 迈向智能运维时代 AIO课件.pptx_第1页
第1页 / 共28页
2020年全球运维大会 迈向智能运维时代 AIO课件.pptx_第2页
第2页 / 共28页
2020年全球运维大会 迈向智能运维时代 AIO课件.pptx_第3页
第3页 / 共28页
2020年全球运维大会 迈向智能运维时代 AIO课件.pptx_第4页
第4页 / 共28页
2020年全球运维大会 迈向智能运维时代 AIO课件.pptx_第5页
第5页 / 共28页
点击查看更多>>
资源描述

《2020年全球运维大会 迈向智能运维时代 AIO课件.pptx》由会员分享,可在线阅读,更多相关《2020年全球运维大会 迈向智能运维时代 AIO课件.pptx(28页珍藏版)》请在三一办公上搜索。

1、,迈向智能运维时代,AIOps服务应用运维民生银行的探索与实践,目录,应用运维的挑战,1,关于智能运维的思考,2,民生银行的探索与实践,3,民生银行科技发展趋势,200 x年,Now,2012年,SOA架构 “新”核心项目,单体应用 老核心,分布式与微服务化业务与应用架构革新,分 布 式 核 心 系 统,新 零 售 信 贷 体 系,企 业 综 合 服 务 平 台,成本中心实现需求Cost Center,紧跟业务战略发展Business Follower,业务、架构与技术的跨越式发展信息科技角色的巨大转变金融科技协同业务创新FinTech Enabler,小 微,3.0,远 程 银 行,民生应用

2、运维的定位,应用 运维,组织定位,职能定位,角色定位,上线准变更评业务连系统及 入及实审和实续性管流程优 施施理化分析,系统问 题处理 和服务 请求,运维工 具体系 建设,运维部门“对外”窗口,运维内部组织协调主要维度(流 程+项目+系统),应急处理第一责任,系统运行,上线交付,优化反馈,开发部门,业务部门,运维其他,部门,民生应用运维的原则:基于SRE理念,服务分级,服务依赖,驱动运维其 他部门,鼓励推动业 务流程优化,鼓励发现系 统隐患,鼓励建立问 题工单,对服务质量以发现问题琐事与工具 负责为荣观,好工具不是 规划出来的,工具和琐事 的跷跷板效 应,问题跟踪,详细事件报 告,根因分析,规

3、避总结,应急管理,角色定位明 确,应急预案规 范,优先恢复服 务(双十),以恢复生产 服务为第一 要务,十分钟定位 问题,十分 钟解决问题,运维新挑战,产品推陈出新流程优化改进注重客户体验要求快速响应,业务 创新,新架构新技术,技术演 进,虚拟化云平台服务治理,运维支撑,直销银行新零售信贷小微3.0远程银行,分布式核心微服务与服务治理容器云平台大数据|人工智能| 区块链|生物识别,故障处理困难加大运维数据亟待挖掘运维价值难以体现,软硬件数量激增应用和架构复杂化频繁的变更操作调用链显著加长运维数据井喷,目录,应用运维的挑战,1,关于智能运维的思考,2,民生银行的探索与实践,3,数据驱动运维,数据

4、中心形成数据思维,靠数据说话、靠数据决策的氛围智能运维是数据驱动运维理念中,完成自动化知识加工的重要一环,描述 原始 分散,数据采集,联系 加工,告警 一眼请,经验 规律 可预测,人工 智能运维,知识,信息,数据,机器M的CPU使用率达到60%,A类S系统的数据库模块M机器发生主要告警,CPU 使用率超过50%,正在数据清理操作,CPU升高为正常现象,只要 CPU不超过80%都没有问题,数据清理时应关注数 据库归档日志,超过50%需要手工触发归档,智能运维是下一代运维技术的必然选择,海量数据复杂关系经验依赖跨条线沟 通,传统运维智能运维,数据驱动算法驱动智能决策给出解决 方案,架构日 益复杂,

5、基础架构:云化应用架构:微服务化双态:传统和互联网化并存,系统关 系复杂,应用系统:系统间调用网化,问题处 理复杂,工具:精 专团队配合:信息不对称,来自Garnter Report,智能运维场景分类,摘自企业级AIOps实施建议白皮书,智能运维落地的局限与挑战,AI天生的局限,现代统计学关联与因果,数据挑战,缺少标准,种类繁多,结构 多样经验难以数据化数据完备性,技术挑战,场景复杂,非单一数据倾斜 非典型算法,人才和组织挑战,中心化组织运维+AI人才匮乏,智能运维是 万能的?,不,智能运 维需要准确 定位,民生智能运维的目标与定位,智能运 维:单 点时代,智能算法运维流程,学习人的经验,提升

6、人的效率,解放人的精力,灵魂拷问:智能运维究竟有什么用?,从痛点出发: 难,慢,重,信息完备的 海量的,适合的 定制的,目录,应用运维的挑战,1,关于智能运维的思考,2,民生银行的探索与实践,3,智能运维的架构设计,展示层统一展示渠道多种通知线路,智能运维平台运维数据治理体系化运维数据模型定制智能运维算法强劲的计算能力开源可控的技术实现,运维对象层双态架构,数据源层运维数据全量接入,应用场景层贴近需求,针对痛点,流程管理,运维工具,智能运维算法库,服务接口,数据接入,数据治理,数据存储,数据加工运维数据模型实时计算,离线计算,可视化平台,移动OA,邮件,工单,短信,自动化运维系统,质量保障,效

7、率提升,成本优化,运维数据基础,数据模型,运维数据源,数据摸底,收集所有数据,数据标准,配置数据采集自 动化,数据模型,格式,类型,字段 主机、中间件、数 28个数据模型据库、网络、存储,反馈优化,一次性接入不现实使用中提升质量,背景,与SRE的核心目标一致固定阈值误报漏报多,人工维护成本高数据,可用性指标,成功率、响应率、交易量、响应时间等,智能运维场景设计1可用性故障发现(1),故障发现要及时 无漏报少误报,挑战简单算法(如3sigma,LOF,孤立森林等)只能在特定数据下奏效指标情况各异,难以设计适应所有场景的算法,节假日、尖峰、剧变等场景,智能运维场景设计1可用性故障发现(2),成功率

8、,智能运维场景设计1可用性故障发现(3),算法:单指标异常检 测,效果:,开箱即用无需事先标注, 节省人工故障发现更及时漏报少,大小故 障不放过,智能 基带,周,期偏移,突变检测,剧变适配,专项 检测,自动识别指标陡变,自动适配模式剧变,自适应推断,自动适配跑批时长不固定,基于GBRT的回归基带算法,背景每笔交易都有很多维度组成,影响故障的维度很多(机房、服务器、源系统、返回码、交易码)地理维度:机房、分片、服务器交互维度:源系统、交易码、返回码、响应时间业务维度:发起机构、收款行号、产品编码、税务局代码,当整体指标出现告警时(如交易量上升),快速定位到具体的交叉维度(如渠道=手机银行&服务名

9、=黄金购买)的异常, 辅助故障定位或确定影响范围知其然,也知其所以然数据包含多种维度的交易明细,智能运维场景设计2多维故障筛查(1),特征分析问题是否有特征?,算法从交易明细数据中,通过关联分析找出每个系统的关键维度(数十个)整体指标出现告警时,触发多维定位依据蒙特卡洛树搜索算法,对各种维度的交叉情况评估,快速剪枝,找出交叉维度优势,智能运维场景设计2多维故障筛查(2),告警影响分析,缓解告警焦虑根因分析,智能下钻7*24在线交 易,监 控,交易明细,维度提取,多维定位,维度库,事件,定时执行,触发,总交易量,交易量上升,例:渠道=手机银行& 交易名=黄金购买异常维度定位结果,手机银行,第三方

10、支付,计费系统,支付系统,理财系统,核心系统,认证系统,智能运维场景设计3故障传播分析(1),背景调用链路不断延长烽火台狼烟,问题定界到底是哪个模块 出问题了呢?,智能运维场景设计3故障传播分析(2),数据交易明细数据全局统一流水号算法相关联的节点,曲线具有相似性以系统为节点,调用关系为边,构建调用关系图按照排序结果,推荐最有可能的Top3系统,构建骨架图,根据报警节点间的相 似性找出所有异常节 点,确定传播方向,根据报警类型和节点 间调用关系确定直接 故障传播关系及方向,定位排序,根据故障传播图拓扑 结构及权值信息计算 节点为根因所在节点 的概率并排序,优势,消除盲目的问题排查提高故障定位的

11、效率,智能运维场景设计4监控指标排查(1),背景机器数量增多,监控项细分依靠报警,严重,核心指标系统特点不同,排障依赖经验数据CMDB监控指标系统-模块-服务器-类别-实例-指标网银互联-前置-NAPSAP1-Disk-hdiskpower99-磁盘繁忙率手机银行-网关-MBGW01-Tomcat_线程池-活动线程数突出类别,监控指标都正常吗?,智能运维场景设计4监控指标排查(2),优势与人工排查结果一致不忽略长尾指标大幅减少故障定位耗时,智能运维场景设计5智能日志分析(1),背景日志数据内涵丰富日志挖掘难度大非结构化,无法直接分析数据量过大,人力无法完成数据已建立日志平台,日志量丰富,日志检

12、查看看日志里面有什 么异常,OP S 全球运维大会 20,智能运维场景设计5智能日志分析(2),日志采集,借助ELK天眼日志平 台的通道,日志模版提取,基于FP-tree的模版提 取技术,日志故障发现,模版频率的阈值或智 能异常检测重要变量分布异常检 测,日志辅助问题定位,模版频率变化变量分布变化,原始日志,变量+分词,日志模板,统计信息,智能运维不是万能的,需要合理的定位替换人工流程中“难、慢、重”的部分结合“场景+算法+数据”,简化应用运维的工作数据质量从根本上决定智能运维的效果从算法Demo到产品存在巨大鸿沟实践是检验算法的唯一真理不要尝试改变流程,而要融入流程智能运维仍处于单点时代,未来将由点及面,快速发展,实践感悟,谢谢,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号