OneAPM智能运维平台解决方案课件.ppt

上传人:小飞机 文档编号:1286801 上传时间:2022-11-04 格式:PPT 页数:45 大小:17.25MB
返回 下载 相关 举报
OneAPM智能运维平台解决方案课件.ppt_第1页
第1页 / 共45页
OneAPM智能运维平台解决方案课件.ppt_第2页
第2页 / 共45页
OneAPM智能运维平台解决方案课件.ppt_第3页
第3页 / 共45页
OneAPM智能运维平台解决方案课件.ppt_第4页
第4页 / 共45页
OneAPM智能运维平台解决方案课件.ppt_第5页
第5页 / 共45页
点击查看更多>>
资源描述

《OneAPM智能运维平台解决方案课件.ppt》由会员分享,可在线阅读,更多相关《OneAPM智能运维平台解决方案课件.ppt(45页珍藏版)》请在三一办公上搜索。

1、OneAPM智能运维平台解决方案,用人工智能点亮您的IT数据,OneAPM智能运维平台解决方案用人工智能点亮您的IT数,议题,2,2022/11/4,议题1 从人工到人工智能3,议题,3,2022/11/4,议题1 从人工到人工智能3,当前运维和业务团队面临的困境,不是没有数据,而是数据太多不是不想分析,而是无从下手,4,2022/11/4,当前运维和业务团队面临的困境不是没有数据,而是数据太多420,从人工到人工智能,挖掘海量数据的业务价值统一大数据分布式处理技术智能算法与机器学习业务系统将要发生什么?主动响应的预防预测性管理,降低系统低效对业务的影响多种分散独立监控工具专业化专家型人才业务

2、系统已经发生了什么?被动响应的故障恢复性管理,人工运维,AIOps,5,2022/11/4,从人工到人工智能挖掘海量数据的业务价值降低系统低效对业务的影,什么是AIOps,AIOps,即基于人工智能的IT运维(Artificial Intelligence for IT Operations) ,是由Gartner定义的IT运维管理新类别。,AIOps将服务管理、性能监测、自动化结合在一起,以实现持续洞察和改进的目标,并由大数据和机器学习技术进行支撑。,机器学习,大数据,平台,AIOps,商业价值,监测(观察),服务管理(交互),自动化(行动),From Gartners Report,6,2

3、022/11/4,什么是AIOpsAIOps,即基于人工智能的IT运维(Art,AIOps的四个核心能力,对海量数据进行高效访问,7,2022/11/4,AIOps的四个核心能力AIOps对海量数据进行存储通过智能,AIOps的技术栈,可视化,机器学习,算法,分析,计算,大数据,数据源,事件,日志,监控,工单,任务,全量,海量,多样性,复杂性IT数据,集中统一管理,历史数据存储,实时数据存储,数据建模,模式识别,趋势识别,故障隔离,智能化选择,异常检测,异常定位,根因分析,算法自我修改演进,新算法创建,多维度,个性化,角色化,场景化展示,数据清洗,去重,过滤,关联,生成新数据,8,2022/1

4、1/4,AIOps的技术栈可视化机器学习算法分析计算大数据数据源事件,AIOps的核心价值,故障发现,故障规避,故障止损,故障修复,异常检测,异常定位,根因分析,异常预测,9,2022/11/4,AIOps的核心价值故障发现故障规避故障止损故障修复异常检测,AIOps将在5-10年内成为ITOM的主流技术,From Gartners Report,10,2022/11/4,AIOps将在5-10年内成为ITOM的主流技术From G,议题,2,用人工智能点亮您的IT数据,11,2022/11/4,议题1 从人工到人工智能3,OneAPM智能运维平台解决方案,服务器数据,存储数据,网络数据,应用

5、数据,用户体验数据,流量数据,日志数据,交易数据,任意IT数据,OneAPMAIOps,大数据实时多维分析,机器学习,大规模事务处理,海量数据实时接入,服务分析,深度挖掘,场景可视化,多维指标告警,数据建模,12,2022/11/4,OneAPM智能运维平台解决方案服务器数据存储数据网络数据应,OneAPM智能运维平台的五个能力层次,发现接入,存储整合,梳理关联,智能分析,多维展示,从哪里来,到哪里去,IT数据,13,2022/11/4,OneAPM智能运维平台的五个能力层次发现存储梳理智能多维从,全栈IT数据发现与接入篇,14,2022/11/4,全栈IT数据发现与接入篇142022/10/

6、9,全栈IT数据的采集范围,监控对象,采集数据,IT系统,客户端,数据库,虚拟化,中间件,SaaS,传统架构,业务层,应用软件层,基础设施层,业务系统,云架构,硬件设备,PaaS,IaaS,交易,业务流程,浏览器,移动APP,应用/微服务,应用代码,数据库服务,中间件服务,网络流量包,日志,虚拟化,网络,主机,机房环境,交易量交易金额交易成功率,页面加载时间浏览器类型用户IP页面加载错误率CDN质量应用响应时间应用吞吐量应用错误率单个服务响应时间单个服务吞吐量单个服务错误率,交易错误率交易处理时间,APP页面响应时间APP崩溃率APP网络请求时间APP H5页面性能JVM内存利用率服务器时延S

7、QL语句执行时间连接池数量缓冲区命中率告警,虚拟机数量主机数量CPU利用率内存利用率丢包率平均建链时间,网络流量磁盘可用容量电源处理器配置项,业务逻辑,IT资产库,CMDB,15,2022/11/4,全栈IT数据的采集范围监控对象采集数据IT系统客户端 数据库,全栈IT数据的采集方式,IT数据,SNMP、IPMI、WMI、SMI-S、JMX、GlassFish、JDBC、SSH、Telnet等,Java、.Net、PHP、Python、Ruby、Node.js、Andriod、iOS等,Rsyslog、NXlog、Kafka、SDK、Restful API等,SFLOW、NETFLOW、IPF

8、IX、SPAN、RSPAN、ERSPAN等,StatsD、 Web Service、 JSON等,URL、Host、Port、 HTTP 、RTSP、RTMP等,16,2022/11/4,全栈IT数据的采集方式日志采集模拟拨测SDK/API字节码探,IT数据采集方式的选择,17,2022/11/4,IT数据采集方式的选择采集方式适用场景基础监控协议IaaS、,与已有ITOM工具的对接,JDBC,SNMP TRAP,Web Service,,OneAPMAIOps,18,2022/11/4,与已有ITOM工具的对接JDBC,SNMP TRAP,Web,海量数据处理与存储篇,19,2022/11/

9、4,海量数据处理与存储篇192022/10/9,海量IT数据处理的挑战,数据规模,高并发总量大种类多样格式各异,毫秒级延时秒级处理响应逻辑复杂,实效,20,2022/11/4,海量IT数据处理的挑战数据规模高并发总量大毫秒级延时实效20,海量IT数据处理平台,指标、交易、详情,指标、事件,历史大数据服务,API 网关,搜索服务,消息服务,交易关联 / 拼接服务 / 异常检测服务等,历史数据处理,实时数据处理,数据采集器,数据采集器,数据采集器,指标、事件、日志、交易、详情、流量,业务交易、指标、告警、详情,时间序列实时数据服务,指标、事件、日志、交易、详情、流量,业务交易、指标、告警、详情,数

10、据接入,数据处理,数据存储,开发,运维,业务,21,2022/11/4,海量IT数据处理平台指标、交易、详情指标、事件历史大数据服务,海量IT数据处理平台的能力,OneAPMAIOps,实时数据管理Streaming data management,历史数据管理Historical data management,指标数据管理Metric data ingestion,文本数据管理Document text ingestion,日志数据管理Log data ingestion,流量数据管理Wire data ingestion,通过NLP(自然语言处理)技术,对人类可读文档进行解析,从网络上直

11、接捕获的数据包,兼容多种网络协议,任何软硬件设备生成的日志数据,并为访问分析建立索引,对实时数据进行标准化和索引化,以时间尺度实时展示数据,吸纳海量多样化历史数据,并进行索引和持久存储,直接捕获和使用数值型数据,例如时间序列数据,22,2022/11/4,海量IT数据处理平台的能力OneAPM实时数据管理历史数据管,IT数据梳理与关联篇,23,2022/11/4,IT数据梳理与关联篇232022/10/9,通过数据模型(Data Module)梳理IT数据,CPU利用率 %,数据库服务错误数,数据库服务请求数,数据库平均响应时间,数据库死锁率,内存空闲率 %,存储空闲率 %,数据库连接池利用率

12、 %,数据库服务健康指数,JDBC,SNMP,数据库实例,操作系统,主机,应用,指标及阈值,接口/协议,依赖关系/拓扑,数据模型Data Module,24,2022/11/4,通过数据模型(Data Module)梳理IT数据CPU利用,开箱即用的数据模型和自定义扩展,应用服务器,关系型数据库,存储,操作系统,Web服务器,虚拟化,应用性能管理,用户体验管理,开箱即用,扩展,自定义,新增指标及阈值,新增接口/协议,修改依赖关系/拓扑,自定义指标及阈值,自定义接口/协议,自定义依赖关系/拓扑,数据模型 Data Module,25,2022/11/4,开箱即用的数据模型和自定义扩展应用服务器关

13、系型数据库存储操作,深度挖掘多个指标对于服务质量的影响,服务分析,深度挖掘,26,2022/11/4,深度挖掘多个指标对于服务质量的影响服务分析深度挖掘26202,如何从IT数据中获得洞察?,人工智能算法与分析篇,27,2022/11/4,如何从IT数据中获得洞察?人工智能算法与分析篇272022/,结合领域知识的人工智能算法,人工智能算法,聚类、决策树、随机森林、卷积神经网络,运维领域知识,异常检测、多维分析、根因分析、故障预测,行业运维经验,金融、运营商、互联网、政府、大型企业,AIOps,28,2022/11/4,结合领域知识的人工智能算法人工智能算法聚类、决策树、随机森林,OneAPM

14、人工智能算法与分析平台,基础数据层,机器学习算法层,RMDB,事件,指标,日志,工单,作业,监控,MQ,NoSQL,TSDB,HDFS,MPPDB,ARIMA,卡尔曼,时序数据分解,Holt-Winters,奇异谱变换(SST),DiD,DBSCAN,Pearson关联分析,J-Measure,Two-sample test,Apriori,FP-Growth,分类,聚类,决策树,逻辑回归,DNN,CNN,LSTM/RNN,NLP,AIOps算法层,指标分布预测,指标聚类,KPI联动分析,KPI事件关联,日志事件序列提取,日志事件模板提取,技术能力层,数据源异常标记,单指标异常检测,多指标异常

15、检测,关联分析,故障拓扑图,故障树,根因分析,调用链,告警压缩,单故障止损,灰度版本止损,配置优化,成本分析,容量规划,资源调度,发现问题,定位问题,解决问题,其他,应用层,自适应异常检测,多维异常问题定位,故障根因分析,异常预测,29,2022/11/4,OneAPM人工智能算法与分析平台基础数据层机器学习算法层R,什么是KPI异常检测,KPI(Key Performance Indicator):用于反映服务的健康程度。如:服务请求数、拒绝数、响应时间、流 、订单等 如:服务 CPU、内存、 络、磁盘等 KPI 异常行为:潜在的风险、故障、bugs、攻击. KPI 异常检测:用于识别 KP

16、I 时序曲线上的异常行为。及早发现风险,防止其发展为故障及时发现故障,进行止损、诊断和修复运维的重要基础,30,2022/11/4,什么是KPI异常检测KPI(Key Performance,OneAPM自适应KPI异常检测的特点,普适性检测算法,动态基带算法,适用更多不同特点曲线,基于迁移算法学习,自动适配场景变化,依据反馈,对算法和参数进行优选,减少人工干预,对比14种常用检测算法,准确度排名第一,算法自我容错,场景动态适配,异常精准检测,31,2022/11/4,OneAPM自适应KPI异常检测的特点 普适性检测算法,OneAPM自适应KPI异常检测结果展示,某大型互联网公司的KPI检测

17、效果,32,2022/11/4,OneAPM自适应KPI异常检测结果展示某大型互联网公司的K,什么是多维分析,交易时间、失败率、闪退率、销售额、 订单数、PV、转化率、用户数、用户增速、留存率、投诉率.,运营商、省份、城市、移动设备类型、软件版本号、移动端模块、浏览器版本、无线网络参数、服务器端模块、后台负载、用户年龄、用户性别.,发现业务“关键指标KPI”瓶颈,为正确决策提供依据。例:“响应时间”在什么条件下会慢?,33,2022/11/4,什么是多维分析关键指标属性1属性2属性n交易时间、失败率,OneAPM多维异常问题分析的特点,自动识别瓶颈条件,基于决策树分析,从大量多维度数据中,自动

18、确定影响属性,基于历史数据的AB测试,在历史数据中对比实验组和对照组的性能差别,预测可能的优化方案效果,预测优化效果,便捷的可视化系统,人员可对过程和结果进行核对,排除可能的干扰数据,重新分析,得到正确结果,过程和结果可视化,34,2022/11/4,OneAPM多维异常问题分析的特点 自动识别瓶颈条件,OneAPM多维异常问题分析结果展示,35,2022/11/4,OneAPM多维异常问题分析结果展示352022/10/9,如何从IT数据中获得洞察?,多维数据场景展示篇,36,2022/11/4,如何从IT数据中获得洞察?多维数据场景展示篇362022/1,面向场景的多维数据分析和可视化,场

19、景化和可视化封装,什么人什么时间什么问题如何处理,37,2022/11/4,面向场景的多维数据分析和可视化场景化和可视化封装什么人372,面向不同场景的多维仪表盘,38,2022/11/4,面向不同场景的多维仪表盘382022/10/9,面向不同场景的多维指标告警,39,2022/11/4,面向不同场景的多维指标告警392022/10/9,面向不同人员的场景可视化示例,40,2022/11/4,面向不同人员的场景可视化示例402022/10/9,OneAPM智能运维平台解决方案的特点,All IT Data,One Analytics Platform,More Intelligence,41

20、,2022/11/4,OneAPM智能运维平台解决方案的特点10亿+条事件分析,单,议题,3,迈出AIOps的第一步,42,2022/11/4,议题1 从人工到人工智能3,如果您认同以下问题,那么AIOps将非常适合您,您已在使用一些运维工具,但它们分散独立,您总是需要在不同工具间来回操作 您期望在更短的时间(如,30分钟)内定位故障发生根因 您期望拥有自己的工作台,将职责范围内的信息聚焦在一个界面 您总被不准确的告警信息所干扰,急切希望提升告警的准确度 您觉得您的应用系统存在优化空间,却找不到优化的切入点 您期望在故障发生前尽早发现系统潜在问题 您期望能灵活的生成工作报表,并通过炫酷的大屏幕

21、展示IT运维成果 您期望通过更加智能便捷的工具,代替日常繁琐重复的基础工作,43,2022/11/4,如果您认同以下问题,那么AIOps将非常适合您 您已在使用,自上而下的方法解决自下而上的问题,要监控的服务是什么?,有什么问题需要解决?,服务由哪些组件组成?,如何评价这个服务(KPI是什么)?,明确每个KPI的数据来源,展现平台价值,通过平台进行数据分析挖掘,绘制场景化视图,创建故障深度挖掘关联关系,创建服务的KPI和数据源,OneAPM,AIOps,挑选日常工作中一个有价值的运维难题,分析挖掘,与专家一同进行问题分解,将分解后的信息导入平台,建立数据模型和视图,44,2022/11/4,自上而下的方法解决自下而上的问题要监控的服务是什么?有什么问,THANK YOU,THANK YOU,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号