集团在AIOps领域的实践和整体思路课件.ppt

上传人:牧羊曲112 文档编号:1517554 上传时间:2022-12-02 格式:PPT 页数:48 大小:2.86MB
返回 下载 相关 举报
集团在AIOps领域的实践和整体思路课件.ppt_第1页
第1页 / 共48页
集团在AIOps领域的实践和整体思路课件.ppt_第2页
第2页 / 共48页
集团在AIOps领域的实践和整体思路课件.ppt_第3页
第3页 / 共48页
集团在AIOps领域的实践和整体思路课件.ppt_第4页
第4页 / 共48页
集团在AIOps领域的实践和整体思路课件.ppt_第5页
第5页 / 共48页
点击查看更多>>
资源描述

《集团在AIOps领域的实践和整体思路课件.ppt》由会员分享,可在线阅读,更多相关《集团在AIOps领域的实践和整体思路课件.ppt(48页珍藏版)》请在三一办公上搜索。

1、集团在AIOps领域的实践和整体思路,关键指标的智能监控,智能告警合并,智能根因分析,智能故障自愈,智能监控概述,智能故障预警,智能监控概述,智能告警合并,关键指标的智能监控,智能根因分析,智能故障自愈,智能故障预警,58集团网站简介,监控系统演进的几个阶段,监控自动化监控系统可用、好用监控立体化监控覆盖面更全,采集到各维度更全面、更完整的数据监控平台化监控系统与其他运维自动化系统打通和联动监控产品化监控产品更贴近人的使用习惯,用户体验更好监控智能化让监控系统拥有更强的智能,传统监控与智能监控的差别,传统的监控监控指标侧重单机运行状态做固定阈值的异常判断发出基本的告警,数量较大做故障现象的告警

2、,需要大量的人工分析发现问题而不处理,由人决定如何处理发出告警时已经出现故障,智能监控监控指标侧重业务整体运行情况对周期性波动变化的指标做预测和异常检测对信息做有效的区分和整合做故障根因的分析,揭示问题的本质根据故障根因,智能决定如何处理并执行在故障出现前发出预警,智能监控总体规划,监控业务全流程覆盖故障前可以发出故障预警能对周期性变化指标进行预测和异常检测支持按照合适的维度对告警进行合并智能对故障根因进行分析,给出最可能的原因,辅助人做决策可以根据故障原因选择合适的故障自愈策略并执行,自动解决故障,智能监控概述,智能告警合并,关键指标的智能监控,智能根因分析,智能故障自愈,智能故障预警,大家

3、有疑问的,可以询问和交流,可以互相讨论下,但要小声点,关键指标的智能预测和异常检测,背景整体规律性较强、短期小幅波动较多的关键指标,不适合使用静态阈值适用场景网络出口或业务的进出流量集群和域名的访问量需求按天对流量的提前预测对实时流量的异常检测技术方案使用回归模型按天预测流量变化趋势使用分类模型对实时流量做异常检测,如何使用机器学习的方法,明确问题:,处理数据:,我们要解决什么样的问题解决问题可能需要哪些数据我们可以获取哪些数据,流量预测/异常检测,历史时刻对应的流量,数据清洗特征工程数据标记,清洗接口异常数据,统计判别结合无监督学习标记数据,训练模型:,选择模型训练模型验证模型,离线训练模型

4、交叉验证模型表现,使用模型:,线上加载定期修正,BadCase分析修正模型,流量预测及异常检测的技术框架,原始数据,有标记样本库,分类模型,输出模型,实时数据,特征工程,加载分类模型,输出标记,离线模块,在线模块,特征工程,回归模型,预测流量,训练集样本的标记,原始数据,有监督分类模型,统计方法及无监督算法,有标记样本库,标记Top N为异常,分类模型实时判断异常,人工修正确认告警和异常,3-sigema,Tukeys test,Isolation Forest,One Class SVM,投票 2,负样本,投票 =0,正样本,训练样本库,分类器,有标记样本库,标记Top N,无监督分类模型,

5、统计判别方法3-sigema,解释性好计算开销小更适用于正态分布,无法处理复杂情况,正态分布,统计判别方法Tukeys test,不受异常值的影响能够准确稳定地描绘出数据的离散分布情况过于敏感,不够智能,Tukeys test,无监督算法Isolation Forest,使用集成方法的无监督算法计算开销小,训练速度快异常点更加靠近树的根部,而正常数据多处于树中更深的节点,无监督算法One Class SVM,利用支持向量域描述的思想,寻找分离超平面;适用于连续数据的异常检测适用于筛选一定比例的样本,流量预测,整体规律性较强,历史同期流量统计特征历史同期流量变化趋势移动平均特征,历史特征:,流量

6、数据特点:,短期小幅波动较多,移动平均吸收短期波动,工作日,周末,假期影响较大,设计对应的历史特征提取规则,流量趋势可预测,流量预测的效果,根据历史数据预测明天的数据,异常检测,构建合适的对比样本库,提取特征用于对比,当日前n分钟流量数据昨日同时刻前后n分钟流量数据上周同时刻前后n分钟流量数据,对比样本库,对比样本库统计特征:均值中位数标准差最大值最小值偏度峰度,样本对比特征:差值比值同比环比,异常时流量一定有反常的波动,异常发生频率较低,统计判别结合无监督算法解决样本初始无标记问题,有监督算法LightGBM,基于梯度提升树(GBDT)原理采用直方图算法,训练速度快,准确率高,可处理大规模数

7、据支持类别特征,异常检测的效果,基于数据异常程度将异常分为:普通异常、严重异常、陡变异常,异常分级普通异常,普通异常:数据与预期有一些短期的小的偏差,可能是与少量的用户突发访问或爬虫抓取引起的能发现短暂的流量异常,比较灵敏,通过连续n次异常才告警的策略过滤掉毛刺识别算法:机器学习算法判别,异常分级严重异常,严重异常:数据长时间出现了较大的偏离,需要排查数据变化的原因可能是由于网络故障、系统故障或流量推广活动等引起较大的数据变化识别算法:机器学习算法+历史同期数据统计判别,异常分级严重异常,基于历史统计特征对比基于用户反馈调节阈值结合机器学习算法确认异常,异常分级陡变异常,陡变异常:流量突然出现

8、断崖式的增长或者下跌可能是受突发的网络流量攻击,或者系统出现严重问题,需要立刻高优先级排查和解决识别算法:机器学习算法+均值比值阈值校验,异常分级陡变异常,多点平滑,去除一般毛刺最大/最小值去除,避免个别极端值影响结合机器学习算法确认异常,异常检测模型的普适性,模型在时间序列异常检测问题上表现出较好的普适性适用于不同数量级的数据;适用于不同变化规律的数据;适用于不同业务的数据;,流量预测模型的个性化,网络流量预测-业务集群访问量预测(使用多个模型进行预测),智能监控概述,关键指标的智能监控,智能告警合并,智能根因分析,智能故障自愈,智能故障预警,智能故障告警实现的基础,对告警的需求告警收敛精准

9、告警告警发送策略告警分级:邮件-微信-短信-语音连续m次异常则告警/在m分钟时间段内有n次异常则告警告警间隔5分钟,最多告警n次30分钟后未处理则升级,1天后未处理则提醒告警升级后使用升级后的告警级别和接收人,智能告警合并,合并时间窗口1分钟(可自定义)合并策略根据集群合并根据IP合并根据网段合并根据异常种类合并根据宿主机与虚拟机的关系合并合并收益避免海量告警轰炸快速掌握故障情况辅助决策故障根因,智能告警合并维度选择,类比决策树算法,基于基尼值最小化自动选择告警合并维度;,基尼值,智能告警合并维度选择,集群 = 58tongcheng 异常信息 = 页面关键字异常 合并条数 = 16集群 =

10、58tongcheng 异常信息 = 页面状态码非200 合并条数 = 16集群 = 58tongcheng 异常信息 = 页面连接错误 合并条数 = 14集群 = ganji 异常信息 = 页面连接错误 合并条数 = 2集群 = anjuke 服务器ip = 192.168.40.82 合并条数 = 2,智能告警合并维度选择,集群=?,异常信息=?,ganji,合并条数=16,合并条数=14,合并条数=16,合并条数=2,58tongcheng,anjuke,页面连接错误,页面连接错误,页面状态码非200,异常信息=?,服务器ip=?,合并条数=2,页面关键字异常,192.168.40.82

11、,1.遍历全部备选维度,确认当前合并维度;2.基于合并维度划分数据集,继续选择合并维度;3.到达停止条件后停止;,智能监控概述,关键指标的智能监控,智能根因分析,智能告警合并,智能故障自愈,智能故障预警,智能根因分析应用场景,周期变化业务指标突变的根因分析网络出口流量突变网络出口流量与业务集群访问量突变多业务集群访问量突变多层监控根因分析服务器层(宕机)、系统层(资源使用率)、服务层(端口、进程存活)、应用层(页面、接口)、业务层(集群访问量)基于调用链的根因分析Nginx与业务集群业务集群之间的调用业务集群与存储服务的调用,智能故障根因分析,基于数据相关性分析,业务流量异常根因分析:异常发生

12、时,基于流量/访问量曲线相关性定位异常根因,智能故障根因分析,多业务网络流量的相关性分析,左图为58集团某业务流量总端;右图为其对应的app、m、pc分端;总端流量异常下跌时,基于流量曲线相关性确定根因是app端流量下跌;,智能故障根因分析,某业务流量与集群访问量的相关性分析,左图为58集团某业务流量;右图为其对应的集群访问量;同时段出现异常的集群访问量与业务流量相关性明显高于正常集群;,智能故障根因分析,基于告警信息提取,监控分层,系统层:资源使用率(CPU、内存)监控,应用层:端口、进程监控,业务层(页面、接口),网络层、服务器层:网络设备硬件监控,告警信息按层合并,异常发生时由上至下逐层

13、获取告警信息,提取根因;,优点:解释性好,结果可靠缺点:非常依赖监控的完备性,智能故障根因分析可视化视图,异常辅助排查页面展示:异常告警事件,部署上线事件发现告警之间的关联,便于确定故障根因,智能故障根因分析,调用链信息不完备,智能监控概述,关键指标的智能监控,智能故障自愈,智能告警合并,智能根因分析,智能故障预警,智能故障自愈,故障自愈的策略出现故障先不告警,自动执行预定义的一系列处理步骤,尝试自动处理故障如果故障自愈成功,那么无需发送告警如果故障自愈失败,按照预定义的方式发告警在合适的时间,将近期故障自愈的执行结果汇总后通知用户,智能故障自愈,执行简单命令磁盘空间不足自动处理:删除预定义目

14、录的文件服务挂掉自动拉起:执行重启服务的命令调用相关系统服务器宕机自动处理:自动恢复;自动分配备机、部署服务、切流量负载升高自动扩容:调用部署系统和云平台流量自动调度:操作DNS、四层和七层负载均衡服务进行流量切换,智能监控概述,关键指标的智能监控,智能故障预警,智能告警合并,智能根因分析,智能故障自愈,智能故障预警,智能故障预警场景:接口、页面监控,业务集群访问错误率监控通过集群整体服务指标监控做故障告警通过对集群中单机服务指标监控做预警智能容量预警根据集群中异常服务器比例评估容量风险根据流量变化风险评估容量风险发现容量处于瓶颈的系统,自动给出扩容建议智能硬件预警基于硬件性能指标评估硬件损坏风险,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号