2020年全球运维大会 转型的灯塔:技术运营标准课件.pptx

上传人:牧羊曲112 文档编号:1573862 上传时间:2022-12-07 格式:PPTX 页数:33 大小:2.08MB
返回 下载 相关 举报
2020年全球运维大会 转型的灯塔:技术运营标准课件.pptx_第1页
第1页 / 共33页
2020年全球运维大会 转型的灯塔:技术运营标准课件.pptx_第2页
第2页 / 共33页
2020年全球运维大会 转型的灯塔:技术运营标准课件.pptx_第3页
第3页 / 共33页
2020年全球运维大会 转型的灯塔:技术运营标准课件.pptx_第4页
第4页 / 共33页
2020年全球运维大会 转型的灯塔:技术运营标准课件.pptx_第5页
第5页 / 共33页
点击查看更多>>
资源描述

《2020年全球运维大会 转型的灯塔:技术运营标准课件.pptx》由会员分享,可在线阅读,更多相关《2020年全球运维大会 转型的灯塔:技术运营标准课件.pptx(33页珍藏版)》请在三一办公上搜索。

1、,转型的灯塔:技术运营标准评估权威指南及案例解读,目录,技术运营标准简介,1,标准的框架与设计思路,2,标准的“硬”技术与案例解读,3,标准的“软”能力与案例解读,4,互联网技术的发展驱动运维技术前进,移动互 联网 时代,传统 时代,互联网 时代,平台化 时代,云计算 时代,AIOPS时代,降本增 效新场景,一体化 工具链 组织文化 理念,移动迁移 多终端,去IOE开源热潮上云,运维开发 效率,应用运维 质量&用 户BASE,流程化 ACID,ITIL ITSM,海量运营 技术运营,3P平台化自动化,开源 架构升级 云运维,无线技术栈 Velocity,持续交付 ITSM敏捷 精益,算法 AI

2、平台 大数据,人工运维,云运维,智能化运维,运维开发,应用运维,一体化,移动运维,Devops 时代,能 力 侧 重,时 代 特 点,2015年技术运营标准的萌芽,上线,聚用户,营销,高可用架构设计,持续部署,可用性保障,数据服务,运营活动支持,用户体验优化,成本优化,客户服务,互 联 网 应 用 运 维 框 架,研发期研发,运营期,三年三稿与顾问团,模型 顶层设计,模型验证,立项研讨,初稿编写,专家评审,发布征求 意见稿,提交 送审稿,正式发布 报批稿,起始于2015年互联网应用运维能力成熟度模型,DevOps 标准产生过程,标准中的软能力与硬技术,技术运营 服务,规范意识 能力,平台化 能

3、力,运营 服务能力,流水线,监控,自动化,质量 意识,标准化,IT服务 流程,事件 管理,高可用 性管理,配置 管理,发布 管理,成本 管理,容量 管理,持续性 管理,变更 管理,数据 中心,业务 理解,用户 体验,智能,监控 设计,风控,一体化,配置 中心,事件 平台,技术运营标准对行业的意义,虽然,DevOps 像水,水无常态但是,喝水需要容器,这就是标准 (无规矩不成方圆)BATJ经验的总结与传承 (对齐能力、避免重复踩坑、闭门造车)从0到1、自检、过程改进、建设目标标准并非“限定”( ITIL V4 已经发布 )五级阶梯式成长模型 (并非0或1),DevOps 标准,ITIL / IO

4、S 20000,CMMI / 敏捷开发测试,运维,管理+ 技术标准化 + 工具赋能管理 标准化,标准对企业的价值,自查,了解企业 DevOps 自身发展情况,发现问题, 查漏补缺,明确未来持续优化的方向。,自证,衡量,对照,被认定为国内领先或顶尖水平, 成为 DevOps 在中国落地的行业标杆,引领行业发展。,明确企业内部各项目 及 外部服务商、合作伙伴 的 DevOps 能力现状、成长情况及工作量。,对比同行业及所有行业的 DevOps 优秀实践,相 互取长补短,共同进步。(书同文、车同轨、行同伦),目录,技术运营标准简介,1,标准的框架与设计思路,2,标准的“硬”技术与案例解读,3,标准的

5、“软”能力与案例解读,4,DevOps 标准全局框架,牵头单位:中国信息通信研究院(国家智库,可信云等出品单位)起草单位:云计算开源产业联盟、DevOps时代社区、高效运维社区、BAT、京东、中国移动、中国电信、中国银行、平安科技和中国银联等 目前进展:2018年6月29发布全量征求意见稿,2018年7月在联合国ITU-T 正式立项,技术运营标准的框架组成,监控管理,监控采集 数据管理 数据应用,运营配置管理,配置管理,容量与成本管理,容量管理 成本管理,事件管理 变更管理,事件与变更管理,高可用管理,应用高可用管理 数据高可用管理,风险管理 危机管理 应急管理,业务连续性管理,业务认知管理

6、体验管理,用户体验管理,技术运营,技术运营标准框架&设计思路,具备中等企业技术运营水平局部建立自动化能力,有标准化的流程辅助工作的完成覆盖应用对象全生命周期管理,部分能力项实现联动,二级,具备成熟企业技术运营水平,场景自动化集中式管理,有标准化规则贯彻应用全生命周期强调技术运营能力的覆盖广度,从被动响应到主动预防明确量化管理的指标与要求,驱动架构和技术的优化,三级,国内顶级的技术运营能力,实现垂直场景的技术深度复杂场景实现无人治理,实现多对象多事件的关联与执行从规则化演进到半智能化,动态决策与调度自动化工具精细化数据运营,技术运营与业务运营结合,驱动优化,四级,国内领先水平,国内先进水平,技术

7、运营标准的重要级别说明,各能力项的递进与关联,级别说明,监控管理,事件与 变更管理,配置管理,容量与 成本管理,高可用管理,业务连续性,用户体验管理,平均级: 基础的监控管理, 一 级 部分能满足企业对 IaaS自动化监控的基本需求。,基本的事件规范和,变更操作要求,及 时处理事件和管控 部分变更风险。,靠人工保障配置 记录的管理。,基础的硬件与业 务的指标汇聚,流量切换。基础的健壮性,硬件故障 能及时恢复。数据库备份可靠。,基础的业务影响分析 能力和业务风险分析,具有快速处理用户体验的 投诉问题,具备丰富的业,能力,基本应急演练。 务端的数据收集能力。,二级,先进级: 自动化/脚本化,覆盖更

8、多监控对象。,告警收敛,监控数 据关联分析。,对常见的场景可以 实现告警度量、管控 和可视化的能力。,完善的事件及变更,管理能力,覆盖全 生命周期的管理。,流程与场景部分的,自动化和可视化。,统一的配置管理 系统,全生命周 期的管理技术运 营相关的对象。,持配置变更。,技术运营全生命 周期的容量和成本 的管理。有规则和 流程支持,以满足,有规则和流程支 不同场景的需求。,应用服务间调用关系治理 整体RTO 达到,平台,支持应用服务级别的 99.90%。 监控报警。至少半年进行一次灾IT系统有效打通,故障快备测试演练。 速定位。,详尽的应急响应预案,,数据库读写分离,主备实 充分考虑外部舆情和

9、时同步,同城多机房备份。 客服的信息反馈。,端到端全链路事件埋点;,全链路的体验告警,用户 体验优化效果可衡量、可 视化体验管理能力,联合内部,主要场景的用 户体验优化,领先级: 三级 系统化/平台化,精细化和平台化, 通过标准化的管理和 自动化工具,强化技 术运营过程中的功能 细节管控。,面向应用场景实现 告警管控和可视化管 理。,平台化。,完善的可视化管理,,对过程和团队做到 度量。,平台,支持灵活,符合技术运营场,景的需求。,各个维度有精细化扩展,能够与其他 灵活的容量与成,技术运营流程打通, 自动化配置管理 本管理规则与流程,,所得数据指导技术,扩展和关联分析, 运营活动,为企业,提供

10、数据支撑和优 化建议。,自动化动态扩容。,分布式缓存,分表分库, 跨库事务。,异地数据备份。,整体 RTO 为 99.95%,主动模拟注入故障,,2分钟响应,5分钟找,同城多机房实时数据备份,到原因启动预案,10,分钟完成问题解决。,自动跟踪及用户改善工具。,用户体验类的指标基线,,并被快速定位和解决。 并能联合外部建立优化工,具,驱动整体的用户体验 指标的改善。,5分钟发现质量数据异常,重叠能力项的说明,持续交付,技术运营,技术运营评估首批通过企业-华泰证券,2级,华泰证券股份有限公司涨乐财富通交易服务项目华泰证券为投资者研发的集热点财经 新闻、股市行情报告、委托交易、产,品商城为一体的全功

11、能免费手机理财 软件,目前用户规模千万级,并发用 户数几十万。,涨乐财富通月活数超750万,注册、下载 量超4800万,稳居行业第一,公司客户通 过涨乐财富通APP进行交易的人数占比已 超过87%。多次获得重量级奖项,如“2018年度券商 优秀APP奖”、“2017年度最佳金融APP” 等。,技术运营评估首批通过企业-北京移动,2级,中国移动通信集团北京有限公司CRM订单中心项目面向北京移动业务运营及运营支 撑,可独立部署并对外提供一组,,,标准化订单服务的载体,已拥有 1000+容器实例数,千万级用户量 并发用户十万级。,应用场景:北京移动CRM订单中心系统功能主要 完成订单模板管理、流程编

12、排、订单审核、订单 创建、订单分解、订单变更、订单调度、订单 撤销、订单竣工和订单查询等流程化管理功能。,技术运营评估首批通过企业特点分析,应急演练,应用高可用,数据高可用,成本管理,事件管理,变更管理,用户体验管理,弱 项,强 项,故障演练场景固化,缺乏重要业 务场景的梳理和沉淀。,对变更风险识别暂未有共性规 则抽象,更多依赖经验判断。,依赖人为经验进行判断,缺乏客 观量化的判断指标。,未和实际的容量数据、业务使用 情况联动分析管理。,高可用架构设计清晰, 数据库充 分考虑了数据的分布式和一致性, 运行维护机制完善。,应急演练未与CMDB联动分析, 实操环节仍存在人为失误的风险,端到端的服务

13、承诺未做明确的规 则要求,流程学习未强制实施。,运营配置管理,统一配置管理平台较为成熟,实 现了配置对象的全生命周期的管 理可扩展、可自动更新。,监控采集,采集服务平台化,灵活性和扩 展性强, 可以自定义采集服务。,数据管理,可根据业务需求进行定制化开 发管理,数据处理实时性强。,数据应用,统一监控平台,监控指标覆盖面 广泛,可定制化分析与展示。,告警与管控,统一告警管控平台,能根据生产 环境定制统计分析视图, 部分常 见场景已开始尝试智能化运维。,目录,技术运营标准简介,1,标准的框架与设计思路,2,标准的“硬”技术与案例解读,3,标准的“软”能力与案例解读,4,标准中的“硬”技术,监控管理

14、配置管理 高可用管理容量与成本管理,系统设计最佳实践 架构能力 数据应用,案例1:应用运行自治的技术运营能力,配置对象,配置数据,数据采集,数据传输,数据接收,数据处理,数据存储,数据服务,告警与管控,可视化管理,弹性能力,柔性能力,运行与维护,数据库高可 用,缓存高可用,成本合理性,预算与核算,业务容量,基础设施容 量,业务配置,监控自发现弹性伸缩,成本可量化,持续交付,1,2,4,3,5,N,过程域过程域 二级三级,评估维度,1级(平均级:部分自动化),2级(先进级:自动化/脚本化、小范围),3级(领先级:系统化/平台化、大范围),监控 管理,监控 采集,数据 具备操作系统级监控指标的采集

15、 采集能力,如CPU、内存等,系统日志、应用日志和接口日志等数据采集上报到多个服务端,统一的数据采集及跨平台兼容支持提供开放式、自定义的采集上报发送延迟、数据校验、采集限频等,数据 传输,通过标准协议传输数据,单份数据多份订阅及分发传输,支持多种传输及容灾方案,如同时具备推与拉具备平行扩展、数据汇聚和高效传输等架构能力,数据 管理,数据 接收,仅实现数据接收,支持数据清洗、转发、丢弃、复制等异构数据源集中接收,统一的数据上报,支持文本、字符串和加密协议等空值检测、乱码校验、属性校验、过载保护,数据 原始数据源预处理 处理 异常数据识别,实时计算数据处理延时小于 1 分钟自定义日志字段解析,数据

16、校正、持久化、异常告警,数据 存储,具备基本的数据存储能力,自定义数据四则运算、分类和聚类等对外提供数据接口,可扩展的ETL 能力异构数据源的处理及关联分析的能力统一的数据存储,确保完整性和可用性文本、数值型、位图和时序数据存储,高并发查询,冷热数据分离半结构化数据、时序数据的快速检索与统计,数据 应用,数据 服务,提供基础的数据存储服务,可计算最大值和平均值等,数据接口支持 按条件导出、自定义查询支持复制、同步或传输数据到其他存储介质,在线自定义数据统计分析,如在线 SQL数据权限、加密或脱敏,接口调用限频、限制访问源,告警 与管控,多通道发送告警信息,告警收敛,告警触达率和准确率统计告警关

17、联运维操作提示,自动告警升级,告警关联收敛,自定义告警关联自助分析工具告警关联自动化工具,常见场景下的故障自愈,可视化 管理,在线数据图表展示,自定义图表,场景化的在线数据查询业务监控指标重点展示,基于业务拓扑架构或调用关系的可视化及异常展示多维度的数据下钻与展现,全业务级的可视化,监控架构能力的演进,数据来源AgentSDK HTTPKafka文件导入 传输通道,应用场景日志查询 日志告警多维下钻分析 多维监控告警 业务数据大盘 实时报表调用链查询 依赖分析,数据采集,数据应用,过程域过程域二级三级,评估维度,1级(平均级:部分自动化),2级(先进级:自动化/脚本化、小范围),3级(领先级:

18、系统化/平台化、大范围),配置 管理,运营配 置管理,配置 对象,记录基础设施级配置对象,全生命周期管理,状态更新及时通知支持业务、应用级配置对象,自动发现、可关联,支持自定义扩展字段变更关联技术运营事件,如运维告警关联返回码,配置 数据,依靠文档记录配置信息,统一配置管理,实时反馈运行状态支持变更回溯、日志审计、API 接口等,关键配置数据自动纠正,单一可信数据源权限与组织相关联,多用户视角的统计与展现,配置管理能力阶梯式提升,有配置记录的实践,纳管部分配置对象配置记录能够为运营活动提供支持配置对象间的关联,触发规则完成运维操作,高可用管理解读,过程域过程域 二级三级,评估维度,1级(平均级

19、:部分自动化),2级(先进级:自动化/脚本化、小范围),3级(领先级:系统化/平台化、大范围),高可用 管理,应用 高可用 管理,弹性能力,根据监控性能指标或计划,进行应用的自动化动态扩容多应用相关联的自动化同步横向扩展,柔性能力,软硬件故障不易产生业务中断,梳理应用调用关系,负载均衡支 持多种算法能流量切换,应用发布对业务影 响小基础的健壮性,硬件故障能及时 恢复在较短时间内完成应用扩容的上 线运行与维 具备常用信息系统 护管理 主机、进程端口监控,结合配置管理系统实时更新状态信息集中展示能力,信息全面准确,缓存 高可用,针对热点数据使用缓存加速,数据 高可用管理数据库 备份可靠,保证数据一

20、致性 高可用 主从同步及切换,应用服务间调用关系治理平台,支持应用服务级 别的监控告警应用节点可快速横向扩展,支持分批发布,且发 布过程对生产无影响良好的健壮性,无单点,硬件故障不易出现业务 中断或异常失效转移、限流IT系统信息有效打通业务层监控,易于查看业务调度和性能,支持故 障快速定位持久化有缓存的备份节点,主备节点保持实时同步,能 主从切换主备实时同步,读写分离使用数据库本地事务保障数据一致性有同城多机房的数据备份,主节点宕机可自动切换备份节点并保持数据一致具备分布式,可快速平滑横向扩容分表分库横向扩展,跨库事务有同城多机房的实时数据备份,有异地数据备份可按照RPO 要求恢复至2分钟内的

21、数据数据库变更不影响业务正常运行,1、应用的非功能设计要求,2、数据的高效应用与可用性管理,过程域过程域二级三级,评估维度,1级(平均级:部分自动化),2级(先进级:自动化/脚本化、小范围),3级(领先级:系统化/平台化、大范围),容量与 成本管 理,容量 管理,基础设 按相关维度聚合 施容量 容量监控与告警,实时容量查询,支持 API 查询接口特征管理、基线管理、单机承载的量化管理,动态容量平衡的架构容量预警、容量预测,业务 容量,按相关维度聚合容量监控与告警,特征管理、反馈指标管理自定义业务容量计算方法,与基础设施容量关联分析决策业务调度、柔性服务、容量预测,成本 管理,成本 合理性,基础

22、的成本意识与管理,基础设施及软件的全生命周期成本管理准确记录成本相关数据的,预算 与核算,基础预算、基础核算,体系化的预算管理、核算管理主动成本分析,全局技术运营对象的核算,多维度、精细化成本管理成本数据与容量数据关联分析成本换算、主动成本优化成本分析与预测成本数据自动化校对,容量和成本管理的阶梯式提升,客观量化关联计算、场景化使用- (关联监控管理)主动管理、驱动优化- (关联配置管理),目录,技术运营标准简介,1,标准的框架与设计思路,2,标准的“硬”技术与案例解读,3,标准的“软”能力与案例解读,4,标准中的“软”能力,业务连续性管理用户体验管理 事件变更管理,流程设计文化运营 组织协同

23、 数据度量,案例2:重大活动保障机制,被动响应故障影响,标准化管理变更流程管 理部署管理,建立机制事前管理 事件处理事后管理,体验数据管 理,业务优化管 理,定义价值业务认知管 理,容灾容错灾备管理 组织机制,应急管控应急预案 应急演练组织机制,业务影响分 析,业务风险分 析,度量测算RTO RPO,用户体验管理解读,业务认知管理,体验数据管理,体验用户管理,事件与变更管理解读,过程域过程域 二级三级,评估维度,1级(平均级:部分自动化),2级(先进级:自动化/脚本化、小范围),3级(领先级:系统化/平台化、大范围),事件与 变更管 理,事件 管理,事前管理,基本的分类,被动受理和处理系 统故

24、障值班接口人实时响应,问题和事故进一步分级,主动的事前流程宣导重大故障应对预案,事件组织与工具基本具备达到架构和运营要求,场景和组织进一步扩展平台化,平台间信息共享和协同高可用和连续性规划,事件处理,故障后快速处理和恢复,应急响应和故障处理时效合理、止损意识服务台统筹、预案一站式脚本执行能力,高效决策能力、合理止损、标准化管理流程平台化,操作可授权和可视化等、强容错,事后管理,基本的纪录、分析和通报,学习改善机制,定位客观,正确找到原因和责任 归属事后流程和质量文化,事故分析透彻、度量改进、改善验收、知识库沉淀度量关联绩效考核,平台反哺,变更 管理,变更流程 变更操作周知管理 突发场景下的变更

25、能力,部署管理,具备部署能力,变更操作规范化和流程化评审组织、变更工具定期部署、应用和数据库分离、各环境支持自动 化部署具备工具能力,部分过程自动化可回滚,影响可控,变更管理和发布规范完善覆盖完整,重视变更质量和效率变更顾问委员会,变更管理平台化打通灵活和可控的策略、应用和配置分离、所有环境标准化精细化的部署及灰度策略控制风险平台统一,全部自动化、标准化高质量、度量管理,用标准化流程规范事前、事中、事后 的事件变更管理并形成闭环,事前流程,规范事中,事后仪式感,业务连续性管理解读,过程域过程域 二级三级,评估维度,1级(平均级:部分自动化),2级(先进级:自动化/脚本化、小范围),3级(领先级

26、:系统化/平台化、大范围),RTO RPO,基础的RTORPO标准,RTO 达到99.90%(525分钟/年)同城跨机房RPO (5分钟/年),RPO 达到99.95%以上(260分钟/年)同城跨机房RPO 2分钟,异地10分钟/年,基础的业务影响分析,具备业务影响和风险评估,按周评估业务变化及相关风险,落实改进,风险业务影响管理分析业务风险 分析,基础的业务风险分析,无严重影响安全运行的隐患按月对运行风险进行分析和评估,业务连续性危机管理管理,灾备管理,灾备演习间隔超过半年,间隔小于半年,预期时间内完成且结果符合预期,组织机制应急预案,基础的危机管理组织基础的应急响应预案,应急应急演练管理,

27、基础的应急演练,组织完备,角色划分清晰,职责明确详尽,准确说明启用条件、操作人和操作步骤定期应急演练监控准确,报警可升级,容量合理且满足业务的增长需要按周上报风险评估,评估和预防法律及监管风险考虑外因和多机房架构,短时间快速切换且对业务影响最小 化管理层重视且参与集中管理且及时更新,方便检索及协同模拟硬件或操作系统异常,主动注入故障,快速排查定位问 题并解决,组织机制,基础的应急管理组织架构,及时更新的应急组织,应急上报机制完善考虑外部舆情和客服信息反馈,2分钟快速响应,5分钟找到问题原因并启动预案,10分钟 完成问题解决,业务连续性管理,风险 管理,保障业务持续稳定运行的保护伞,危机 管理,应急 管理,谢谢,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号