《BSC智能维护平台解决方案.doc》由会员分享,可在线阅读,更多相关《BSC智能维护平台解决方案.doc(16页珍藏版)》请在三一办公上搜索。
1、成果上报申请书成果名称BSC智能维护平台解决方案关键词索引(35个)主动预警,网络快照,知识库,告警分析对企业现有标准规范的符合度:(按填写说明5)符合成果来源:如果该成果来源于集团研发项目,请填写研发项目年度、项目名称及类型(按填写说明6)省公司自立项目专利情况:如果该成果产出相关专利,且专利处于国知局专利申请审查阶段或已授权,请说明专利名称、类型、申请号、状态、是否海外申请等情况。(按填写说明7)无成果简介:简要描述成果目的和意义,解决的问题,取得的社会和经济效益。随着湖北移动网络和业务的飞速发展及市场竞争的压力需求,移动网络大量业务的承载稳定性与可靠性越来越高。湖北移动无线网络的维护工作
2、重要性、紧迫性及工作量陡增,如何继续保持质量领先、运行高效、支撑有力的维护目标,是目前需要解决的实际问题。另外网络的庞大复杂使得由设备故障引起的对终端用户感知度的影响概率增加,因此如何主动预知、预警隐患,快速定位设备故障,如何降低与减少风险与影响成了衡量维护工作质量的重要标准之一。BSC智能维护平台解决方案通过接入BSC网元自身和网管数据库,提供主动式的健康检查服务、准实时的资源配置管理、释放码分析,可以减少重大故障的发生,通过全方位告警关联分析缩短故障历时。BSC智能维护平台解决方案的好处在于:实现资源统一管理,缩短故障处理时间,弥补现网跨专业弱区,提高运维工作效率 。全方位的获取告警、CP
3、U LOG、Clear Code、负荷、状态、KPI、配置数据等信息,系统对收集的信息进行全方位综合分析判断,及时排除网络隐患与故障,并集成了日常运维工作中必不可少的网元健康检查、升级指导等功能,同时还实现无线资源集中智能化管理,大幅度提高了系统维护的效率。该系统有三个优点:1、能主动快捷进行健康检查、实时监控设备运行情况,对潜在的故障进行预警及分析,对已经发生的故障进行及时的定位,并给出处理建议。2、对现网BSC设备的整体配置、资源实现智能化集中化统一管理。3、对性能指标等关联到设备侧并实现自动分析,以弥补维护与优化衔接弱区。该方案包含四大创新点,对全网无线设备运行质量、无线主动运维效率提升
4、起到了明显的提升效果,对故障率起到了良好的改善效果,在取得良好的社会效益的同时,还为湖北移动节约了数百万元的资金投入、降低网络及业务风险省内试运行效果:描述成果引入后在本省试运行方案、取得的效果、推广价值和建议等。目前该平台已在襄阳分公司部署,涉及BSC共21台。BSC智能维护平台解决方案是在自动化监控的基础上融合运维专家的经验对网络故障进行预警分析,达到设备智能预警分析和性能提升效果,并实现资源集中智能化运维管理。主要的实施效果包括:1、实现对网络主要指标的监控系统可以实现对网元的释放码指标、实时业务指标、告警、性能负荷和系统资源进行监控。所有指标都能以表格或折线图的方式展现,并能提供至少3
5、个月的历史数据查询。折线图能提供被监控指标长期的变化趋势,对及时发现故障提供有效的帮助。2、实现对监控到的故障进行定位分析系统通过对所有监控指标和KPI指标的深度剖析,捕获异常信息,并在第一时间通过告警客户端通知相关的人员。同时系统将所有数据进行综合分析,对故障源进行初步判断,对每种故障进行深入的分析定位,并给出故障解决指导意见。3、BSC实现自动化远程集中化健康检查通过平台解决方案,可以灵活、便捷对BSC进行远程、自动的健康检查;检查的对象、内容可以按按需定制;报告自动生成,异常情况直观、所见即所得。4、通过网络快照功能实现对网络资源配置管理网络快照功能保存了BSC和BTS的配置数据,所有数
6、据每天做一次更新,任意两天的数据可以进行全面的对比,能及时发现配置数据的细微变化。文章主体(3000字以上,可附在表格后):根据成果研究类别,主体内容的要求有差异,具体要求见表格后的“填写说明8”。“成果上报申请书”的填写说明:1、“成果专业类别”指:核心网、无线、传输、IP、网管、业务支撑、管理信息系统、市场研究、数据业务、数据网络、通信电源、空调、其他。2、“成果研究类别”指:超前研究、新产品开发、相关网络解决方案、现有业务优化、其他。3、“所属专业部门”指:完成该成果的单位在省公司或地市分公司所属的专业部门线条。可填写:规划计划线条、网络线条、业务支撑线条、管理信息系统线条、数据线条、市
7、场线条、集团客户线条、其他。4、“省内评审结果”指:优秀、通过。5、“对企业现有标准规范的符合度”指:列举该成果使用并符合的中国移动统一发布的企业标准的名称和编号,详细描述该成果在现有的企业标准基础上所需新增的功能要求(如业务流程的改变、设备新增的功能要求等)。6、成果来源指:如果该成果来源于集团研发项目,请填写研发项目的年度、项目名称和类型(类型包括:集团重大研发项目、集团重点研发项目、省公司自立项目)。7、专利情况指:1)类型:发明、实用新型、外观2)名称:该成果申请专利的名称3)申请号:由知识产权审查机构授予的该成果专利申请号4)状态:申请中、已授权8、“文章主体”:根据不同科技成果分类
8、实施不同的主体要求,具体如下:1)超前研究类成果主体包括: 背景情况 技术特点分析 标准化情况 其他运营商应用情况(可选) 技术发展趋势 引入策略分析2)相关网络解决方案类成果主体包括: 背景情况 技术方案:概述、网络解决方案(如果涉及到网络方面的改造,信令改造,路由改造等,应有详细的描述)、设备及系统改造/建设要求、码号资源需求 效果(解决了哪些问题) 本省应用推广情况3)新产品开发类成果主体包括: 业务及功能简介:业务概述、业务主要功能介绍 技术实现方案:包括业务实现组网结构图、相关系统(平台、终端)功能和要求、业务实现流程、码号要求等 业务申请和开通:包括用户范围及业务使用范围、业务申请
9、与注销等 业务商务模式及资费:包括商务模式、业务资费模式、业务收费方式等 市场前景分析4)现有业务优化类成果主体包括: 业务及功能简介:业务概述、业务主要功能介绍 现有业务存在的问题:现有缺陷分析、解决问题的思路 原有业务方案/流程:业务实现组网结构图、相关系统(平台、终端)功能和要求、业务实现流程 优化后的方案/流程:业务实现组网结构图、相关系统(平台、终端)功能和要求、业务实现流程 优化后达到的效果,产生的经济效益 5)其他类成果主体,参考1)4)的成果主体要求,阐述清楚项目背景、实现方案、解决的问题、取得的社会和经济效益等。一、项目背景随着湖北移动网络和业务的飞速发展及市场竞争的压力需求
10、,移动网络大量业务的承载稳定性与可靠性越来越高。湖北移动无线网络的维护工作重要性、紧迫性及工作量陡增,如何继续保持质量领先、运行高效、支撑有力的维护目标,是目前需要解决的实际问题。另外网络的庞大复杂使得由设备故障引起的对终端用户感知度的影响概率增加,因此如何主动预知、预警隐患,快速定位设备故障,如何降低与减少风险与影响成了衡量维护工作质量的重要标准之一。常规告警的监控及日常故障处理工作任务繁重,但对于网元隐患故障的排查需要借助维护人员的实际工作经验,对人员专业技能和经验均有较高要求。同时,也缺乏相关的知识经验库对隐患故障原因开展分析,积累知识经验,将设备维护由监控告警和日常处理向日常维护加主动
11、预警方式进行转变。因此在目前有限的人力资源压力和主动预警的需求,唯有通过手段与方法的创新,才能有效降低网络及业务运行风险。在此背景下,无线网络的自动化、智能化运维成为我们创新的主要方向。二、技术实现方案(一)总体思路1、系统整体架构BSC智能维护平台的最终目的是搭建针对整个无线网络BSC设备的全面智能化维护平台。实现指标监控、故障定位、日常运维、网络快照和知识经验库等维护功能,将日常运维重复性工作通过平台执行、提高自动化程度;将专家技能、知识通过梳理固化进平台,提高智能运维成熟度和主动预警能力。本系统部署在BSC及数据处理平台上,24小时监控告警、CPU LOG、Clear Code、负荷、状
12、态、KPI、配置数据等关键信息。BSC静态数据、动态性能、业务指标及异常故障都在监控范围内,实现对BSC的全天候主动值守。通过系统化、智能化、深层次的分析及优化服务实现BSC设备的隐患自动预警与分析、故障自动分析与定位、无线性能深度剖析,从而实现网元整体运行安全与性能的提升等功能。2、系统原理整个平台系统为四层架构,包含被监控层(BSC/OSS)、采集层(集中操作平台、ETL、Alarm Receiver)、数据处理层和预警分析结果。采集层负责采集被监控层的报文、测量和告警数据,数据处理层对采集层的数据加以整理,可以完成任务定制和决策树分析等数据处理功能。预警分析结果层相当于应用层,实现页面查
13、询,告警客户端和统计分析功能,实现对海量采集数据的最终应用。达到主动预警、系统维护等核心功能。(二)功能模块及创新点1、释放码分析功能全方位监控,涵盖所有关键信息:释放码、告警、CPU LOG、Clear Code、负荷、状态、KPI、配置数据等,系统对收集的数据进行综合分析判断,及时发现网络的隐患与故障,侧重于发掘影响设备安全的隐性故障以及影响用户感知的KPI问题。主要包括: 释放码管理,释放码监控 告警管理,告警监控 实时业务指标管理,实时业务指标监控 负荷管理,负荷监控 状态管理,状态监控释放码指标、实时业务指标和性能负荷指标是以5分钟为周期,告警监控是实时接收网管推送,可以及时的发现并
14、预警问题。系统资源状态的监控的周期是1天。 释放码门限设置通过对BSC内部产生的释放码的监控,对一些网络隐患进行预警,降低故障发生的可能性用户可以个性化设置通知方式,包括对紧急故障、严重故障、一般故障、网络性能故障等每一种故障的是否通知、通知方式、通知的手机和邮件、通知的时间进行设置。释放码分析应用实例a)发现问题:XFBSC01 发现 释放码T3101 expire 超过门限,系统收集了相关的BSC工作日志后给出操作建议b)处理建议:根据操作建议检查了该BSC下所有小区的相关参数设置,调整了BCCH频点配置后消除了该释放码的超门限现象2、告警分析及故障智能定位系统通过对网元的实时指标、资源配
15、置监控和KPI深度关联分析,捕获网络故障特征,发现故障后在第一时间通知相关的人员,同时收集网元的日志,通过故障定位分析,初步判断故障源及发生原因,并给出故障解决的指导意见。日志和指导意见都可以作为故障解决的参考。对故障定位的范围可以包括软件故障、硬件故障、单元故障、总线故障、时钟故障、接口故障。 分析结果包括故障描述、故障级别、影响范围、预分析结论和恢复建议。告警分析应用实例实例1:XFBSC14出现告警2725,系统采集了BSC当前告警、历史告警、相邻小区参数、BSC的COMP LOG等BSC工作日志,进行了综合分析,最终给出了针对该告警的一个操作建议。经现网检查,修改了BTS-311的相邻
16、小区LAC=29061,CI=44733的频点后,告警消除3、主动健康检查针对BSC板件的boot软件版本、内存容量、PCU IP地址的配置、BTS的软件版本、测量开启要求、告警闭锁要求等等,设置了21项检查内容,可以定期对现网BSC进行上述内容的检查,及时发现与现网要求不一致的问题,消除潜在的网络隐患。主动健康检查实例 如下图所示,绿色标识为正常项、红色标示异常项,引导运维人员适时人工介入。每个BSC的检查项目及参照依据清晰可视,存在问题结果以列表形式详细记录。4、网络资源配置管理系统每天定时采集BSC的配置信息,包括A口、Abis口、GB口的参数设置,可供维护及优化人员查询参考,并且还可以
17、进行不同日期的数据参数比对,以便及时发现现网数据的细微变化。下图为网络资源配置数据查询的具体情况。网络资源配置管理应用实例可提供不同BSC互相比对,也可提供相同BSC不同时间周期的比对,前后参数不相同的用红色标出。5、网络快照功能网络快照功能保存了BSC和BTS的配置数据,所有数据每天做一次更新,任意两天的数据可以进行全面的对比,能及时发现配置数据的细微变化。网络快照主要包括以下内容: BSC配置信息。设备名称系统时间、软件包信息、PRFILE信息、系统参数、定时器参数 BSC单元工作状态及计算机单元硬件配置信息。单元工作状态、计算机单元板件信息、时钟同步状态 A接口配置信息。A接口信令及信令
18、链路配置、信令点、SCCP配置及状态、子系统配置及状态 IP接口配置信息。PSEI、NSEI配置信息 基站配置信息。基站软件包、基站工作状态、BCF&SEG&BTS&TRX配置、功率参数、邻区参数、LAPD配置与状态、EDAP配置 计算机单元运行日志。OMU、MCMU、BCSU的COMP LOG三、创新点本系统主要包含如下三个创新点:(一)基于海量数据挖掘的隐患自动预警,实现故障主动预防网络隐患或多或少的存在于各个移动网络中,如果不能及时发现、软硬件环境一旦达到阀值,隐患就会演变为技术故障、影响网络性能及网络安全,更严重都将导致业务故障。本系统定时收集告警、log、配置、参数、性通、KPI、资
19、源、网管信息等,综合分析网络关联数据、结合知识库、查找网络隐患。一旦发现存在风险或者隐患,系统会自动发出短信、邮件通知指定的运维人员,为解除隐患争取时间窗口。通过隐患查找及预警功能,推动运维模式由传统的被动式响应向主动预防转变,致力于将隐患消除在萌芽状态、减少故障发生、提高网络可用性。 (二)基于知识经验库的智能故障定位,提升故障解决效率传统的故障修复需要经历几个必要环节:故障报修、接入网络并采集数据、故障诊断、制定方案、实施方案、验证与观察。本系统平台在监控到故障后,自动触发智能故障定位机制,保留现场数据、自动采集指定信息、根据特征码自动调用决策树、结合知识库分析、筛选案例信息,提供解决方案
20、供参考。这些过程由系统自动判断、完成,不需要人工干预。缩短了故障断时间、通过智能故障定位实现快速修得的服务效果。(三)在线资源分析与配置管理,实现资源和参数的统一化管理系统工具以按指定的频度对BSC软硬件进行在线分析,资源总量、门限设置、阀值设定、静态参数配置、动态负荷变化等诸多资源管理手段需要一致、合理,才能发挥最大的功效。任何一个环节的疏漏都可能导致木桶短板效应,在线资源分析功能通过建模、数理趋势化分析,定期进行在线资源分析,对资源短板、资源调整提出专家建议。该功能对于重大事件通信保障前期资源评估、重大事件通信保障期间的资源使用及负荷等具有重大意义。(四)网络快照记录BSC关键数据,实现历
21、史数据可追溯将BSC网络节点的运行过程以某时刻的网络快照形式保留,并作为重要的历史数据保存,在网络频繁变更的快速发展时间尤其重要。频繁的网络变更将导致影响互相迭加,一旦出现异常或者故障,将需要对大量的历史数据、配置参数进行比对,传统的方式消耗大量人力、物力、财力,而且人为风险因素难以消除。系统工具支持将数个日期/时刻的网络快照进行对比,迅速锁定发生变更的配置、数据等,秒级完成海量数据比对,准确率大幅提升。四、应用情况目前该平台已在襄阳分公司部署,涉及BSC共21台。BSC智能维护平台解决方案是在自动化监控的基础上融合运维专家的经验对网络故障进行预警分析,达到设备智能预警分析和性能提升效果,并实
22、现资源集中智能化运维管理。主要的实施效果包括:(一)系统实施效果1、实现对网络主要指标的监控 系统可以实现对网元的释放码指标、实时业务指标、告警、性能负荷和系统资源进行监控。所有指标都能以表格或折线图的方式展现,并能提供至少3个月的历史数据查询。折线图能提供被监控指标长期的变化趋势,对及时发现故障提供有效的帮助。 释放码是从BSC中用命令提取,粒度为5分钟; 设备告警是实时从网管推送的,包括BSC和BTS告警; 实时业务指标是从BSC中用命令提取counter计算的,粒度也是5分钟,包括主被叫、位置更新、呼叫成功率、掉话率、BCSU寻呼删除率等; 性能负荷是从BSC中用命令提取计算机单元的负荷
23、数据,粒度为5分钟,包括OMU、MCMU、BCSU的free_mem、free_header和cpu_load_rate; 系统资源也是从BSC中用命令提取,粒度为1天,包括硬盘、LICENCE容量,CPU单元负荷,A口信令链路负荷,A口话务负荷,PDCH信道配置均衡等。通过对LICENCE监控可以更加方便的对网元扩容等工作,通过CPU单元负荷,A口信令链路负荷,A口话务负荷等的监控可以更直观显示BSC的工作情况,及时发现由于系统负荷过高带来的隐患。在襄阳地区通过1个月的现网试运行,执行了释放码分析、设备告警分析、健康检查、网络资源配置管理服务内容,取得了很好的成效。释放码分析试运行期间共计扫
24、描13.9万台码次:21*288*23。最大限度能及时发现隐患。序号释放码编号释放码名称频度范围1CC_001encryption_not_support每5分钟扫描1次、每天每码288次; 21台BSC2CC_002T3101 expire3CC_003ABI_confict4CC_004ABI_internal_failure5CC_005BTS_par_incompatible6CC_051timing_advance_exceed7CC_052BTS_not_support8CC_053ExtOutHOCell_NotExist9CC_071HO_PRB_failure10CC_072
25、ExtInHOCell_NotExist11CC_101sccp_prevention12CC_102sccp_con_problem13CC_103sccp_maintain_problem14CC_104aiv_hand_act_fail15CC_111aiv_con_timeout16CC_112aiv_refresh_timeout17CC_121invalid_bssmap_msg18CC_122MSC_par_incompatible19CC_151rc0_control_fail20CC_152rc0_mismatch_BSC_MSC21CC_171sc7_timeout22CC
26、_172sc7_HW_failure23CC_173sc7_ssp2、实现对监控到的故障进行定位分析 系统通过对所有监控指标和KPI指标的深度剖析,捕获异常信息,并在第一时间通过告警客户端通知相关的人员。同时系统将所有数据进行综合分析,对故障源进行初步判断,对每种故障进行深入的分析定位,并给出故障解决指导意见。系统可以很直接的在故障定位分析页面显示目前所有发现的异常。针对主要的告警,服务平台给出了详细的操作建议,并根据这些建议及时解决了隐患、并消除了告警。主要告警及设备分布如下表。告警号告警描述出现告警的BSC出现次数1045ERROR BETWEEN MARKER TABLES AND SW
27、ITCH CONTROL MEMORYXFBSC04101178PREPROCESSOR UNIT DISTURBANCEXFBSC0421178PREPROCESSOR UNIT DISTURBANCEXFBSC0921178PREPROCESSOR UNIT DISTURBANCEXFBSC1641178PREPROCESSOR UNIT DISTURBANCEXFBSC1731340HOTLINK FAILUREXFBSC1182064ROUTE SET UNAVAILABLEXFBSC0212725ADJACENT CELL IDENTIFIER CONFIGURATION ERROR
28、XFBSC0222725ADJACENT CELL IDENTIFIER CONFIGURATION ERRORXFBSC0312725ADJACENT CELL IDENTIFIER CONFIGURATION ERRORXFBSC0522725ADJACENT CELL IDENTIFIER CONFIGURATION ERRORXFBSC0732725ADJACENT CELL IDENTIFIER CONFIGURATION ERRORXFBSC0832725ADJACENT CELL IDENTIFIER CONFIGURATION ERRORXFBSC1212725ADJACENT
29、 CELL IDENTIFIER CONFIGURATION ERRORXFBSC1392725ADJACENT CELL IDENTIFIER CONFIGURATION ERRORXFBSC1422725ADJACENT CELL IDENTIFIER CONFIGURATION ERRORXFBSC1912725ADJACENT CELL IDENTIFIER CONFIGURATION ERRORXFBSC2213990TR3 DSP FAILUREXFBSC0643990TR3 DSP FAILUREXFBSC1653、BSC实现自动化远程集中化健康检查通过平台解决方案,可以灵活、便
30、捷对BSC进行远程、自动的健康检查;检查的对象、内容可以按按需定制;报告自动生成,异常情况直观、所见即所得。健康检查,在试运行期间,每台BSC执行一次健康检查。共计执行21台次。序号健康检查内容1BSC、TC单元工作状态以及硬件数据库检查2CPU、PCU板件boot版本以及RAM容量检查3CLS、CLAB、SWCOP的EPROM版本检查4TRCO、TC_ET的boot及EPROM版本检查5软件包及其文件状态检查6CD的安装历史信息7BTS软件版本信息8A接口信令负荷检查9MTP、LAPD信令链路与BCSU之间的连接均衡检查10BSC和BTS闭锁告警检查11VDU和VTP在PROFILE中的定义
31、检查12系统时间和时区检查13BSC测量文件开启情况检查14测量文件的格式检查15硬盘容量及告警检查16CPU负荷检查17BSC同步状态检查18PCU的IP端口及地址配置状况检查19静态路由及DNS配置检查20GB链路配置及状态检查21OMU IP地址类型检查(二)系统的应用效果1、提高故障发现和处理时间,节约维护人员资源移动综合监控平台对BSC维护来说基本上用到的只是监控告警,但监控告警功能有时并不能及时显示告警,或显示不全,并且需要借助HIT和EXCEL到现网中提取整理,相对应的提取数据和告警的macro经常出现中途停止和延时,影响对故障的及时查询处理,这种情况下使用两个软件加大了维护人员
32、的工作量和力度。智能预警平台实时接收告警,并且通过告警客户端通知相关人员,同时系统会根据故障定位流程对异常进行初步的判断和分析,给出故障范围、可能的原因和处理建议,并且在第一时间收集相关的日志信息提供给维护人员参考,这样就可以大幅度的提升效率、缩减对故障发现和处理的时间。以上两平台对比,在时间方面综合监控平台得时刻监控,而借助的HIT软件每半小时或一小时循环一次,得到的数据并查询需30分钟,人工分析告警是否需处理要用10分钟左右。按每天8小时工作制计算,每一小时循环一次,人工耗时80分钟,且是每位包机人员必须做的重复性工作,在资源和效率方面显得并不合理。BSC预警分析平台可随时提取现网告警,在
33、后台进行初步的分析判断,并以多种形式(如声光告警、短信、彩信、邮件等)通知维护人员,节约了得到数据的时间,而通过后台的分析,人工再分析告警大概用5分钟节省了一半时间。而且对回复EMOS工单故障原因提供第一手信息支持。2、自动实现全网网元的巡检系统可以自动同步完成对全网网元的巡检。按天、周、月、季、半年度频度定制巡检。减少维护的人力成本,提高维护人员的工作效率。系统的监控和故障定位分析功能可以大大减少网络维护人员的日常工作,很有效的提高维护人员的工作效率。3、减少人为的误差率,提高网络监控的准确率系统通过程序实现对指标的计算,减少人为操作带来的误差,提高网络监控的准确率。4、预警网络故障,降低终端用户投诉率通过对关键的KPI指标和系统资源负荷的监控可以对网络可能出现的问题进行提前预警,在对业务有所影响前发现隐患,及时补救,最大限度避免用户投诉的发生。