05-第5章 系统支持的故障分析与定位.docx

上传人:牧羊曲112 文档编号:4874260 上传时间:2023-05-20 格式:DOCX 页数:12 大小:114.77KB
返回 下载 相关 举报
05-第5章 系统支持的故障分析与定位.docx_第1页
第1页 / 共12页
05-第5章 系统支持的故障分析与定位.docx_第2页
第2页 / 共12页
05-第5章 系统支持的故障分析与定位.docx_第3页
第3页 / 共12页
05-第5章 系统支持的故障分析与定位.docx_第4页
第4页 / 共12页
05-第5章 系统支持的故障分析与定位.docx_第5页
第5页 / 共12页
亲,该文档总共12页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《05-第5章 系统支持的故障分析与定位.docx》由会员分享,可在线阅读,更多相关《05-第5章 系统支持的故障分析与定位.docx(12页珍藏版)》请在三一办公上搜索。

1、目录第5章系统支撑的故障分析与定位5-15.1常见的故障现象5-15.2单板硬件故障和端口故障的分析与定位5-15.2.1预备知识5-15.2.2单板硬件故障和端口故障的常见原因5-25.2.3单板硬件故障和端口故障的基本处理步骤 5-25.3 CPU 过载的故障分析与定位5-45.3.1 CPU过载的常见原因5-45.3.2 CPU过载的处理步骤5-55.4单板加载不成功的故障分析与定位5-75.4.1预备知识5-75.4.2单板加载故障的解决思路5-75.4.3相关案例5-85.5倒换异常的故障分析与定位5-95.5.1常见原因5-95.5.2倒换异常的故障定位5-10第5章系统支撑的故障

2、分析与定位5.1常见的故障现象系统支撑是MSOFTX3000中起支撑、管理和控制作用的单板和交换机主机软件的 总称,是交换机业务实现的底层部分,它的故障将直接影响交换机的业务实现。本 章将介绍与系统支撑有关的故障处理。系统支撑的常见故障如表5-1所示。表5-1系统支撑常见故障现象故障分类故障现象的具体表现形式单板硬件故障和端口故障告警台上报某块单板故障告警或者某块单板的端口故障告警且告 警不能恢复。CPU过载交换机或某个模块的呼叫出现大范围的阻塞现象,接通率急剧下 降,CPU的占用率超过过载阈值,出现CPU过载告警。单板倒换异常不能倒换、倒换后主用异常、倒换后影响其他单板单板加载异常不能加载、

3、反复加载、加载超时、加载后前后台版本不一致5.2单板硬件故障和端口故障的分析与定位5.2.1预备知识MSOFTX3000系统中单板通过如下三种方式与WSMU板通信: 前插板通过共享资源总线向WSMU板上报单板状态; 无处理器的后插板的状态由对应的前插板采集后通过共享资源总线上报WSMU 板; 有处理器的后插板的状态则经背板的串口总线直接上报给WSMU板。WSMU板依据单板状态的正常与否产生相关的硬件故障告警或者恢复告警。扩容框 的WSMU板通过基本框的WSMU板向BAM发送告警。硬件异常和告警信息上报 路径如图5-1所示。w Hs C共享配电框W E P IW B AIW S I UW B F

4、 IBAM串口+总线W S M UW A LUU背板 pW RLMT应急工作站告警箱图5-1单板硬件告警信息上报路径5.2.2单板硬件故障和端口故障的常见原因单板硬件故障和端口故障的常见原因有: 告警单板自身硬件故障 告警单板的上级单板故障 单板与槽位接触不良 母板故障 单板端口连接故障 桥板WHSC故障 LAN Switch 故障5.2.3单板硬件故障和端口故障的基本处理步骤各种单板硬件故障和端口故障的处理步骤基本上都很相似,如图5-2所示。图5-2单板硬件故障的基本处理步骤在处理单板硬件故障和端口故障的操作中需要注意以下几点:(1) 复位、更换、倒换、拔插单板将对系统造成一定的影响,应当在

5、华为技术支持 人员的指导下方可进行;(2) 对于主备用单板,只有在故障单板处于备用状态下,才可进行单板的拔插和更 换;(3) 拔插和更换单板应严格按照更换单板的操作规范进行,其要点包括:更换单板必须在凌晨等话务量小时进行;拔插和更换单板前需要将单板上的中继、信令、资源通道等进行闭塞、隔离操 作;拔插和更换单板后,单板完成加载,维护人员注意查询加载后的单板的软硬件版本是否正确;单板运行正常后需将单板资源进行解闭塞、激活操作,并对单板功能进行一定 的测试。(4) 在不确定哪些单板与故障有关联时,不要轻易进行操作,应首先通知华为技术 支持人员。(5) 对于端口故障,请首先确认所有端口连接的正确性,其

6、次应该注意桥板和母板 的状态是否正常,LAN Switch是否有问题。5.3 CPU过载的故障分析与定位CPU过载是MSOFTX3000的严重故障,当CPU占用率过高时,MSOFTX3000会对话务量进行流量控制,从而导致呼损上升,接通率下降。5.3.1 CPU过载的常见原因CPU过载的常见原因有:(1) 话务量过大;(2) 话务统计任务周期过短;(3) 位置区设置不合理;(4) 维护操作不规范;(5) 数据设置不正确;(6) CPU过载阈值设置不正确。5.3.2 CPU过载的处理步骤CPU过载的基本处理步骤如下:1. 检查维护操作是否合适大量的操作维护任务会占用大量的CPU资源,从而容易使C

7、PU过载,为了避免在 话务忙时因维护操作而导致CPU过载,应注意以下几点:(1) 忙时不要运行大批量的修改命令。(2) 忙时不要执行显示结果过多的显示命令。(3) 忙时不要将统计输出到终端。(4) 忙时不要对链路进行过多的动态跟踪。注意:由于向大量用户发送广播短消息时,会对MSC Server造成很大的冲击,因而在发 送广播短消息时,需避开话务高峰的时间,而且尽可能分批发送广播短消息,每一 批的人数要尽量少一些。对于话务量已经非常高的地区,建议不要发送广播短消息。2. 检查话务量交换机某一时段的实时话务量,可通过以下几种途径了解:(1) 查询近段时期的话务统计报告。分析“试呼次数、接通次数、平

8、均占用时长” 等与呼损、话务量有关的关键信息,了解系统的话务量。查询中继电路的占用情况。若中继电路的占用率超过70%,说明系统的局间 话务量很大。对于话务量很大导致的CPU过载,一般是以观察为主,对于长期的因话务量而导致 过载可以和其他局协商,采用话务分流的方法减少话务量,或考虑进行适当的设备 升级。3. 检查话务统计任务的统计周期话务统计任务的统计周期设定对CPU占用率也有这重要的影响。由于绝大多数话务 统计任务与呼叫关系紧密,因此,当任务的统计周期过短的时候,会造成CPU的负 荷加重。目前比较合理的周期设置是1小时,这一信息可以通过维护命令查询和修 改:(1)查询命令字:LST TRFIN

9、F,填入相应的任务ID,按F9即可列出该务的所 有信息,其中就包含了改任务的统计周期信息。(2)修改任务周期命令字:MOD TRFTM,填入相应的任务ID,并且在Period下 拉菜单中选择对应的时间参数,按F9即可进行修改。需要注意的是,修改话务统计任务的统计周期对话务统计结果有一定的影响,那就 是修改后的第一个统计周期将不会有话务统计的结果,请谨慎使用。4. 检查数据配置是否正常对于MSC Server而言,数据配置错误导致的CPU过载主要有两个方面,一个方面 是关于信令链路、中继的负荷分担配置不均衡,导致某些信令链路负荷过大,以致 负责处理该部分的业务处理板过载,这种情况应该调整数据链路

10、配置。另一类数据配置错误是MAP功能配置错误,如将周期性位置更新时间设置过短 (一般情况下,周期性位置更新时间应设置为BSC/RNC设置的周期性位置更新时 间的1.53倍),可能导致A/Iu-CS接口链路负荷过高。5. 对设置不合理的位置区考虑位置区分裂由于在VLR中保存的用户位置信息,都是以位置区形式的存储的。因而当MSC Server对用户进行寻呼时,是按照位置区向相应的BSC/RNC发寻呼消息。因此如果一个MSC Server下带有N个BSC/RNC,但是只有一个位置区,此时对 用户的寻呼消息将发送给所有的BSC/RNC,这样相对于一个BSC/RNC 一个位置 区来说,寻呼消息将增加N倍

11、。因此对于一个位置区包含了多个BSC/RNC的情况而该位置区话务量居高不下时, 应该考虑适当进行位置区分裂,以减少系统的负荷,保证系统安全的渡过话务高峰 期。(至于到底一个位置区多少个BSC/RNC合适,没有明确的定论,但是一般认 为一个位置区超过4个BSC/RNC,就应该进行位置区分裂。)6. 检查CPU过载阈值的设置CPU过载阈值的设置将直接影响CPU过载故障的告警与恢复,因此需要直接确认 该阈值是否设置正确,如果设置错误,一定要立即修改。该信息可以通过如下命令 查询和修改:LST CPUTHD(1) 查询CPU过载阈值命令字:LST CPUTHD,填入相应的模块号,按F9即可 列出该模块

12、的所有四级CPU过载阈值和恢复阈值。(2) 修改CPU过载阈值命令字:SET CPUTHD,填入相应的模块号以及各个级别 的过载阈值和恢复阈值,即可进行相应的设置。(3) 目前默认的CPU过载阈值信息如下:阈值OverloadLevel 1OverloadLevel 2OverloadLevel 3OverloadLevel 4ResumeLevel 1ResumeLevel 2ResumeLevel 3ResumeLevel 4默认数 值80859095758085905.4单板加载不成功的故障分析与定位5.4.1预备知识在MSOFTX3000中,所有的加载工作都是通过WSMU板来完成的,所

13、有的业务处 理板的单板程序和相应的数据都是从BAM经过该框上的WSMU来加载到单板上 的,而WCPC单板则是由BAM通过WSMU板再通过业务处理板来加载的。对于单板加载不成功的原因往往是单板加载的某段路径出现异常,常见的加载路径 故障有:(1) BAM上Exchange进程和主机通信中断;(2) 单板硬件版本与软件版本不配套;(3) 某些单板的关键数据没有配置;(4) 加载文件丢失或异常;(5) 标识WSMU板所在框号的拨码开关设置错误。5.4.2单板加载故障的解决思路单板加载故障的基本思路为:1. 检查BAM和主机通信是否正常当BAM和WSMU通信故障时,整个系统无法加载成功,当BAM和其它

14、单板通信 故障时,则该板加载不能成功。2. 检查WSMU板拨码开关设置是否错误通过维护命令字LST BRD可以查询指定框的单板配置,可以检查一下该框的 WSMU是否正确配置,如果未能查到,则需要检查WSMU背板(WSIU板)拨码 开关设置是否错误。3. 检查是否是某些重要数据没有配置当没有配置MAP功能信息、本局信息、WCDB功能配置时,会造成WCCU板重复 加载;当没有配置位置区小区时,WCDP板也会重复加载。4. 检查软件版本是否正确使用MML命令“DSP BVER”查询软件版本与是否与软件版本描述表中内容一致。 单板加载后软件版本与要加载的版本不一致一般是因为单板超时保护引起的。单板 超

15、时保护是指WSMU、WCDP、WCCU等主控板,在单板上电后一段时间内得不 到加载响应,就会使用本板FLASH内的程序数据。因此,如果FLASH内的程序与 加载的程序不一致,就会造成版本不一致的现象。另外加载软开关设置不正确也会造成软件版本不一致的情况。(正确的软件开关设 置应该是:加载前为程序、数据不可用,程序、数据可写;加载完成后正常运行时 为程序、数据可用,程序不可写、数据可写。)5. 检查加载文件是否异常如果单板都可以完成加载,但单板状态为故障,则有可能是加载文件异常造成的。 出现这种情况,可以首先查询加载软件的大小、日期是否正确,再使用对比法,用 一个已验证过的加载文件进行加载。5.

16、4.3相关案例1.加载文件不对导致单板不能正常加载【故障现象】某MSOFTX3000局升级,发现单板长时间没有反应,根本无法加载相应的文件。【故障分析】在BAM安装完毕后,单板加载的文件一般存放在d:data目录下: 程序文件名为S3000.板名 数据文件名为DB模块号.dat WSMU 板扩展 BOOTROM 文件名为 smubios2.bin 业务处理板二级BOOTROM文件名为iobios2.bin单板无法加载,可能是这些文件损坏,也可能是路径被人为改变,从而导致无法找 到相应的加载文件。【故障定位】(1) 检查BAM上的路径是否存在,发现存在;(2) 检查文件是否存在,发现文件已经不存

17、在了;(3) 在回收站里发现文件,经问询得知是误删除导致;(4) 将文件还原,单板开始正常加载。2.连线、拨码开关不正确导致WSMU板无法正常连接到BAM【故障现象】某MSOFTX3000局,WSMU板无法正常加载,不能连接到BAM。【故障分析】这个问题可能由从LAN Switch故障或者该板上的端口故障引起,也可能是WSMU 板后插WSIU板的拨码开关不正确而引起的。WSMU加载时IP地址为:左板:172.20.框号.100,172.30.框号.100右板:172.20.框号.101,172.30.框号.101【故障定位】(1) 检查LAN Switch发现其工作正常。(2) 查询该板 IP

18、 为 172.20.9.100,172.30.9.100。(3) 查询该板所在的框号显示为11框,但是实际上应该是1框。(4) 检查其后插WSIU的拨码开关,发现其拨码状态有误,第四个拨码开关被错误 地拨到了1的位置,恢复后重新启动该板即恢复正常。5.5倒换异常的故障分析与定位5.5.1常见原因倒换异常的常见原因有:(1) 操作不规范(2) 系统运行状态不允许(3) 备板离线5.5.2倒换异常的故障定位1. “不能倒换或倒换超时”故障的定位(1) 检查备板是否离线当备板未插、备板故障、备板状态异常等造成的备板不可用时,称备板离线。此时 若执行倒换操作,系统将拒绝执行。在维护台的维护工具导航树中

19、打开硬件配置面板图,选择相应的模块、机框,找到 需要倒换的单板,查看该单板的信息,若单板状态是“备用异常”、“故障”、“待 激活”、“就绪”、“隔离”等状态,该单板就不能被倒换。(2) 其他不允许被倒换的情况为了保障交换机安全运行,在系统出现大话务量、CPU高占用率、定时任务执行、 数据备份等特殊情况时,系统也将拒绝执行倒换操作,此时若强行倒换,则会引起 严重后果,如话单丢失、断话、主备用单板全部复位等,因此,在这种情况下的执 行倒换操作应十分谨慎。2. “倒换后主用异常或影响其他单板”故障的定位由于WCCU等控制单板是系统或模块的控制核心,在进行此类单板的倒换操作前, 必须要遵循以下两个原则:检查系统当时的运行状况,尽量避免在CPU高占用率的情况下执行倒换操作,如大 话务量、话务统计定时任务执行、数据备份等。因为在这种情况下执行倒换操作, 将加重CPU的处理负担,给系统的运行带来不确定因素,导致倒换失败或其他异常 现象。两次倒换之间的时间间隔不能太短(建议大于30分钟)。因为在倒换时,系统需要 对主备板的数据进行平滑处理,一般需要20分钟左右,在此期间如果再次执行倒换 操作,将会导致话单丢失、数据混乱、系统重启等严重后果。/ 注音. .倒换是一项具有较大风险的操作,做好备份是预防或减少因倒换操作而引起损失的 有效措施。

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号