软交换故障处理.ppt

上传人:小飞机 文档编号:5319359 上传时间:2023-06-25 格式:PPT 页数:33 大小:671.60KB
返回 下载 相关 举报
软交换故障处理.ppt_第1页
第1页 / 共33页
软交换故障处理.ppt_第2页
第2页 / 共33页
软交换故障处理.ppt_第3页
第3页 / 共33页
软交换故障处理.ppt_第4页
第4页 / 共33页
软交换故障处理.ppt_第5页
第5页 / 共33页
点击查看更多>>
资源描述

《软交换故障处理.ppt》由会员分享,可在线阅读,更多相关《软交换故障处理.ppt(33页珍藏版)》请在三一办公上搜索。

1、1,软交换故障处理,2,主讲人:韩成贵临沂网络维护中心 交换1班,3,随着移动通信的发展,软交换设备在现网中占据着越来越重要的地位,在全省各地软交换设备已经超过了普通的TDM设备,并且在即将到来的3G时代软交换在核心网中将占据着绝对统治地位。,4,软交换故障处理讲座,第一章 GARP板等硬件故障处理 第二章 设备软件版本引起的故障处理 第三章 电路故障处理 第四章 录音通知故障处理 第五章 信令配合故障处理 第六章 从ENUM事件告警和EOS统计发现的软交换故障处理,5,定期解闭GARP板来防止信令瞬断 爱立信软交换设备由于GARP板问题经常导致至MGW的信令瞬断,关于MGW瞬断的问题,是由于

2、GARP板的某些counter溢出,导致GARP板每50天发生启动,从而导致MEDIA GATEWAY UNAVAILABLE告警。目前临时性的解决方法为:在第49天的时候,手动闭解GARP板RP,可避免该问题出现。日常维护建议:每月定期闭解一次GRAP板。,GARP板等硬件故障处理,6,解闭有问题的RP解决M3UA链路问题通过MGW侧告警得到哪个Association出现问题,即哪条链路出现问题 通过命令M3RSP:DEST=ALL;来检查MSC侧对应的Association通过命令IHALP:EPID=ALL;来检查该Association对应的IP地址通过命令IHCOP:IPPORTAL

3、L;来得到该IP地址对应的IPPORT通过命令EXEMP:EM=ALL,RP=ALL;得到该IPPORT对应的RP闭解该RP,然后检查MGW侧告警是否消除,如果没有消除,立即通知爱立信技术支持部请求技术支持。,GARP板等硬件故障处理,7,更换低版本的GARP板来解决M3UA瞬断经爱立信确认:对于版本ROJ 208 16/3 R1A 的RP硬件,有个别板子有硬件问题,主要体现在消息处理上的容忍限度,在很小干扰的情况下,RP就可能出现RP错误,导致RP闪断,出现M3UA的瞬断,如果该RP在10分钟内出现3次闪断,RP将倒换到备用RP上。通过两个现象可以决定M3UA的瞬断是由于RP的硬件错误造成的

4、 1、RP的event code来决定 通过RP的EVENT CODE来看,如果ERWORKING是H06A H0002 H0055,证明该RP的硬件有问题,应该及时更换 2、通过RP DUMP来判断 通过TERDI打印可以看出,如果打印出现FATAL SDRAM ECC ERROR DETECTED AT 0 xxxxxx,证明该硬件有故障,更换硬件,GARP板等硬件故障处理,8,更换低版本的GARP板来解决M3UA瞬断 建议更换的RP版本为ROJ 208 16/3 R1B/B,如果没有这种版本,可以更换成版本为ROJ 208 16/1 R3A,如果这2种版本都没有,可以更换一块新的版本为R

5、OJ 208 16/3 R1A板子,大多数这种板子都没有这种问题。,GARP板等硬件故障处理,9,爱立信mgw硬件错误故障的处理步骤:如果是普通硬件错误,把板子lock,换板,unlock。Scb板子故障会导致mgw重启,把scb板子lock,拔线,拔板子,插板子之前,先把线插上,再把板子插上(否则mgw会启动)。Etc41板子中的交换功能坏了,会出现hardware alarm,会导致msrn吊死,需要把etc41板子重启一下,如果还不行,则重启mgw。,GARP板等硬件故障处理,10,软交换故障处理讲座,第一章 GARP板等硬件故障处理 第二章 设备软件版本引起的故障处理 第三章 电路故障

6、处理 第四章 录音通知故障处理 第五章 信令配合故障处理 第六章 从ENUM事件告警和EOS统计发现的软交换故障处理,11,LYIGM9以前因缺软件补丁经常出现资源吊死经常导致下面的用户不能正常通话,临时性的解决办法是在夜间做冷启,后来联系省公司打上补丁后才彻底解决。SERVER中的ET1551光板因RP软件版本问题经常出现瞬断现象,后来降低RP软件版本后瞬断次数大大减少,但仍然偶尔发生。,设备软件版本引起的故障处理,12,LYIGM8、LYIGM9 以前因SCB板子存在缺陷 经常出现媒体网关不可用的告警,后来更换了LYIGM8、LYIGM9两个MGW共16块SCB板子。更换完成并冷启动以后,

7、交换机一直工作正常。从以上可以看出,对于因设备软件版本引起的问题的解决办法就是积极联系厂商进行软件升级或者更换单板。,设备软件版本引起的故障处理,13,软交换故障处理讲座,第一章 GARP板等硬件故障处理 第二章 设备软件版本引起的故障处理 第三章 电路故障处理 第四章 录音通知故障处理 第五章 信令配合故障处理 第六章 从ENUM事件告警和EOS统计发现的软交换故障处理,14,数据添加后MGW上E1、TDM状态正常,SERVER上DEVICE状态正常,而SNT状态为ABL。一般在MGW上闭解一下terminalgroup,重新向server发送teminition状态改变通知可以恢复。关于爱

8、立信软交换和华为软交换电路状态的故障,是双方信令配合的问题。可以对状态不正确的电路进行双方的闭塞和解闭,必要时重新添加一下数据。如仍旧不能解决问题,可在爱立信交换机侧用test system指令强制复位电路状态。,电路故障处理,15,数据添加后MGW上E1、TDM状态正常,SERVER上SNT状态正常,而DEVICE状态为ABL。将设备在SNT上重新添加一遍,先在MGW侧闭掉相应的TERMINAL GROUP,然后执行EXDAE-EXDRE-NTCOE后再重新定义,解闭的时候先在MGW侧解闭TERMINAL GROUP,再解开SNT和DEV。这种情况还有一种原因是数据设置有误,去年临沂曾发生过

9、因对端济南某局设置的路由参数SPN有误导致DEVICE状态为ABL,后来修改了SPN之后电路才恢复正常,这种错误比较隐蔽,需要联系双方共同检查数据后才行。,电路故障处理,16,软交换故障处理讲座,第一章 GARP板等硬件故障处理 第二章 设备软件版本引起的故障处理 第三章 电路故障处理 第四章 录音通知故障处理 第五章 信令配合故障处理 第六章 从ENUM事件告警和EOS统计发现的软交换故障处理,17,根据用户投诉或登陆到相应非主机框GPB板上使用mesc_info_im-all 查看是哪条录音通知出问题。在SERVER上使用tctdi:bo=99,bnb=;指令监听录音通知是否正常。对于GM

10、PV3版本来说录音通知一般放在主机框12、13板位,使用total command工具登陆到相应的MGW文件夹,进入p001200/im_basic_messages/phrases目录 下查看具体的录音通知是否存在,可用播放软件测试一下是否正常。如不正常可用其它MGW上正常的录音通知覆盖掉。,录音通知故障处理,18,如果上述检查录音通知本身没有问题,打开EMAS平台上配置选项IM中对相应的录音通知闭解锁一下,如果仍然不起作用的话可能是进程吊死或相应的MSB板子坏了,如果是进程吊死的话,在EMAS平台上从右框中选择reliable program 为 msp_msa_im_streamer的进

11、程,点击右健选择“Properties”,在弹出的对话框点击”Switch”,将进程重启一下即可,如果是MSB板子坏掉的话则更换相应的单板。对于平常不使用的录音通知但是使用指令查看REJECT次数一直在增长的情况,我们可以在SERVER上使用指令exaue:pos=pos删除32位-16位映射关系。,录音通知故障处理,19,软交换故障处理讲座,第一章 GARP板等硬件故障处理 第二章 设备软件版本引起的故障处理 第三章 电路故障处理 第四章 录音通知故障处理 第五章 信令配合故障处理 第六章 从ENUM事件告警和EOS统计发现的软交换故障处理,20,由于各个厂家对于BICC消息规范的理解存在偏

12、差,因此VOIP改造后不同厂家间的BICC消息配合存在很多的问题,尤其是关口局又存在互联互通问题,信令消息配合问题更多。出现这种情况通过对信令消息跟踪和分析来发现问题、解决问题是一个比较好的途径。解决不同厂商信令消息配合差错的根本途径是使双方协商的消息达到一致,因此可以通过联系厂商打补丁修改消息格式或者采用屏蔽消息错误参数的方式来解决。,信令配合故障处理,21,临沂曾发生过爱立信VoIP局下手机用户无法拨打华为VoIP局下无线座机的情况,是由于被叫无线座机不能正常上报承载,被叫华为VOIP端局回送默认编解码AMR,而主叫选择的是AMR2,从而造成双方编解码协商失败,呼叫无法接续。联系厂家说需要

13、打补丁才能彻底解决此问题,在打补丁之前,暂时将两局间话务改走TDM路由,这样就不需要进行编解码协商,从而保证话务可以正常接续。,信令配合故障处理,22,临沂华为软交换关口局VOIP改造后,联通C网用户拨打爱立信VOIP局下的手机无法接通,用户听空号的录音通知,G网用户拨打正常,TDM局下用户被叫正常。该问题是由于爱立信VOIP端局不识别联通C网发来BICC-IAM消息中的USI信源的3.1KHz传输能力所致,因此爱立信端局可以使用screening masks将该信源丢弃。在3GPP规范中IAM消息的USI参数编码为00011101(即29),因此我们可以使用BISMI指令定义名为DISCAR

14、DUSI的BICC screening masks将此信源屏蔽掉,然后使用BIRMC:SM=DISCARDUSI,R=LYDS1O;指令使该BICC screening masks在华为软交换关口局路由上生效。这样就能保证通话的正常建立。,信令配合故障处理,23,软交换故障处理,第一章 GARP板等硬件故障处理 第二章 设备软件版本引起的故障处理 第三章 电路故障处理 第四章 录音通知故障处理 第五章 信令配合故障处理 第六章 从ENUM事件告警和EOS统计发现的软交换故障处理,24,通过对ENUM事件、EOS统计和历史告警的分析,我们能挖掘到软交换中存在的一些隐患,通常这三者是关联的,我们可

15、以多个侧面看到交换机上存在的一些问题。对于在SERVER上出现的DISTURBANCE SUPERVISION LIMIT REACHED,要先用EREPP:ENUM=*查看ENUM=*中错误代码的ERRCODE代表什么意义,再查看EMAS上的告警情况,从资料中找到错误代码表示的意义(属于录音通知的问题还是传输瞬断引起),从历史告警查看定位具体是哪块板子出问题再进行后续处理。,从事件和EOS统计发现的软交换故障处理,25,去年青岛通过统计发现QDAGS15每个小时出100次左右EOS3748的现象,交换机没有出直接告警,但可以看出QDAGS15存在ENUM=1009,MGW20侧出现GCP 5

16、00 错误。EOS 3748表示收到原因为Switching Equipment Congestion的释放消息,具体表现为Server侧出现ENUM 1009事件,通过到相应机框的GPB板用te log read 打印分析trace log可以发现发送有问题的Context的时隙及对应的PCM设备号:对上述电路进行闭解,重新定义电路数据后恢复正常,观察统计EOS3748消除。,从事件和EOS统计发现的软交换故障处理,26,RA告警处理 lyigm22的subrack=2,slot=6的msb板故障导致出现告警MediaStreamFunctionResourceAccessFailure,将

17、此msb板更换后,故障解决,但是告警一直没有消除。登录网元,查看原始告警信息包含“SpecificProblem:MediaStreamFunctionResourceAccessFailure”,查询ALEX,按其步骤解决。1、EMAS-ResourceAccess,进入后右键SHOWLDN查到与告警信息中相同的LDN(.ResourceAccess=3);2、可看到该条ResourceAccess中PIUidcontainingactiveRPU“.ManageElement=1,Equipment,Subrack=2,Slot=2,pluginunit=1”;3、LOCK该块GPB;4、

18、RESTART该块GPB;5、UNLOCK该块GPB,按此步骤操作告警消除。从以上可以看到有些告警是关联在一起,对于这种RA方面的告警一般可以通过重启相应的板子可以解决。,从事件和EOS统计发现的软交换故障处理,27,通过统计发现交换机隐患案例 临沂检查交换机各项指标发现爱立信voip软交换局lyigs13到同是爱立信voip软交换的lyigs15、lyigs16的切换成功率很差,几乎是0,但是到其他局的切换成功率都正常。在交换机上查看有enum告警,查看errcode确定是M3UA问题导致切换不成功。根本原因在于LYIGS13到上述局向MAP切换信令走的是TDM,而上述局向到LYIGS13走

19、的是VOIP,当主用ET1551发生倒换的时候GS13到GS15的切换信令暂时无法送出,而GS15到GS13的切换信令通过IP送到GS13以后,GS13的M3UA相关BLOCK处理收到的信令以后无法将响应送给GS15。这样,GS13的M3UA相关BLOCK认为出现了故障导致统计指标异常。因此结合统计和ENUM我们能够发现一些不易察觉的隐患。,从事件和EOS统计发现的软交换故障处理,28,日常维护中需要注意的事项,做好备份工作做好安全巡检和作业计划注意查看统计指标和历史告警,关注用户投诉,29,从广西爱立信MGW重大宕机事件 可以看出备份对MGW的故障恢复时间的重要性。MGW的备份包括,数据盘(

20、c,d盘)备份和DT(cv)备份。一般平常操作维护做的都是cv备份。全备份需要备份文件:整个C盘、D盘文件,P001200或P001300;Rollback List的设定:完成CV备份后要重新设定Rollback List,Rollback List的设定原则为:Rollback List里的第一个文件为最近一次CV备份的上次DUMP文件,第二个文件为上次RELOAD成功的DUMP文件;MGW中Configuration Versions的数量必须保持在40以下;CV备份不要使用自动备份,自动备份的成功率以及使用自动备份文件恢复系统的成功率都不高;使用TOCAL COMMAND下载备份文件时

21、,一定要将“传输模式”设置为“二进制(压缩文件,DOC等)”。,做好备份工作,30,作业计划和安全巡检是预防性维护的关键,如果作业计划没按要求执行那么有些问题就可能在安全巡检中检查出来,对于安全巡检和作业计划发现出一些问题要及时解决。,做好安全巡检和作业计划,31,我们从正规的流程(监控班发现告警派工单交换班处理的形式)只能解决一部分软交换故障,其它途径可以通过分析异常EOS统计、关注典型用户投诉和分析历史告警的方式去挖掘交换机潜在的隐患。在一些地市经常会发生软交换在没有告警的情况下大面积的影响通话,这就要求我们在日常的维护工作中主动发现一些蛛丝马迹,将隐患消灭在萌芽状态。,注意EOS统计和历史告警,关注用户投诉,32,小结,以上是对爱立信软交换设备最近两年所出故障的归纳和总结,由于全省各地爱立信软交换设备的建网方式都一样,所以经常出现的告警和故障也都大同小异,希望能对大家今后的维护工作有一定的借鉴意义。我今天的讲课就到这里,感谢大家的参与。由于准备时间仓促、水平有限所以在讲课时难免有疏忽出错的地方,欢迎大家以邮件和电话的形式和我交流,谢谢大家!,33,谢谢大家!,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号