MSAP故障定位、处理原则、技巧及案例分析.ppt

上传人:牧羊曲112 文档编号:5440790 上传时间:2023-07-07 格式:PPT 页数:61 大小:593.50KB
返回 下载 相关 举报
MSAP故障定位、处理原则、技巧及案例分析.ppt_第1页
第1页 / 共61页
MSAP故障定位、处理原则、技巧及案例分析.ppt_第2页
第2页 / 共61页
MSAP故障定位、处理原则、技巧及案例分析.ppt_第3页
第3页 / 共61页
MSAP故障定位、处理原则、技巧及案例分析.ppt_第4页
第4页 / 共61页
MSAP故障定位、处理原则、技巧及案例分析.ppt_第5页
第5页 / 共61页
点击查看更多>>
资源描述

《MSAP故障定位、处理原则、技巧及案例分析.ppt》由会员分享,可在线阅读,更多相关《MSAP故障定位、处理原则、技巧及案例分析.ppt(61页珍藏版)》请在三一办公上搜索。

1、北京华环电子股份有限公司Beijing Huahuan Electronics Co.,Ltd.,MSAP故障定位、处理原则、技巧及案例分析,讲师 孙振禹,故障定位基本原则故障处理手段故障处理技巧案例分析,主要内容,故障定位基本原则,先外线,后设备在定位故障时,应先排除外部的可能因素的影响,如光纤断、电缆断、用户设备故障或电源问题、电缆虚接、不共地等先单点,后网络尽快准确的把故障定位到单点先群路,后支路首先排除交叉板故障;然后再确认支路先高级,后低级分析告警时,应首先分析高级别的告警,然后再分析低级别的告警分析告警时,应首先分析高阶的告警,然后再分析低阶的告警,故障定位基本原则故障处理手段故障

2、处理技巧案例分析,主要内容,告警、性能数据分析法:利用传输设备网管的告警、性能数据,可帮助我们随时了解全网设备的运行情况,甚至能检测到故障的先兆,将故障解决在萌芽期。故障发生时可知道当前设备存在什么告警,什么时间发生的,以前曾发生过什么告警,性能不好时将给出误码有多少等。从而分析可能发生故障的原因和部位。,故障定位的常用手段(一),排除法:有时出现负载过重,电源过流保护,或SDH设备没有告警,但全部业务都不通的情况,可以用逐块拔单元盘的方法来确定故障盘位。,故障定位的常用手段(二),环回法:在故障处理中有时出现大量的告警性能事件,使维修人员无从着手分析。环回法是传输设备定位故障最常用的方法之一

3、,它的最大特点就是依次逐段定位故障,最终将故障定位到单站或单盘。这种方法也有它自身的缺陷,就是可能会影响正常的业务,并要求维护人员必须清楚设备的硬件连接,如纤芯的连接方向、DDF架的分配、业务通道的组织等,以免误操作延误故障的及时排除。传输设备的环回操作又分为软件环回和硬件环回,硬件环回相对于软件环回要更彻底,但它的操作不是很方便,需到现场才能操作。网管系统提供了软件环回功能,在电路开通和处理单个业务时十分方便。但在做光路环回和群路环回时要十分小心,应避免环回后发生远端站数据通信通路中断。,故障定位的常用手段(三),替换法:替换法就是使用一个正常的物件去替换一个被怀疑工作有异常的物件,从而达到

4、故障定位的目的。替换法适用于及时排除光纤、中继电缆、单盘等故障。此法要求维修人员规范操作,避免正常物件的受损而造成不必要的损失。,故障定位的常用手段(四),配置参数修改法:更改配置适用于故障定位到单站后,通过修改设备的交叉配置数据、单板参数等排除故障。如怀疑某一槽位有问题时,可通过更改板位配置进行排除。更改配置法操作起来比较复杂,对维修人员要求较高,一般不提倡使用,使用此方法前必须对原配置数据进行备份,同时对所进行的操作进行记录,以便故障定位。,故障定位的常用手段(五),1、以尽快恢复业务为原则,但同时一定要做好故障记录,留作分析,防止潜在问题的遗留。2、在解决问题过程中,尽可能少地进行掉电、

5、拔盘等危险 操作,避免因为操作不当而导致问题扩大化。3、尽量通过分析解决问题,避免盲目换盘。4、在自身无法解决问题的情况下,应向单位负责人汇报,请求技术支援。5、设备维修人员应注意对维修知识的学习,从故障处理过 程中吸取维修经验。6、处理完故障要写维修报告。,故障处理的基本原则,故障定位基本原则故障处理手段故障处理技巧案例分析,主要内容,设备指示灯,城网直通车设备接口光接口LOS或者OLOS,灯灭表示正常,红灯光缆故障E1接口E1 LOS,灯灭表示正常,红灯电缆故障;红灯慢闪表环回;红灯快闪表AIS。有些设备(LMXE)没有E1接口指示灯,需要从网管及对端设备判定V.35接口V.35 LOS,

6、灯灭表示正常,红灯电缆故障10/100Base-T接口接口处绿灯表LINK状态,黄灯表示全、半双工状态10/100Base-Fx接口灯灭表示正常,红灯光缆故障,城网直通车设备通用告警指示灯紧急告警 ALM-P一般告警 AML-D城网直通车设备个性告警指示灯H9MO-LMA的Err灯指示光接口有误码H9MO-LMXE的BER3、BER6指标光接口误码,设备指示灯,故障处理技巧利用设备指示灯判定故障利用开销字节判定故障板卡及设备故障简易判定对MSAP告警的理解,故障处理技巧,利用设备指示灯判别故障,城网直通车设备接口光接口LOS或者OLOS,灯灭表示正常,红灯光缆故障E1接口E1 LOS,灯灭表示

7、正常,红灯电缆故障;红灯慢闪表环回;红灯快闪表AIS。有些设备(LMXE)没有E1接口指示灯,需要从网管及对端设备判定V.35接口V.35 LOS,灯灭表示正常,红灯电缆故障10/100Base-T接口接口处绿灯表LINK状态,黄灯表示全、半双工状态10/100Base-Fx接口灯灭表示正常,红灯光缆故障,利用设备指示灯判别故障,城网直通车设备通用告警指示灯紧急告警 ALM-P一般告警 AML-D城网直通车设备个性告警指示灯H9MO-LMA的Err灯指示光接口有误码H9MO-LMXE的BER3、BER6指标光接口误码,故障处理技巧利用设备指示灯判定故障利用开销字节判定故障板卡及设备故障简易判定

8、对MSAP告警的理解,故障处理技巧,更改J0字节跟踪光纤连接,适用场景设备多光方向连出时组环时使用方法改变J0字节为约定字符,在接收侧观察是否在对应光口收到该字节。反之亦然。思考问题?出现RS-TIM告警如何处理?,更改J1字节跟踪高阶通道,适用场景VC-4、VC-3高阶业务时使用方法改变J1字节为约定字符,在接收侧观察是否在对应光口收到该字节。反之亦然。思考问题?出现HP-TIM告警如何处理?,更改J2字节跟踪低阶通道,适用场景多通道绑定的以太网业务,无低阶告警,怀疑时隙未一一对应与其它MSAP厂家或者自己产品跨网对通时使用方法改变J2字节为约定字符,在接收侧观察是否在对应通道收到该字节。反

9、之亦然。多通道绑定的以太网业务中可用些方法逐个核对时隙;跨网对通时,可检查时隙对应否正确思考问题?出现LP-TIM告警如何处理?,正确利用以太网端口包统计,适用场景具有端口数据包统计功能的板卡及设备在开通以太网业务使用方法从网管上查询板卡或者设备的以太网端口包的收、发统计数是否在同比增加。增加表明以太网业务正常;收增长、发不增长或者发增长、收不增长都表明业务不正常,需要查明原因。思考问题?端口发包统计是来源于那个方向?端口收包统计是来源于那个方向?,正确利用以太网端口CRC包统计,适用场景具有端口CRC错包统计功能的板卡及设备在开通以太网业务使用方法网管上查询到有CRC错包数,可能是连接的网线

10、或者光纤(100BASE-FX)有问题。网线的问题表现为网线质量问题、RJ45水晶头问题、网线与水晶头不搭配问题(比如五类线用了6类头)、错误用了三类线等等;网管上查询到有CRC错包数,也可能是网线连接的两个端口一端强制、一端自协商造成的。思考问题?LMXE的以太网盘端口CRC错包统计是来源于那个方向?,故障处理技巧利用设备指示灯判定故障利用开销字节判定故障板卡及设备故障简易判定对MSAP告警的理解,故障处理技巧,板卡及设备故障简易判定,E1端口或者PDH接口板故障判定H9MO-LMXE、H9MO-LMFIT设备在交叉矩阵环回,观察网管低阶通道告警消失,用2M误码仪测试E1端口能测通,表明PD

11、H接口板没有问题。其它城网直通车设备用硬件拔子做相应环回,用用2M误码仪测试E1端口能测通,表明端口没有问题。备注:也可以用光端机2M连接的终端设备2M端口状态来判定V.35端口或者V.35接口板故障判定设备在交叉矩阵环回,观察网管低阶通道告警消失,用V.35误码仪测试V.35接口口能测通,表明V.35接口板没有问题。备注:也可以用光端机V.35接口连接的终端设备来判定,需要终端设备支持,板卡及设备故障简易判定,以太网电接口或者以太网电接口板故障判定设备在交叉矩阵环回,内端口做通道捆绑,观察网管GFP告警消失,表明以太网内部没有问题;用计算机网口(自协商)连接至以太网电接口,端口绿灯和黄灯亮,

12、表明外端口没有问题;以上都正确,表明设备或者板卡没有问题。注意,以太网环回后,不要接入网络交换机,否则会造成桥环路对于H9MO-LMXE和H9MO-LMFIT的通道型板卡,一般有四个独立通道端口,可以把一端口和其它剩余的三个端口中任意一个端口设置业务相通,用两台计算机相PING,PING通表明板卡没有问题。,板卡及设备故障简易判定,以太网光接口或者以太网光接口板故障判定设备在交叉矩阵环回,内端口做通道捆绑,观察网管GFP告警消失,表明以太网内部没有问题;以太网光接口环回,接口指示灯灭,表明外端口没有问题;以上都正确,表明设备或者板卡没有问题。注意,以太网环回后,不要接入网络交换机,否则会造成桥

13、环路对于H9MO-LMXE和H9MO-LMFIT的通道型板卡,一般有四个独立通道端口,可以把一端口和其它剩余的三个端口中任意一个端口设置业务相通,相应以太网光接口外接两个光纤收发器,再用两台计算机相PING,PING通表明板卡没有问题。,板卡及设备故障简易判定,如何做交叉矩阵环回即源、宿盘位选择同盘位同时隙,交叉矩阵环回会导致原有业务重新设置,板卡及设备故障简易判定,SDH光接口或者SDH光接口板故障判定光口用跳纤环回,观察网管光接口告警消失,接口指示灯灭。表明SDH光接口或者SDH光接口板没有问题。,故障处理技巧利用设备指示灯判定故障利用开销字节判定故障板卡及设备故障简易判定对MSAP告警的

14、理解,故障处理技巧,AIS与RDI,AISAIS 告警(全1 告警):对下一级电路插全1,告知该信号不可用。常见的AIS告警有MS-AIS、AU-AIS、TU-AIS 和E1-AIS 等。业务配置正确后不会出现MS-AIS、AU-AIS、TU-AIS 告警。信道空闲会发E1-AIS。RDIRDI告警(远端接收缺陷指示):用于指示对端站检测到LOS(信号丢失)、AIS、TIM(追踪识别符失配)等告警后,而传给本站的对告。常见的告警有MS-RDI、HP-RDI 和LP-RDI等。RDI出现后应该是对端收或者本站发故障。,B1、B2、B3与REI,B1、B2、B3B1、B2或者B3误码计数:B1是再

15、生段误码计数、B2是复用段误码计数、B3是高阶误码计数。出误码后首先要检查光缆衰减。出误码后然后检查对端发或者本站收故障,可用环回法判定。REIREI告警(远端误码指示):对端站接收到B1、B2或者B3误码,而传给本站的告警。常见的告警有RS-REI、MS-REI 和HP-REI等。出误码首先要检查光缆衰减REI出现后应该是对端收或者本站发故障,可用环回法判定。,TIM与SLM,TIMTIM 告警(追踪识别符失配):本站与对端站低阶通道追踪识别符配置不一致。常见的TIM告警有RS-TIM、HP-TIM、LP-TIM 等。国内厂商设备出现TIM告警一般不会影响业务。国内厂商设备出现TIM告警会下

16、插全1。SLMSLM告警(信号标记失配):本站应收信号标记与对端站应发信号标记配置不一致。常见的告警有HP-SLM 和LP-SLM等。一般厂家设备出现SLM告警会在通道下插全1。我公司设备不会下插全1,如果通道净荷相同,不会影响业务。,TDM电路告警一,TDM电路告警二,低阶无告警表明电路正常,低阶无告警表明电路正常,透传型以太网电路告警,低阶无告警和GFP不失步表明电路正常,低阶无告警和GFP不失步表明电路正常,汇聚型以太网电路告警,低阶无告警和GFP不失步表明电路正常,低阶无告警和GFP不失步表明电路正常,故障定位基本原则故障处理手段故障处理技巧案例分析,主要内容,案例一(1),故障现象:

17、妥宁网通分公司SCDMA的基站(北京信威的产品,BSC设在成都)网管系统显示南涪小区基站业务6月15日从PDH割接至华环SDH环网后基站频繁告警,并出现基站系统复位,最终造成业务瞬断。妥宁网通分公司曾经怀疑基站GPS时钟模块有问题(基站时钟同步于GPS),更换VCC板,故障依旧。怀疑在用的通道有问题,在华环公司设备上重新换一个2M,问题还是存在。网络拓扑:,案例一(2),处理过程 查阅基站网管系统历史告警信息,并从中找到可能的故障原因。网管中告警多显示E1的CRC4校验错和RAI对告,其中隔一段时间出现基站复位,业务瞬断。和妥宁网通分公司负责大灵通基站的工程师沟通,说以前PDH链路很正常,更换

18、华环SDH后故障频繁。询问基站设备复位原因,设备本身时钟同步问题,链路误码等都会使基站设备自动复位。网通工程师更换过基站设备上的VCC板,排除了基站设备本身有问题。从故障发生时间分析,最有可能是基站设备至华环SDH段链路误码造成基站复位,业务瞬断。为确定误码产生在那一段,在妥宁网通王工陪同下,我们到了射洪县新阳机房。首先测试以前用过出问题的2M通道(从南涪小区LMXE的2M端口做软件环回)二个小时,没有误码,华环的传输设备没有问题。然后到南涪小区基站,查看在用的电路,发现此电路在DDF架上有一条电缆的外皮虚焊并断开,随后检查基站设备(信威的CW95-18B)已接地、LMXE设备没有接地、DDF

19、架也没有接地,测量基站设备2M接口外皮和地有感应的33.3V直流电压,由此我确定故障点就在南涪小区2M线缆这一段。焊好虚焊点,LMXE、DDF架接地。从基站设备2M处接误码仪,新阳站DDF架上硬环回,测试一个小时没有误码。最后拉直电路长时间观察,业务没有问题,基站工作正常。结论 由于基站设备和华环传输设备LMXE的不共地,两点出现电位差,造成南涪小区传输设备和基站设备之间2M线缆产生误码。从而导致基站复位,业务瞬断。,案例二,故障现象:H9MO-LMFIT与ECI设备XDM-16测试通道保护,业务的通道保护设置正确。ECI设置通道保护业务也正确。ECI自己环回业务能通,FIT自己环回业务也能通

20、。FIT和XDM-16光口互联后,业务不通,更谈不上测试通道保护。原因分析:ECI和FIT自己环回业务能通,说明业务设置没有问题。问题应该出在不同厂家光口的一些参数设置。查看FIT网管光口没有任何告警,但查询ECI网管在对应FIT的光口J0、J1失配告警。把ECI的J0、J1字节禁止,业务马上开通。根据协议J0、J1失配SDH设备会下插全1,所以通道不会通。禁止J0、J1字节后(注意不是屏蔽),ECI设备不在下插全1,业务开通。通道保护也顺利测试通过。FIT缺省不检测J0、J1,也不能设置J0、J1,所以不会有告警。知识点:J0-再生段踪迹标识,英文RS-TIM;J1-高阶通道踪迹标识,英文H

21、P-TIM,案例三,故障现象:H9MO-LMFIT与ECI设备XDM-16测试E1及以太网业务互通性,XDM-16设 置时隙1-4,FIT也设置1-4。除第一时隙通以外,其它时隙业务不通。原因分析:第一时隙业务能通起来,说明直接相连ECI XDM-16和FIT之间的光口参数设 置正确。第一时隙的业务配置也正确。其它时隙不能通,是因为不同厂家对于TUG时隙的编号不一致造成的。根据测试,XDM-16设置的时隙1,2,3,4时隙对应FIT编号为1,4,7,10的时隙。FIT设置业务时把时隙对应好后业务开通,测试成功。知识点:华为、华环、格林威尔、瑞士康达等厂家TUG时隙编号一致,叫TS方式。ECI、

22、朗讯、烽火、中兴TUG时隙编号一致,叫TRIBUTARY方式。摩托罗拉又是另一种TUG时隙编号方式。如果不能明白以上时隙编号如何换算,可以接合网管判断,在网管上可以看 到FIT直接与其它厂家相连的光口的TU告警。其它厂家的时隙调配后,FIT 的光口相对的时隙会显示TU-AIS。,案例四,故障现象:两端H9MO-LMFIT通过城网ECI设备提供VC-4通道提供以太网专线,在接上一端H9MO-LMFIT设备后发现连接光口复帧失步告警。原因分析:先来看一下复帧失步是由那个SDH帧结构中那个字节表示的,复帧失步检测的是高阶通道中的H4字节,H4字节用来指示VC-12复帧位置指示。和FIT连接的ECI设

23、备提供的VC-4通道,不可能有VC-12复帧,所以FIT光口会出现复帧失步告警,准确点说复帧失步应该叫支路单元复帧失步,就好理解一些。两端FIT都连接到ECI设备组成的城网后,复帧失步自然消失。知识点:可以用复帧失步是否消失来判定提供VC-4通道是否开通。一端FIT连入城网,对方如果提供VC-4通道,可让提供VC-4通道的另一端端口做环回,看FIT光口的复帧失步是否消失,来判定VC-4通道是否调通。,案例五,故障现象:北京电信试用H9MO-LMFIT设备,单端直接与电信阿尔卡特设备光口连接,并与阿尔卡特的以太网板实现业务互通,为北京电信大客户提供以太网专线。FIT配置FE201板卡,业务配置不

24、通。处理过程:查证双方设置的时隙是否一致,阿尔卡特设备时隙编号方式与我公司的不同,可根据公司网管软件提供的TUG换算表进行换算,找到正确的时隙。也可以直接把FIT设备时隙编号直接设置为TRIBUTARY方式,编号就会与阿尔卡特设备一致。时隙提供在1-1-1,也就是第一时隙,没有错误。检查LCAS是否使能。FE201卡由于各种原因不在支持LCAS,支持LCAS板卡定义为FE201L,FE201L板卡的硬件与FE201卡是通用的。LCAS如果不支持,互通的阿尔卡特设备也要设置成禁止LCAS。经检查阿尔卡特设备设置LCAS禁止。检查是否GFP封装、上、下加扰设置是否一致。经北京电信工程师查阿尔卡特上

25、板卡是采用GFP封装,不过它采用的是GFP-T封装,也就是透明映射方式。不能与我公司的设备互通。后更换成支持GFP-F,帧映射方式板卡,业务顺利开通。原因分析:GFP封装有两种类型的映射:帧映射(GFP-F)和透明映射(GFP-T)。帧映射方式是将收到的一个客户信号帧完整地映射到一个GFP帧中。ITU定义GFP-F支持映射以太网、PPP、MAPOS、RPR和光纤通道FC-BBW。透明映射方式将客户端信号中的对客户端信号的单个字符进行解码,然后将其映射至固定大小的GFP帧中。适用映射GBE、光纤通道、ESCON、FICON和DVB-ASI。两种映射方式不能互通。,案例六,故障现象:两端LMFIT

26、设备跨在ECI的城网两头开以太网业务,监控通过光口62、63时隙传送。ECI给的时隙正确,以太网业务正常,监控不能上报。处理过程:网管上观察监控通道上无告警,表明时隙连接正确。为确认ECI监控用时隙是否开通,可以用此时隙设置在以太网业务上,结果表明以太网业务能通。在时隙正确、网管设置E1监控正确情况下,我们怀疑FIT上在硬件或者软件上对E1时隙监控有什么特殊设置。原因分析:通过和开发部确认,E1时隙监控的监控帧有两种SIZE,一种是16Byte,另一种是32Byte。如果两端FIT设备设置此帧长不一致会导致通过E1时隙监控不能上报。现场查证一端FIT设置16Byte,另一端设置为32Byte。

27、都改为32Byte监控正常上报。设置为16Byte是为了和LMX设备E1监控通道互通。,案例七,故障现象:浙江省联通杭州分公司采用EOE方案为中国银行开以太网业务,中心站配置一台FIT设备光直接连入ECI城网,用户站点用LMC+LME,LMC的2M接入ECI城网。简单关系图如下:FIT光ECI城网E1LMC光LMNE中心站FIT对应下面九个站点。开通时发现每条专线都有丢包。处理过程:首先测试通道是否有误码,选择一个点在FIT上光做环回,下面LMNE把时隙下到2M端口测试2个多小时没有误码。可以排除线路误码。在网管上发现中心站FIT设备隔几分钟一直在报GFP失步。查找GFP失步原因,设置都正确,

28、后到中心站机房,发现此台FIT设备在继电器频繁跳动,告警指示灯同时闪烁。怀疑此设备出了问题,换了一台后故障消失。原因分析:在金华市开有相同的链路,同样的版本,没有出现丢包。说明设备版本没有问题。而且九个站点对一个FIT设备,都出现丢包。说明问题应该出在中心站的FIT设备上。,案例八,故障现象:金华市联通公司采用LMXE、FIT、LMNE设备为中国银行开以太网专线业务,网络如下所示:FIT-LMXE=双光(一主一备)ECI城网FIT光FIT下面节点共有八个相同业务站点。调测发现有二个站点业务能通,其它几个站点业务不通。处理过程:经过反复确认,ECI分配时隙正确,自己业务设置正确。在远端设备上看不

29、到告警,局端设备也看不到任何告警。其中有二个站业务是通的,其它站点以太网就是PING不通。由于没有任何告警,我们怀疑中间有环回的地方,经过查找发现ECI设备在与LMXE连接的光纤做了环回。撤消环回,全部站点能够PING通。业务开通原因分析:LMXE与ECI设备做SNCP保护,由于开业务时有一条光纤还没有铺好,只连接了一个光口。但业务ECI和LMXE都做成了SNCP保护业务,只等光纤到位直接连接就可以了。金华网维工程师在与LMXE准备连接的另一个ECI光口做了环回,并且是在主用通道上。这是造成业务调不通的原因。有二个站点能通是因为那二个站点恰好业务倒换到备用通道上,正好与LMXE已连接的光口业务

30、对接,所以能通。,案例九,故障现象:上海公安局采用华环FIT设备和朗讯MetroPolis设备以太网直接对通,开以太网专线业务,网络如下所示:ETHFIT设备 MetroPolis设备ETH双方设备上没有告警,但就是PING不通。处理过程:确认WAN口设置,上、下加扰及FCS等设置一致;确认LCAS功能,相互设置禁止;确认双方设置都是透传模式,不存在设置VLAN导致不通的情况;确认封装协议同为GFPF,不存在GFP封装不一致情况;后来朗讯工程师到现场,发现在其设备以太网端口有一个CID设置为100,更改为0后,业务PING通。原因分析:GFP协议有基本帧和扩展帧之分,朗讯MetroPolis设

31、备在以太网设置CID,确认是加了扩展帧头。一侧是基本帧,一侧是扩展帧导致业务不通。,案例十,故障现象:上海公安局采用华环LMXE设备和朗讯MetroPolis设备光口直连,为其它分局提供电路,网络如下所示:E1LMXE设备 MetroPolis设备E1LMXE设备光口没有告警,朗讯设备光口检测有误码。处理过程:到达用户现场,检查故障现象确实如用户所述;两端光端设备位于一个大楼中,一个在四层、一个在二十一层;检查双方光端设备光器件都为单模光口,并且发光功率在10dBm左右;检查连接尾纤,发现用户连接的跳纤,和朗讯设备侧用的是单模光纤,华环LMXE侧用的是多模光纤;换多模尾纤为单模尾纤,故障排除。

32、原因分析:朗讯设备侧单模光纤发向多模光纤,信号可以耦合,所以华环设备侧检测没有误码;华环设备侧多模光纤向单模光纤信号不能很好的耦合,所以在朗讯设备上测有误码。,案例十一,故障现象:故障持续的时间比较长,大部分时间内表现为三个LMXE的节点有大量连续的闪告GFP失步告警,间隔时间不等,每次告警持续1-3秒,会自行结束。还有另外一些表现为:在网管上并无任何告警,但是用笔记本通过FE01接口ping用户路由器有丢包。网络如下所示:FELMXE1光纤LMXE2光纤LMXE3光纤LMXE4 FE处理过程:首先查询光路是否存在误码,在网管上查询B1、B2和B3,均无增长;通过环回测试,定位在三个接入路由器

33、的节点的FE01自环收到GFP失步告警,更换FE01板卡,在短暂的观察期内表现正常,但是几天之后又有GFP失步告警,由此可见未必跟板卡有关。偶然间在处理春城煤矿LMXE设备无任何告警情况下丢包,仔细检查发现西乌旗机房LMXE与华为6506R设备连接网线用的是三类线,更换之后ping无丢包。然后查出还有16个点也是三类线,均更换为五类线或者超五类线。更换之后长期观察再无发生GFP失步告警。原因分析:三类线会导致CRC错包和其他错包,进而引发FE01产生GFP失步告警,导致丢包。,案例十二,故障现象:SDH大网业务正确,MSAP网管无任何告警,但两站点业务就是不通。网络如下所示:处理过程:首先查看

34、MSAP设备和远端设备的无任何告警,设备运行正常;核对时隙是否与华为的对应有关系,一条一条时隙去检查,确认时隙对应正确;检查华为MSTP的以太网汇聚盘与路由器的的VLAN号是否对应,结果对应;远端LMN用的是监控代理能正常上报;最后检查了两个站点的光纤连接位置,发现是由于连接错误导致业务不通,将光纤倒换连接正确后,业务正常,ETH通道开通。原因分析:两个相同站点的不同光口光纤物理连接错误造成业务不通。,案例十三,故障现象:有调度中心“LMF1”光纤下挂的“FIT6”设备偶尔可以上报,监控得到,但大部分时间都监控不到,ETH业务和2M业务不通。网络如下所示:处理过程:调控中心“LMF1”对应“L

35、MF6”的光口的时隙有告警;环回调控中心“LMF1”对应“LMF6”的光口,调控中心收不到环;更换调度中心“LMF1”对应“LMF6”站光板,远端设备正常监控,告警消失,业务恢复。原因分析:调度中心“LMF1”光板故障。,案例十四,故障现象:整个通路无告警,连接都正常,其中有两个站点的ETH业务不通。网络如下所示:工行总行放的是工商银行MSAP的H9MO-LMXE设备,出一个千兆ETH口对接路由器,MSAP出一个622M光口对接82局MSAP设备,再连接到烽火传输网上,下联到各旗县的 接入机房,连接MSAP设备,在用一个155光口下联远端设备LMN或LMV。处理过程:检查设备都能正常上报,相关

36、通道无告警;检查时隙是否对应,结果正常;检查VLAN,在汇聚侧的VLAN设置与工行计划的VLAN号不对应,修改VLAN后,业务 正常开通。原因分析:VLAN设置不对应造成以太网业务不通。在以太网汇聚业务中,汇聚板卡VLAN 设置一 定要与中心路由器计划的VLAN号一致。,案例十五,故障现象:“XE1”8槽位OS01一光口的BER3和BER6灯闪亮,“XE2”的以太网业务丢包严重,甚至造成中断。网络如下所示:“XE1”的8槽位OS01一光口跟“XE2”连接,光缆距离为50-60KM之间处理过程:首先测量“XE2”发过来的光功率,测量值为-37dBm,OS01的接收灵敏度为-36dBm,所以光信号

37、衰减超过临界值是造成业务中断的最大原因;原因分析:光缆衰减过大造成BER3和BER6灯闪亮,会引起业务中断。,案例十六,故障现象:“XE2”的FE01的2端口和4端口业务丢包严重。网络如下所示:两个节点之间为622光连接处理过程:首先检查网线,为超五类线,再用笔记本测试排除了网线问题,同时排除了2端口所接的网络交换机以及4端口连接的光纤收发器的问题;升级FE01版本至V3.9,通过CS网管版本查询内部端口CRC错包计数,发现2端口和4端口的计数一直在增长;查FE01外端口设置为强制100M全双工,更改设置成自协商后,状态显示为100M、全双工后不再出CRC错包。原因分析:FE01外端口强制成1

38、00M、全双工,对接的其它厂家设备是自协商模式(目前发现有的宽带路由器及光纤收发器)时会产生CRC错包。,案例十七,故障现象:网管上发现“XE2”OX04第一光口(与“XE1”OX04第一光口连接)误码计数的B1、B2和B3一直在增长,存在影响业务的隐患。网络如下所示:网络为622M链网处理过程:跟用户协商后,进行中断测试。首先将“XE1”OX04第一光口的光模块换掉,恢复光连接,从网管观察,误码计数依旧在增长;换回原光模块,并将OX04换掉,再恢复光连接,从网管观察,误码计数不再增长;将换下来的OX04插到X2槽位,并将第一光口用尾纤自环,从网管观察,误码计数一直在增长;原因分析:OX04盘

39、本身故障导致光路误码。,案例十八,故障现象:LMN的FE口和3500的GE口均没有GFP失步告警,但业务不通。网络如下所示:处理过程:首先,查看告警,LMN的FE口和 3500GE口对应该点的VCTRUNK 的GFP失步告警都消失;然后查看端口模式,LCAS都是禁 止的,上下加扰也一致。检查华为3500的GE口与中心路由器的VLAN设置,设置对应正确;检查华为3500内部端口设置,为TRUNK模式,更改成ACCESS模式后业务开通。原因分析:华为的TRUNK模式对应我们的TAG模式,ACCESS模式对应我们的UNTAG模式。在开通以太网业务时,如果通道两端的FE或GE接口GFP失步告警消失,说

40、明通道正常,如果业务不通,首先排除通道问题,直接找以太口模式或VLAN设置的问题。,案例十九,故障现象:业务每天中断2到3次,每次业务中断重启设备业务立刻恢复。网络如下所示:处理过程:每天业务中断2到3次,且中断时间 不固定,怀疑可能是设备故障。更 换设备问题依然出现;业务中断时把60AF的V.35接口模式 由DCE E1线路钟改为DCE本振钟后 业务恢复。因为本次没有重启设备而是更改时钟模式,所以考虑故障是时钟原因 引起的,中心机房查看CPOS口模式,是slave(从钟)模式。通道两边都是设置的 跟随时钟,导致过一段时间时钟不同步,造成业务中断。把60AFW的V.35接口时 钟设置成DCE本

41、振钟,观察一周没有再出现业务中断的现象。原因分析:V35电路要示主从同步,案例中时钟是从从模式,无法同步,造成故障。V.35接口模式分三种:DCE E1线路钟、DCE本振钟、DTE模式。传输通道两端应该一端DCE本振钟,另一端设DCE E1线路钟。,案例二十,故障现象:C、D两站间的光缆断了,A、B、C、D、E五个站点的业务都正常,但F、G 站点的所有业务都不通。网络如下所示:处理过程:A为主站,其它站点的业务都是在 A站下 的,主业务方向为ABCDE顺 序,保护方 向为AEDCB。C、D之间光缆断,D、E、F、G的业务应该都倒到备用通道,备用通 道光缆 没问题,F、G不通,怀疑是业务倒换出现

42、问题。检查业务,F、G站的业务在环网上都是做的穿通,查看E站的SNCP业务状态,E站所穿通的F、G站业务没有倒换,还是工作在主用通道,而D、E站的业务则 工作在备用通道。手打强制把E站LMXE设备所带的F、G站业务倒换到备用通 道,F、G站的业务都通了。原因分析:在E站穿通的F、G站的业务是做的VC4级别的高阶交叉,而E站本身的业务以及 它所穿通的D站的业务都是做的低价交叉。E站的高价交叉倒换出现问题,而 低阶倒换则正常,所以导致C、D间断缆后,F、G站的业务无法倒换,而其他 站点则正常。,案例二十一,故障现象:整条电路全程没有异常告警但是ping包不通,用PC机arp a 能查询到 对端 的

43、MAC地址和IP但是ping包不通。网络如下所示:处理过程:电信网管看华为T2000网的传输设备业务 配置正确,华环LMA841业务设置正确;到华为T2000网管查询相关告警,未 看到 异常告警,与华环无锡工程师确认也无异 常告警;让无锡电信工程师进行逐段查询,核实从无锡到国干网下到北京本地 的业 务,ping包正常;通过华为T2000网管工具,测试整条电路以太网收发包正常,可以排除肯定 SDH业务部分的问题;更换华为EFT8A板端口,从VCG-4倒换到VCG-8,PING包正常。原因分析:华为EFT8A板第四个以太网端口故障。,案例二十二,故障现象:XE的FE01盘与LMA以太网开10M业务,业务配置、时隙绑定都正确,但LMA上GFP失步告警,业务不通。网络如下所示:处理过程:重新检查业务配置,时隙绑定 确认无误;检查LCAS,FE01的LCAS功能禁止,LMA的LCAS功能使能。禁止LMA的LCAS功能,GFP失步告警消失,业务开通。原因分析:支持LCAS功能的设备或者板卡只有LMA默认是使能状态,LMA此种状态在与对开板卡LCAS禁止状态下会导致LMA设备出现GFP失步告警。,Thank You,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号