《基站隐性故障排除指导书.doc》由会员分享,可在线阅读,更多相关《基站隐性故障排除指导书.doc(43页珍藏版)》请在三一办公上搜索。
1、 基站隐性故障排除目 录1基站隐性故障处理的一般方法及案例分析31.1发现问题的方法31.2基站故障的分类41.3基站隐性故障处理的一般方法51.3.1看基站当前的状态及告警51.3.2检查基站传输的状态141.3.3检查基站的数据定义191.3.4检查并分析ERROR LOG201.3.5对基站进行检查231.3.6使用仪表设备对基站进行检测412一点建议431 基站隐性故障处理的一般方法及案例分析所谓基站的隐性故障是指那些没有明显的告警但对基站的性能有影响的故障,或者是那些反复出现后又往往能自行消失的告警。这些告警的存在将使得系统的性能指标受到影响。由于这些问题的隐蔽性,往往无法直接发现它
2、们,因此我们需要借助其他方法才能发现这些潜在的故障。1.1 发现问题的方法话务统计话务统计提供了各种指标去衡量系统服务的好坏。基站的很多故障都会反映到话务统计的某项指标上来。常用的指标有信道完好率,掉话,切换,无线接入性等。如果基站存在问题,则有可能影响到其中一项或者几项指标。因此如果这些指标的变化,特别是在没做任何参数修改的情况下发生了变化,我们应该考虑基站硬件的因素。路测路测能够最直接的反映系统真实运行情况和最终用户的感知。因此对路测文件的分析也往往能帮助我们发现问题。BSC中基站的历史告警记录有些告警产生了之后能够自行恢复,因此当打印网络中现存的故障的时候不一定能发现这些故障。但是它们往
3、往会在BSC的历史告警记录中留下痕迹。通过分析这些记录,能够帮助发现一些基站潜在的问题。用户投诉用户的投诉可能会是由基站的硬件引起,如基站的发射功率不稳定导致用户手机信号不稳。对投诉信息加以提炼和分析,能帮助我们发现存在问题的区域。在下面的案例分析中我们可以看到这几种发现问题的方法的具体应用。1.2 基站故障的分类就基站的故障对系统指标的影响而言,我们可以将它们分为话务敏感型故障和非话务敏感型故障。象天馈线驻波比过高的告警,能够直接影响下行信号的输出强度,影响通话质量,属于话务敏感型故障。而象风扇告警这类故障,不会对话务产生直接的影响,属于非话务敏感型故障。但这类故障往往会间接的影响到系统的性
4、能,更具隐蔽性,所以同样不能忽视它们。从基站对信号的处理流程来看,我们又可以将基站的故障分为两大类。一类是对基带信号处理时产生的告警。另一类是发生在射频信号处理时的故障。基站中处理基带信号的硬件有DXU和TRU中的部分功能模块,DXU中包括CF,TF,IS,CON,DP等功能模块。TRU中处理基带信号的功能模块是TRXC。基站中对射频信号的处理主要是由TRU,CDU和天馈线来完成的。TRU内部是由TX和RX两个功能模块来完成对基带信号的调制和解调功能的。分清楚告警的类型有助于我们分析问题,不至于产生方向性的错误。1.3 基站隐性故障处理的一般方法当我们发现某个基站可能存在问题时,我们一般从以下
5、几个方面着手来处理。1.3.1 看基站当前的状态及告警常用的命令如下:RXTCP:MOTY=RXOTG,CELL=4001A;从小区名找到相连的TG号。RXCDP:MO=RXOTG-69;检查TG下面的MO的配置情况。RXMSP:MO=RXOCF-69;检查MO的状态。关于MO状态的含义见下面详细说明。RXASP:MO=RXOTG-69;检查TG下面的MO是否有告警。RXMFP:MO=RXOTRX-69-0;检查有故障的MO的告警代码。再根据告警代码查找相应解释。RLCRP:CELL=4001A;检查小区的资源使用情况。如是否有人占用小区,小区的时隙是否有 BLOCKED的,小区是否存在上行干
6、扰等。RLSLP:CELL=4001A;检查小区信道使用的情况。通过以上命令,我们可以大致知道一个基站当前的工作状态。关于MO状态的详细说明。熟练掌握这些MO状态的含义对我们分析网络中存在的隐性问题很有帮助。因为很多基站问题并没有明确的告警指示,而是通过MO状态的变化反映出问题的存在的。RXMSP:MO=RXOTRX-3-4;RADIO X-CEIVER ADMINISTRATIONMANAGED OBJECT STATUSMO STATE BLSTATE BLO BLA LMO BTS CONF RXOTRX-3-4 NOOP BLO 0040 000A RESGLOBLE STATEBTS
7、 STATEBLOCK REASONBLOCK STATEGLOBLE STATE:从BSC的角度来看的MO的状态。GLOBLE STATE有以下几种状态:DEF:MO在BSC中被定义。COM:MO已经和BSC建立起通讯。PREOP:这是MO由COM到OPER的一个过渡状态。OPER:MO处于正常工作状态。NOOP:MO暂时处于非工作状态。FAIL:MO永久性地处于非工作状态。BLOCK STATE:表明MO是由于何种原因处于BLOCK的状态的。BLOCK STATE有以下几种状态:MBL:人工将MO闭掉的。BLO:MO自动被闭掉的。如MO产生错误,或者OML LINK断了等等。BLA:由于需
8、要对MO进行操作而进入BLOCK的状态。BLL:MO在下载软件时的状态。BLT:MO由于测试而进入的BLOCK状态。BLOCK REASON:通过代码解释BLOCK的原因。值得注意的是LMO代码,其含义是指从TRAFFIC的角度来看,MO已经不能承载话务了,虽然从O&M的角度来这个MO还是工作正常的。常见的问题有TS SYNC FAULT。这时候用RXMSP查看该时隙的状态即可看到为LMO2000。BTS STATE:MO的状态。可分为四类:RES MO出于RESET状态STA MO出于STARTED状态DIS MO出于DISABLED的状态ENA MO处于ENABLED的状态在RBS2000
9、系统中这四种状态对应于不同类别的MO其含义是不一样的。总结起来有如下规律:对于SO CF和TRXC:RESET意味着该MO在重新启动,其应用软件还在运行但功能受到了限制,没有告警监测,也无法和相应的AO保持联系,RSL(Radio Signaling Link)中断。MO的这种状态往往在硬件上代表着DXU或TRU发生了重启。STARTED则表明MO的应用软件在运行而且各种功能均已启动,OML和RSL能建立通讯。基站正常工作时CF和TRXC一定处于START的状态。对于AO TF,TX,RX和TS:RESET表明该AO重启,和其相应的SO的联系中断。DISABLED的状态表明该AO已和相应的SO
10、取得联系,告警监测功能已激活,但还不能承载业务。例如TX处于DISABLED状态则表明该TRU的发射机处于关闭状态,在TRU的面板上可看到TX NOT ENABLED的指示灯亮。ENABLED的状态表明该AO已和相应的SO取得联系,告警监测功能已激活,并且已经能够承载业务了。例如对TF而言,ENABLED状态则表明TF可以发布同步信息。基站正常工作时,TF,TX,RX和TS都应该处于ENABLED的状态。对于AO IS,CON:RESET表明该AO重启,和其相应的SO的联系中断。DISABLED表明AO处于可以处理业务,同时也可以对其进行配置的状态。ENABLED表明AO可以处理业务,但不能被
11、配置。注意:基站正常工作时,通常是将IS和CON置于DISABLED状态。对于AO DP:RESET表明该AO重启,和其相应的SO的联系中断。DISABLED表明AO对PCM进行监测的功能没有被激活。ENABLED表明AO对PCM进行监测的功能已被激活。案例分析:由载频引起的上行干扰。故障现象:用户投诉在4001A小区所覆盖的区域内存在打电话困难的现象。故障分析:用RXCDP查看小区各MO配置正常。RXCDP:MO=RXOTG-109;RADIO X-CEIVER ADMINISTRATIONMANAGED OBJECT CONFIGURATION DATAMO RESULT ARFCN MI
12、SMATCHRXORX-109-0 CONFIG HOP NONERXORX-109-1 CONFIG HOP NONERXORX-109-2 CONFIG HOP NONERXORX-109-3 CONFIG HOP NONERXORX-109-4 CONFIG HOP NONERXORX-109-5 CONFIG HOP NONEMO RESULT ARFCN TXAD TN BPC CHCOMB OFFS XRA ICMRXOTS-109-0-5 CONFIG HOP HOP 1 2398 TCH 0 NO ONRXOTS-109-0-6 CONFIG HOP HOP 0 2395 TC
13、H 0 NO ONRXOTS-109-0-7 CONFIG HOP HOP 2 2290 TCH 0 NO ONRXOTS-109-1-0 CONFIG HOP HOP 7 2423 TCH 0 NO ONRXOTS-109-1-1 CONFIG HOP HOP 6 2419 TCH 0 NO ONRXOTS-109-1-2 CONFIG HOP HOP 5 2415 TCH 0 NO ONRXOTS-109-1-3 CONFIG HOP HOP 4 2411 TCH 0 NO ONRXOTS-109-1-4 CONFIG HOP HOP 3 2407 TCH 0 NO ONRXOTS-109
14、-1-5 CONFIG HOP HOP 1 2399 TCH 0 NO ONRXOTS-109-1-6 CONFIG HOP HOP 0 2396 TCH 0 NO ONRXOTS-109-1-7 CONFIG HOP HOP 2 2291 TCH 0 NO ONRXOTS-109-2-0 CONFIG HOP HOP 2 2405 SDCCH8 0 NO ONRXOTS-109-2-1 CONFIG HOP HOP 7 2424 TCH 0 NO ONRXOTS-109-2-2 CONFIG HOP HOP 6 2420 TCH 0 NO ONRXOTS-109-2-3 CONFIG HOP
15、 HOP 5 2416 TCH 0 NO ONRXOTS-109-2-4 CONFIG HOP HOP 4 2412 TCH 0 NO ONRXOTS-109-2-5 CONFIG HOP HOP 3 2408 TCH 0 NO ONRXOTS-109-2-6 CONFIG HOP HOP 1 2400 TCH 0 NO ONMO RESULT ARFCN TXAD BSPWR C0F MISMATCHRXOTX-109-0 CONFIG 22 0 41 YES NONERXOTX-109-1 CONFIG 2 1 41 NO NONERXOTX-109-2 CONFIG 69 2 41 NO
16、 NONERXOTX-109-3 CONFIG 81 3 41 NO NONERXOTX-109-4 CONFIG 1000 4 41 NO NONERXOTX-109-5 CONFIG 1018 5 41 NO NONEEND但用RLCRP查看发现4001A小区上总有部分时隙受到干扰。RLCRP:CELL=4001a;CELL RESOURCESCELL BCCH CBCH SDCCH NOOFTCHZHEWJA1 1 0 32 43- 86CHGR BPC CHANNEL CHRATE SPV STATE ICMBAND CHBAND 64K 0 2425 TCH-4742 FR 1,2
17、IDLE 1 P900 NONE TCH-17729 HR 1 IDLE 1 P900 TCH-17728 HR 1 IDLE 1 P900 2424 TCH-4741 FR 1,2 IDLE 1 P900 NONE TCH-17727 HR 1 IDLE 1 P900 TCH-17726 HR 1 IDLE 1 P900 2423 TCH-4740 FR 1,2 IDLE 4 P900 NONE TCH-17725 HR 1 IDLE 4 P900 TCH-17724 HR 1 IDLE 4 P900 2422 TCH-4739 FR 1,2 IDLE 1 P900 NONE TCH-177
18、23 HR 1 IDLE 1 P900 TCH-17722 HR 1 IDLE 1 P900 . 2396 TCH-4717 FR 1,2 IDLE 4 P900 NONE TCH-17679 HR 1 IDLE 4 P900 TCH-17678 HR 1 IDLE 4 P900 . 2399 TCH-4720 FR 1,2 IDLE 4 P900 NONE TCH-17685 HR 1 IDLE 4 P900 TCH-17684 HR 1 IDLE 4 P900 2400 TCH-4721 FR 1,2 IDLE 1 P900 NONE TCH-17687 HR 1 IDLE 1 P900
19、TCH-17686 HR 1 IDLE 1 P900 2406 TCH-4723 FR 1,2 BUSY 1 P900 NONE TCH-17691 HR 1 LOCK 1 P900 TCH-17690 HR 1 LOCK 1 P900 2407 TCH-4724 FR 1,2 IDLE 4 P900 NONE TCH-17693 HR 1 IDLE 4 P900 TCH-17692 HR 1 IDLE 4 P900 2408 TCH-4725 FR 1,2 IDLE 1 P900 NONE TCH-17695 HR 1 IDLE 1 P900 TCH-17694 HR 1 IDLE 1 P9
20、00END不难发现,受干扰的时隙都集中对应为同一个TRX所控制的时隙。具体方法如下:1 RLCRP的打印列表中BPC为2423的时隙的ICM=4。2 在RXCDP的打印列表中BPC为2423所对应的时隙为:RXOTS-109-1-0。3 用类似的方法将所有的受干扰的时隙找出来,可以发现它们都是TRX-109-1所控制的时隙。RLCRP:CELL=4001a;CELL RESOURCESCELL BCCH CBCH SDCCH NOOFTCHZHEWJA1 1 0 32 43- 86CHGR BPC CHANNEL CHRATE SPV STATE ICMBAND CHBAND 64K. 1 2
21、770 TCH-1452 FR 1,2 IDLE 4 E900 NONE TCH-11673 HR 1 IDLE 4 E900 TCH-11672 HR 1 IDLE 4 E900 2773 TCH-1453 FR 1,2 IDLE 5 E900 NONE TCH-11675 HR 1 IDLE 5 E900 TCH-11674 HR 1 IDLE 5 E900 2776 TCH-1479 FR 1,2 IDLE 4 E900 NONE TCH-11679 HR 1 IDLE 4 E900 TCH-11678 HR 1 IDLE 4 E900 2774 TCH-1478 FR 1,2 IDLE
22、 4 E900 NONE TCH-11677 HR 1 IDLE 4 E900 TCH-11676 HR 1 IDLE 4 E900 2779 TCH-1480 FR 1,2 IDLE 4 E900 NONE TCH-11681 HR 1 IDLE 4 E900 TCH-11680 HR 1 IDLE 4 E900 2780 TCH-1481 FR 1,2 IDLE 4 E900 NONE TCH-11683 HR 1 IDLE 3 E900 TCH-11682 HR 1 IDLE 4 E900 2782 TCH-1482 FR 1,2 IDLE 4 E900 NONE TCH-11685 H
23、R 1 IDLE 3 E900 TCH-11684 HR 1 IDLE 4 E900 2783 TCH-1483 FR 1,2 IDLE 4 E900 NONE TCH-11687 HR 1 IDLE 4 E900 TCH-11686 HR 1 IDLE 4 E900END将跳频关掉,情况更明显。所有受干扰的时隙仍然都集中在TRU1上。RXCDP:MO=RXOTG-109;RADIO X-CEIVER ADMINISTRATIONMANAGED OBJECT CONFIGURATION DATAMO RESULT ARFCN MISMATCHRXORX-109-0 CONFIG HOP NON
24、ERXORX-109-1 CONFIG HOP NONERXORX-109-2 CONFIG HOP NONERXORX-109-3 CONFIG HOP NONERXORX-109-4 CONFIG HOP NONERXORX-109-5 CONFIG HOP NONEMO RESULT ARFCN TXAD TN BPC CHCOMB OFFS XRA ICMRXOTS-109-0-0 CONFIG 1018 4 7 2861 TCH 0 NO ONRXOTS-109-0-1 CONFIG 1018 4 6 2860 TCH 0 NO ONRXOTS-109-0-2 CONFIG 1018
25、 4 5 2859 TCH 0 NO ONRXOTS-109-0-3 CONFIG 1018 4 4 2858 TCH 0 NO ONRXOTS-109-0-4 CONFIG 1018 4 3 2857 TCH 0 NO ONRXOTS-109-0-5 CONFIG 1018 4 2 2856 TCH 0 NO ONRXOTS-109-0-6 CONFIG 1018 4 1 2854 TCH 0 NO ONRXOTS-109-0-7 CONFIG 1018 4 0 2853 TCH 0 NO ONRXOTS-109-1-0 CONFIG 1000 5 7 2783 TCH 0 NO ONRXO
26、TS-109-1-1 CONFIG 1000 5 6 2782 TCH 0 NO ONRXOTS-109-1-2 CONFIG 1000 5 5 2780 TCH 0 NO ONRXOTS-109-1-3 CONFIG 1000 5 4 2779 TCH 0 NO ONRXOTS-109-1-4 CONFIG 1000 5 3 2776 TCH 0 NO ONRXOTS-109-1-5 CONFIG 1000 5 2 2774 TCH 0 NO ONRXOTS-109-1-6 CONFIG 1000 5 1 2773 TCH 0 NO ONRXOTS-109-1-7 CONFIG 1000 5
27、 0 2770 TCH 0 NO ONEND该载频使用的是1000号频点,用FAS查看,其受干扰的情况和其它频点差不多。不应该单单这个频点产生这么高的上行干扰。但为了保险起见,还是通过FAS选择了一个更好的频点1021号频点。但发现该载频上的干扰仍然很强。于是将该载频所对应的时隙全部闭掉。RXBLI:MO=RXOTS-109-1-0&-7,FORCE;此时用RLCRP观察,发现干扰基本消失了。再将闭掉的时隙解闭,发现干扰又重新出现,而且都集中在该载频上。于是确认是由于载频内部电路发生故障而引起的上行干扰。如果用户的手机被分配使用该载频所对应的时隙则肯定会受到影响。1.3.2 检查基站传输的状态
28、传输作为基础性建设,对基站的正常工作起着重要的作用。很多问题看似离奇,其实就是由传输引起。因此我们对传输问题应该予以重视。用以下命令可以检查基站的传输是否工作正常。RXAPP:MO=RXOTG-69;打印TG使用的传输设备号。RADEP:DEV=RBLT-819;从传输设备号得到其所属的DIP号。DTSTP:DIP=RBLT25;打印DIP的工作状态。DTQUP:DIP=RBLT25;打印DIP的传输质量。关于此命令参数的解释如下:DTQUP:DIP=RBLT12; DIGITAL PATH QUALITYINCOMING AND OUTGOING DIRECTIONDIP T1 T2 SLI
29、P SLIP2 UAS UASR UAV1 UASB1 UAV2 UASB2RBLT12 3 10 0 269 0 0 0 0 0 0SECTION ESV SESV DMV ESVR SESVR DMVR SFV SFTI 0 0 0 0 269 24SECTION ES2V SES2V DM2V ES2VR SES2VR DM2VR SMI 36 0 0 0 0END各参数的含义:T1:传输性能劣化到不可接受的程度(Unacceptable level)的时间一直到目前为止的时间间隔。以分钟为单位。T2:传输性能发生劣化(Degrade performance level)的时间一直到目前
30、为止的时间间隔。以小时为单位。SLIP:在T1时间间隔内发生的滑码的个数。所谓滑码指的是在2M的PCM码流中任何一帧(256bits)出现丢失或重复,即产生一次滑码。SLIP2:在T2时间间隔内发生滑码的数目。UAS:在接收方向上,T1时间间隔内发生不可用秒的数目。所谓不可用秒是指在任何一秒的时间间隔内出现业务中断的问题,该秒即被记为不可用秒。UASR:在发送方向上,T1时间间隔内发生不可用秒的数目。UAV1:在收发两个方向上,T1时间间隔内发生不可用事件的数目。不可用事件包括几次或者连续的不可用的状态。UAV2:在收发两个方向上,T2时间间隔内发生不可用事件的数目。不可用事件包括几次或者连续
31、的不可用的状态。UASB1:在收发两个方向上,T1时间间隔内发生不可用秒的数目。UASB2:在收发两个方向上,T2时间间隔内发生不可用秒的数目。ESV:在接收方向上,T1时间间隔内发生误码秒的数目。所谓误码秒指的是在一秒中内发生了任何一件下列事情:至少一帧出现误码,帧失步,LOS,SLIP,AIS,收到远端传过来的A_BIT为1。ESVR:在发射方向上,T1时间间隔内发生误码秒的数目。ES2V:在接收方向上,T2时间间隔内发生误码秒的数目。ES2VR:在发射方向上,T2时间间隔内发生误码秒的数目。SESV:在接收方向上,T1时间间隔内发生严重误码秒的数目。所谓严重误码指的是在一秒内发生了至少一
32、次下面的事件:至少N4帧出现误码,帧失步,LOS,SLIP,AIS,收到远端传过来的A_BIT为1。N4缺省值为28。SESVR:在发射方向上,T1时间间隔内发生严重误码秒的数目。SES2V:在接收方向上,T2时间间隔内发生严重误码秒的数目。SES2VR:在发射方向上,T2时间间隔内发生严重误码秒的数目。DMV:在接收方向上,T1时间间隔内发生性能下降分钟(Degraded minutes)的数目。所谓性能下降分钟指的是在一分钟内至少发生了下面一件事:丢失了二个帧同步字。DMVR: 在发射方向上,T1时间间隔内发生性能下降分钟(Degraded minutes)的数目。DM2V:在接收方向上,
33、T2时间间隔内发生性能下降分钟(Degraded minutes)的数目。DM2VR:在发射方向上,T2时间间隔内发生性能下降分钟(Degraded minutes)的数目。SFV:在SFTI时间段内积累的滑帧的数目。所谓滑帧指的是帧同步的丢失。SFTI:定义监测滑帧的时间间隔,一般设为24小时。SMI:在T2的时间段内怀疑有问题的T1的时间段的数目。需注意的一点是用DTQUP命令来监测传输质量的传输段的有效范围是从BSC到传输网这一段传输,从传输网的另一侧到基站或基站之间的级连传输则无法被监测。为了能使这一段传输质量也可以被检测到,需要引入MO DIP的概念,这在后面的专题“关于使用MO D
34、P对级连传输进行监控的原理与实现”有详细描述。总之,传输质量的好坏能直接影响基站的同步性能,Abis接口上的信令和数据。对网络的稳定,通话质量以及掉话等都会产生重要影响。案例分析:由传输质量差引起来的通话过程中出现单通现象故障现象:10月20日在君悦来站A小区覆盖的范围内几乎同一时刻有三个通话发生单通的现象,最后都引起掉话。但单通时通话的具体方向又各有不同。有些为上行方向出现问题,有些为下行方向出现问题。故障分析:用DTQUP命令读取传输质量的监测数据。发现传输存在滑码和误码。DTQUP:DIP=RBLT11;DIGITAL PATH QUALITYINCOMING AND OUTGOING DIRECTIONDIP T1 T2 SLIP SLIP2 UAS UASR UAV1 UASB1 UAV2 UASB2RBLT11 9 16 0 12 0 0 0 0 1 37SECTION ESV SESV DMV ESVR SESVR DMVR SFV SFTI 0 0 0 0 12 24SECTION ES2V SES2V DM2V ES2VR SES2VR DM2VR SMI 6 5 10 10 57END再读取DXU和TRU的LOG文件,发现在产生单通现象时有传输出现问题的记录。并且LAPD信令链路出现中断。03-10-20 14:57:05.902 RTS_TF