《UNTS维护部HSDPA速率问题定位指导书初级篇.doc》由会员分享,可在线阅读,更多相关《UNTS维护部HSDPA速率问题定位指导书初级篇.doc(19页珍藏版)》请在三一办公上搜索。
1、文档类别密级系统问题定位指导书内部公开所属部门共19页UMTS维护部UMTS维护部HSDPA速率问题定位指导书初级篇 V0.20拟制系统问题组日期2008-7-22评审人日期yyyy-mm-dd批准日期yyyy-mm-dd签发日期yyyy-mm-ddHUAWEI TECHNOLOGIES CO., LTD. 华为技术有限公司All rights reserved版权所有 侵权必究修订记录日期修订版本CR号修改章节修改描述作者2008-06-150.18初稿完成王昆仑2008-07-220.20根据评审意见修改完成目 录第1章 概述51.1 当前状况51.2 本文目的5第2章 问题分析指导62.
2、1 速率问题分析思路62.1.1 明确问题现象62.1.2 判断问题发生的大致原因62.1.3 根据原因做针对性测试72.2 问题处理流程72.3 速率问题现象的获取方法72.3.1 测试人员描述72.3.2 Dumeter截图82.3.3 RNC CDT L2统计92.4 判断问题发生的大致原因102.4.1 判断是否IU接口以上问题102.4.2 判断问题是否和RNC功能相关112.4.3 判断是否IUB接口以下问题122.4.4 判断是空口还是IUB接口原因132.5 根据原因做针对性的检查152.5.1 IU接口以上问题的参数检查152.5.2 RNC问题的参数检查152.5.3 IU
3、B接口问题的参数检查152.5.4 UU接口问题的参数检查17第3章 补充183.1 关于本文183.2 信息反馈18表目录表2-1 NodeB支持的流控算法列表14图目录图2-1 HSDPA速率问题处理流程7图2-2 Dumeter选项设定示意图8图2-3 Dumeter截图效果示意9图2-4 CDT L2统计跟踪配置9图2-5 L2统计中的速率情况查看(土耳其)10图2-6 RLC BO满情况的曲线(VDF测试)10图2-7 RLC BO不足情况的曲线(新加坡M1)11图2-8 UE引发的速率低(Korea)12图2-9 IUB丢包引发的速率波动(香港)12图2-10 IUB带宽配置引发的
4、速率波动(LA)12图2-11 IUB重传指标配置13图2-12 重传率14图2-13 HSDPA监控的启动位置16图2-14 HSDPA监控的形式16第1章 概述1.1 当前状况随着WCDMA演进到HSPA阶段,HSDPA业务已经象语音业务一样,成为无线的基本业务之一。不论是各个试验局进行的比拼测试、准入测试,还是商用局进行的各种展示、版本升级、业务验证,HSDPA速率测试都已经成为最基本的测试项之一。对于语音业务,其端到端涉及的所有设备,从主叫UE开始、经过BTS、BSC、一直到被叫UE,都属于电信网络中的标准设备,QoS相对有保证,而且语音业务的速率也比较低,对资源要求比较少,出问题的可
5、能性也比较少。而HSDPA业务端到端所涉及的设备相对要多一些,在终端侧要从数据卡延伸到便携机,在网络侧从GGSN出去要到服务器,这中间大多数情况还要经过公网。便携机、服务器都属于民用设备,QoS基本上是没有保障的,尤其是便携机,安装了各种软件后性能更是很难控制,而且目前HSDPA主流速率已经到了7.2M,即便是无线网络中的很多设备、包括终端也都没做好承载这样高的速率的准备,因此很容易出现HSDPA速率问题。HSDPA速率即将进入14.4M商用时代,面临的商用局、试验局也会越来越多,速率问题在短期内还将是困扰我们的主流问题。不过随着设备的成熟、测试人员技能的提升、客户对速率问题理解的加深,虽然速
6、率问题依旧将频繁出现,但用服、网规和测试部都将成长起来,承担起问题的分析和解决,那时,速率问题将不再成为困扰维护部的重点。1.2 本文目的速率问题是一个端到端的问题,从便携机开始,经过UE、空口、NodeB、Iub口、RNC、Iu接口、SGSN、Gn口、GGSN、Gi口、传输网络、服务器。这些设备中任何一个出现问题或者性能达不到要求,都会表现为PS速率不稳或者速率低。本文总结了常用的问题隔离手段,希望在仅仅利用LMT进行log抓取的条件下,通过一些简单的数据分析和针对性测试,达到缩小定位范围的目的,使得一线人员可以更快的找到可能引发问题的位置,从而更有针对性的进行排查,提高定位效率。第2章 问
7、题分析指导2.1 速率问题分析思路速率问题主要有两种:速率低和速率波动。不管是哪种情况,问题分析的思路都是一样的,大致思路如下:1) 明确问题现象。2) 通过RNC CDT,判断引发问题的位置。3) 根据前面的判断结果做针对性测试确认大致原因。在确认了问题发生的大致原因后,就是针对性的进行具体的分析和定位了,这部分内容涉及更多的分析工具,不放在本指导书的描述范围内。2.1.1 明确问题现象每个具体的速率问题,都有其独特的特点,在速率异常上也往往表现出一定的规律性,当然,很多时候这种规律性并不是那么容易就能观测到的。处理速率问题的第一步,就是要对速率问题的表现进行观察,在明确问题现象的同时,尽可
8、能找出里面隐藏的规律。比如:同样是平均速率低的问题,可能是每次速率升高到一定程度就稳定在这个值,或者是速率先冲高、后回落到某个稳定的值,这种区别就是处理一个问题最先要搞清楚的。这一步所需花费的时间并不多,但非常重要,因为当速率出现异常时,很多指标都会表现出异常,这些异常哪些是因、哪些是果,哪些是主要的,哪些暂时不用关注,都需要依靠问题的现象和规律来辅助判断。明确问题现象和规律主要依靠应用层速率截图(DuMeter截图)、测试人员的描述、CDT中的L2统计等。2.1.2 判断问题发生的大致原因RNC CDT是最重要数据,从RAN的角度讲,定位第一步要进行的判断是:速率问题主要是受哪个环节的影响导
9、致的?是UE、空口、NodeB,还是Iub口、RNC、或者RNC以上。RNC的CDT中可以跟踪到丰富的L2信息,这些信息可以让我们初步判断出引发速率问题的大致原因。2.1.3 根据原因做针对性测试在大致得出了问题出在哪个网元之后,下一步要做的是通过修改参数、测试手段等来验证得出的结论是否正确。从PS速率问题的处理经验看,现场测试人员在问题定位过程中实际上是能起到很大作用的,但在问题初期,由于涉及的网元太多,他们往往无从下手,而当问题的范围缩小到某个网元、并提供了一些调整、测试手段后,现场就可以尝试更多的测试并提供更多的线索,甚至直接找到问题的根因。2.2 问题处理流程HSDPA速率问题建议一线
10、进行的处理流程如下:图2-1 HSDPA速率问题处理流程2.3 速率问题现象的获取方法获取问题现象的方法包括:1)测试人员描述。2)Dumeter截图。3)RNC CDT L2统计。2.3.1 测试人员描述现场测试人员的描述一般都是最早能获取到的信息,对于一些有经验的测试人员,反馈问题时会从测试背景、目的、一直到问题的现象、已经进行的处理以及现场的怀疑方向等等都描述清楚,而对于没有相关经验的一线人员,反馈信息则会显得比较凌乱,在这种情况下,则需要问题处理的责任人主动对测试人员进行引导,从而获得更全面的信息。一般来说,希望测试人员反馈的信息包括:1)测试环境信息、2)测试版本信息、3)测试目标、
11、4)问题的现象(与目标之间的差距)、5)现场已经进行的分析和对比测试、6)现场的怀疑方向。由于一线测试人员往往要面临很大的压力,这些口头的描述只作为判断问题现象的参考,以避免主观因素影响描述引起偏差。2.3.2 Dumeter截图1 参数设定 图2-2 Dumeter选项设定示意图在Dumeter的菜单中选择Options,在弹出的General页面,确保Display Units的选择在Kilobits per Second(kbps)上。2 启动跟踪在进行速率跟踪时,要同时选择New Stopwatch选项,在下载开始后,点击Start启动平均速率统计,跟踪时间要足够长,(建议为3分钟),
12、反馈的速率截图类似下面的样子:图2-3 Dumeter截图效果示意从Dumeter的截图上,可以了解到平均速率、最大速率以及速率波动情况以及波动的规律等等。2.3.3 RNC CDT L2统计1 跟踪设定RNC的CDT在RNC LMT上启动,建议的参数配置如下:图2-4 CDT L2统计跟踪配置确保速率异常的现象已经出现,并保持1分钟后,停止CDT跟踪。2 速率查看L2统计反映出的是RNC L2真实的发包情况,其中直观反映速率变动情况的统计值是RB.ulDlPduNum(L2下行发送的PDU数目),另外RB.usDlRetranRate(L2下行重传率),RB.ulDlNasPktThroug
13、hput(L2下行收到的数据的吞吐率)这两个指标同时也可以作为参考。图2-5 L2统计中的速率情况查看(土耳其)这个速率变化情况和其他资源变化趋势之间的关系,是后续进行问题隔离判断的基础。2.4 判断问题发生的大致原因造成速率异常的原因是很多的,可能同时存在多种原因都会导致速率异常,在分析时要从源头开始分析,抓主要矛盾,一步一步的解决问题。对于下行速率分析来说,先从判断是否IU接口以上的问题开始,依次判断是否是RNC的问题,是否是Iub口问题,是否是空口问题。下面的判断都基于UMAT的“HSDPA吞吐率分析曲线”进行,打开CDT后,在工具条上直接点击图标即可。2.4.1 判断是否IU接口以上问
14、题当IU接口以上出现问题,或者应用层(如TCP层)出现问题时,在RNC看到的表现是类似的,就是IU接口发到RNC的数据量不足。对RNC来说,IU接口下发的数据就是吞吐率的源泉,当数据源泉无法保证时,速率自然不会理想。通过CDT中记录的RLC BO变化情况,可以判断IU接口下发的数据是否充足,下面是一次吞吐率测试的例子:图2-6 RLC BO满情况的曲线(VDF测试)图中的绿色曲线,就是RLC BO情况,它反应的是下行数据在RNC Buffer中积累的情况,从保证速率源的角度讲,RLC BO关键是有还是无(0或者非0),如果RLC BO一直为非0值,也就意味者RNC一直有数据可以发送,此时RLC
15、 BO值是多大,1M or 2M,反而不重要了(RLC BO曲线和其他曲线之间的相对关系是没有意义的)。下面是一个RLC BO异常情况的曲线:图2-7 RLC BO不足情况的曲线(新加坡M1)在这张曲线图中,开始的五分之四部分,RLC BO(绿色曲线),基本都是0,这说明在这期间速率低的原因在于IU接口下行速率不足。(最后的五分之一部分,RLC BO有了明显的增加,这时速率异常则有其他原因,可以参见后面介绍的手段分析)。2.4.2 判断问题是否和RNC功能相关这里所说和RNC相关,不是指RNC有BUG,而是指RNC在下发数据时的某些限制或者功能导致速率出现异常,或者RNC L2和UE L2这两
16、个对等实体之间的交互动作导致RNC主动降低发送速率,从而引起速率的异常。这种速率异常在数据上的表现是:1)RLC BO有数据、2)RB下发速率低于NodeB分配的HSDPA带宽且两者之间感觉不到任何关联。下面是一个由于UE驱动性能不足,导致UE L2主动通知RNC减小接收窗口,从而影响到RNC下发速率而导致的速率异常:图2-8 UE引发的速率低(Korea)图中绿色为RLC BO,红色为RNC下发数据信息,蓝色为HSDPA带宽分配情况。从这个图中可以看出,RLC BO(绿色)一直很满,HSDPA带宽分配(蓝色)也很充足,而RNC下发的速率(红色)一直维持在一个很低的位置上。2.4.3 判断是否
17、IUB接口以下问题IUB接口的问题、NodeB的问题、UU接口问题,在RNC看来都是差不多的,RNC能看到的就是NodeB的HSDPA带宽分配结果是否正常,而对于是什么原因引起HSDPA带宽分配异常,单纯从CDT是看不出来的。(后面也会提供一些简单的测试手段判断是IUB口异常还是空口异常)。IUB接口一下问题的判定原则是:RNC下发速率和HSDPA带宽分配的波动情况吻合。下面是一个Iub丢包引发的速率波动情况:图2-9 IUB丢包引发的速率波动(香港)从图中可以看出,HSDPA带宽分配(蓝色)一直呈现周期性波动,而RNC下发的速率(红色)也一直呈现类似带宽分配的波动情况。这说明当前速率波动,根
18、本原因在于NodeB分配的HSDPA带宽一直在波动。下面则是一个由于NodeB HSDPA Path的SCR配置不足引起的速率低的情况:图2-10 IUB带宽配置引发的速率波动(LA)在这个例子中,HSDPA带宽分配结果一直维持在4M左右(不考虑中间的几次波动),RNC下发的速率和HSDPA带宽分配结果基本一致。象这种比较稳定的维持在某一个固定值以下,往往都是配置上的资源受限导致的。2.4.4 判断是空口还是IUB接口原因在明确是IUB口以下的问题后,再深入分析,就是要搞清楚,为什么HSDPA带宽分配结果会出现异常,由于带宽是NodeB分配的,定位这类问题单纯依靠RNC的跟踪是很难搞定的,往往
19、需要附加其他的log信息,如NodeB调试台的增强性能跟踪、QXDM或者Probe跟踪等,而这类跟踪对于一线的兄弟来说往往并不容易操作,所以本文介绍几种比较简单易行的判别手段,仍然基于LMT,大致区分是UU接口问题、IUB接口配置问题、还是IUB传输问题。(这里只能进行大致的判断,深入的分析还是要依赖更多的LOG信息,这部分内容放在中级篇中描述)。1 L2重传情况L2重传情况是判断IUB以下问题的第一个辅助指标,由于IUB口丢包必然引发RLC的重传,所以判断IUB传输是否丢包第一个要看的就是RLC重传情况。查看重传情况的方法如下:在吞吐率分析图上右键,选择图例,勾中“下行RLC重传率”这个指标
20、:图2-11 IUB重传指标配置点击OK后,即可查看下行重传率的变化情况。下面是重传率的一个例子:图2-12 重传率重传率低于1%一般认为是可以接收的,此时重传率曲线基本是同座标轴重合的,象上图中的重传率经常到达30%的情况,已经是非常不正常了。判断是否存在IUB传输问题时,第一个要看的就是L2重传率,重传率为0可以说明Iub口肯定没有丢包,重传率高则说明IUB口可能丢包了,也可能是空口丢包了(当然,空口丢包导致重传率高的情况是比较罕见的)。2 IUB流控方式另外一个区分Iub问题还是空口问题的重要手段就是通过更改NodeB上配置的流控算法开关(命令:SET HSDPAFLOWCTRLPARA
21、,参数:SWITCH),在不同的流控算法作用下,查看NodeB分配的HSDPA带宽变化情况。目前NodeB支持三种不同的流控算法:表2-1 NodeB支持的流控算法列表序号中文名称英文名称特点1自适应流控AUTO_ADJUST_FLOW_CTRL考虑IUB丢包率和时延、考虑IUB可用带宽考虑空口情况2简单流控SIMPLE_FLOW_CTRL考虑IUB可用带宽考虑空口情况3无流控NO_FLOW_CTRL考虑空口情况由于这三种流控算法在带宽分配时,考虑的因素具有阶梯性特点,通过对比不同流控方式下HSDPA分配带宽的差异,可以判断带宽分配的变化最有可能是由哪个因素引发的,从而进一步区别问题发生的位置
22、。3 判断原则如果L2重传率高,则继续比较自适应流控和简单流控下的HSDPA带宽分配结果:l 如果自适应流控和简单流控的HSDPA带宽分配结果存在很大不同,说明重传的原因是由于IUB口存在丢包。l 如果自适应流控和简单流控的HSDPA带宽分配结果一致,说明重传的原因最有可能在UU口。如果L2重传率低,则继续将三种流控方式下HSDPA带宽分配结果放在一起对比:l 如果三种流控方式下HSDPA带宽分配结果差不多(均存在异常),说明当前问题主要出在空口上。l 如果无流控下HSDPA带宽分配结果比较好,剩下两个异常,说明当前问题主要出在IUB口传输的配置上。l 如果只有自适应流控下HSDPA带宽分配结
23、果异常,可能的原因是由于IUB口存在FP包乱序导致NodeB误判或者时延抖动比较大触发了自适应流控的带宽调整。这里要留意的是,对比带宽分配结果时,务必保证每次测试都按照前面介绍的分析过程从头开始判断,要确认每次测试都是由于IUB接口以下原因导致速率异常或者测试结果已经正常了,再进行本节介绍的对比过程,来确保对比的有效性。2.5 根据原因做针对性的检查在初步对问题可能存在的位置进行判断后,可以通过有针对性的检查、修改相关参数,来尝试解决问题。2.5.1 IU接口以上问题的参数检查应用层数据量不足,最常用的手段就是采用多线程(10个线程)来规避,但实际应用中可能由于服务器侧的线程数的限制,导致虽然
24、设置了多个线程下载,但实际上只有一两个线程真正在下载,所以在实际测试中,要注意观察下载软件是否的确是在使用多个线程下载。如果多线程测试结果还是数据量不足,则可以采用从服务器向UE灌包来检查速率不足的原因。如果灌包时,RLC BO中的数据依然不足,那说明从IU接口到服务器之间存在一个瓶颈,后续从SGSN、GGSN、各个交换机配置、直到服务器,一路查过去,看到底哪里的配置限制了速率。如果灌包后RLC BO数据充足了,说明速率不足应该是应用层的原因导致的,问题可能出在服务器,或者IU口以上存在丢包,或者空口存在上行误块,可以采取的措施一般是改从多个FTP服务器进行多线程下载、修改便携的TCP参数来规
25、避服务器以及丢包造成的影响,以及提高上行SirTarget减少上行误块。根因则需要进行更深入的分析以及对比测试,这部分不在本文的范围内。2.5.2 RNC问题的参数检查针对本文所涉及的定位手段而言,如果判断速率是RNC原因,只能检查一下HSDPA Path的SCR是否太小了,或者RNC的反压算法是否生效了。L2行为异常分析不在初级篇范围内。如果发生这种情况,请一线尽快按照UMTS维护部HSDPA速率问题信息采集指导书的要求,将所需信息反馈给维护部进行处理。2.5.3 IUB接口问题的参数检查IUB接口检查主要有两点:1)HSDPA Path配置的RCR是否正确。2)IUB传输中所涉及的设备配置
26、是否正确。如果NodeB的软件是V18版本,也可以在下载时通过NodeB LMT的“HSDPA MONITOR”来观察此时NodeB分配带宽的情况:图2-14 HSDPA监控的启动位置下面是监控的结果列表:图2-15 HSDPA监控的形式结果包含五列数据,这五列的含义分别为:1. Total Bandwidth(bps) 端口总可用带宽,计算公式为:IUB口物理端口带宽 信令占用带宽 维护通道带宽。2. R99 Allocated Bandwidth(bps) 物理端口上R99占用的带宽,其值为所有R99建链时分配带宽的总和。3. Hsdpa Remain Bandwidth(bps) HSD
27、PA可用带宽,计算公式为:min(HSDPA RT Path配置的带宽 HSDPA NRT配置的带宽,物理端口带宽 信令占用的带宽 维护通道的带宽 R99占用的带宽)。4. Hsdpa Allocated Bandwidth(bps):指所有DSP上给HSDPA分配带宽。5. Hsdpa Used Bandwidth(bps):指所有DSP上HSDPA业务实际使用带宽。根据这些带宽分配结果可以大致判断HSDPA带宽分配异常可能是由于哪里引起的:l 如果是第一列“总可用带宽”就不足或者和期望的不一致,说明问题可能出在NodeB总的传输带宽配置上。l 如果是第三列“HSDPA可用带宽”不足,说明问
28、题可能出在具体的链路配置上或者其他用户的影响上,比如:R99业务和信令占用的带宽太多了。l 如果是第四列“HSDPA分配带宽”不足,则可能IUB口的丢包、时延抖动存在问题,当然也可能空口存在问题,这里最好将前面区分IUB口问题还是空口问题的过程重复一下,确保没有出现误判。2.5.4 UU接口问题的参数检查UU接口要检查的项目主要是RNC上的小区的一些配置,包括:1) 检查小区导频功率配置,一般导频配置为30dBm或者33dBm,在一些测试中容易出现导频配置过低导致CQI上报异常,或者导频配置过高导致功率受限的情况。2) 检查小区配置的HSDPA最大功率,一般应和小区最大功率一致。3) 检查小区
29、配置给HSDPA的码字,3.6M应至少5个码,7.2M应至少10个码。4) 测试时通过连接性能监测中的信噪比和接受信号码功率跟踪,了解用户所在的空口信号情况。5) 通过RNC LMT小区性能监测/小区下行载波发射功率,观察HSDPA的所用功率是否已经受限。6) 如果是在商用网测试,可以通过RNC的“小区用户数”观察小区中是否存在多个HSDPA用户或者PS用户,从而影响到测试用户的速率。第3章 补充3.1 关于本文HSDPA速率问题是个端到端的问题,定位到真正的原因需要借助各种分析手段、工具以及分析方法的配合,本文希望仅仅借助LMT,配合UMAT,对HSDPA速率问题进行初步的分析。使得不熟悉的
30、测试人员也能具有一定的简单问题分析能力,排除一些容易犯的错误。本文所涉及的工具包括RNC LMT、NodeB LMT和UMAT 0.180以上版本。3.2 信息反馈速率问题的表现多种多样,我们衷心的希望所有使用本指导书的人员,能够将问题的分析过程、最终问题的解决方式等过程信息反馈给我们,以便于进行经验积累和后续改进,同时对于定位中的任何意见、建议、想法,也欢迎反馈给我们,半年更新一次本文档。UMTS维护部QoS相关问题(包括HSPA问题)反馈途径如下:jiangguiping shenyuepingwangkunlun参考资料清单:1 作者, “参考资料文档名” , 文档所属部门, 文档发布日期