江苏移动——WAP系统优化项目介绍.ppt

上传人:laozhun 文档编号:2211730 上传时间:2023-01-31 格式:PPT 页数:31 大小:2.62MB
返回 下载 相关 举报
江苏移动——WAP系统优化项目介绍.ppt_第1页
第1页 / 共31页
江苏移动——WAP系统优化项目介绍.ppt_第2页
第2页 / 共31页
江苏移动——WAP系统优化项目介绍.ppt_第3页
第3页 / 共31页
江苏移动——WAP系统优化项目介绍.ppt_第4页
第4页 / 共31页
江苏移动——WAP系统优化项目介绍.ppt_第5页
第5页 / 共31页
点击查看更多>>
资源描述

《江苏移动——WAP系统优化项目介绍.ppt》由会员分享,可在线阅读,更多相关《江苏移动——WAP系统优化项目介绍.ppt(31页珍藏版)》请在三一办公上搜索。

1、WAP系统优化项目介绍,江苏移动网络部数据业务室,WAP优化项目背景,WAP系统的质量指标尚有提升空间WAP业务时延指标没有量化考评标准,定位和优化方法不明确;有必要针对现网的业务流程和消息流程,从各环节(DNS,WAPGW,ENUM,MMSC,GGSN,SGSN,AAA,网络设备,路由、终端)分析对用户业务感知的影响;系统的安全性和稳定性有待进一步提升缺乏系统的优化和评估方法,有必要整理一套问题定位、系统优化的操作指导,作为后续优化工作的指导。,WAP优化课题目标和路标回顾,通过WAP优化项目,希望建立WAP业务网络质量的评估模型和量化评估标准。输出可操作实施的优化方案,提高业务网络质量,同

2、时提升终端用户的感知满意度。近期/中期/长期目标:网络性能指标改善。例如业务成功率和业务时延的改善。终端用户感知满意度的提高。例如体现为用户投诉率降低,维护人员处理投诉的能力提升。长期运营收益的提高。例如系统稳定性提高,网络资源利用率提高,维护效率提高。,概念阶段,计划阶段,方案开发阶段,验证阶段,发布宣传阶段,生命周期阶段,06年1月2日,2006年1月15日,2006年3月31日,2006年5月31日,2006年6月30日,2006年7月31日,项目当前进展情况,质量指标优化CDS工具测试梦网首页的时延,进行了分析和优化(初步估计能够将梦网首页时延降低20%左右)初步建立了部分场景下的时延

3、数据基线库,完成了指标分段量化分解。系统安全性提升确定和实施了主机设备的磁盘冗余方案,最大程度避免了磁盘故障相关的问题。落实了WAP网关倒换方案并在现网进行了测试。优化了防火墙路由迂回路由设置,降低了系统负荷(5%),提高业务访问速度。维护手段完善利用IP综合网管对网关出口流量异常变化进行监测,及时发现业务量的异常;升级完善I2000系统,加强对设备和业务指标的实时监控和统计进行KPI接通率报表初步分析,形成了明确的分析方式和流程建立WAP系统优化评估体系,质量指标优化时延指标优化,考虑到无线网络环境,优化的目标是通过调整分包机制和压缩页面内容的方式减少无线网络交互的环节,从而降低时延。3月中

4、开始,在现网搭建测试环境,采用仿真终端(CDS工具)针对WTP分包机制、梦网首页内容的压缩、网关回传格式的调整等,对梦网首页的时延指标进行了系统的测试和分析WAPGW通过更改WTP分包机制以及增加WMLC页面压缩功能,梦网首页登录时延减少了0.8S左右,优化测试目标明显;将WAP给终端传送的页面进一步简化,采用相对链接地址方式减少页面内容,大概可以将时延再减少0.5S左右。通过现网组合测试分析,预计能够将梦网首页时延减少1.3秒左右,整体改善20%左右。通过整合各功能特征,初步估计能够将梦网首页时延降低20%左右在7月中旬利用南京WAP节点扩容调整期间,对华为公司新版本进行了初步测试,梦网首页

5、时延实际改善在2秒左右(从目前平均6.5秒降低到5秒以内),质量指标优化建立指标基线库,通过将WAP业务相关流程深入分析,将WAP业务的各环节综合归纳为四个主要段落,对每个段落的性能指标进行了量化分析,初步建立了各段落的基本指标以及在整体性能指标中所占的比例;通过应用基线库,可以在现网逐步实现业务性能指标的监控,解决缺乏有效的业务质量劣化监控的问题:通过在相关网元分析性能指标与基线库指标比对,可以实时监测定位业务质量的波动。(如实时监控WAP时延指标、MISC、彩信中心、重要SP的响应时延和成功率指标等),系统安全性提升磁盘故障隐患处理,WAP系统核心部件PLAT模块采用双机的方式配置,依赖1

6、对磁盘阵列实现系统核心数据的冗余;在维护过程中发现系统配置的3310磁盘阵列故障率比较高。2005年下半年先后发生5次磁盘阵列故障,其中每次维修都历时较长且中间需要中断业务。针对磁盘故障率高的问题,督促华为公司进行了设备的现场巡检,但是并未根本解决问题。通过比较系统容量需求和实际硬件配置,发现系统实际只需要1块磁盘就可以满足数据存储要求,但是实际系统配置了6块磁盘。为了避免磁盘故障对业务的影响,修改了磁盘阵列的冗余配置模式,提高了磁盘阵列的冗余度,避免了磁盘故障对业务的影响;3月份调整磁盘冗余配置后,基本没有出现磁盘损坏影响业务的情况。,系统安全性提升系统出口防火墙负荷,随着WAP业务量的增长

7、,发现系统出口防火墙的CPU利用率接近70%,形成了容量瓶颈,无法满足后续开通流媒体业务的需求。通过深入分析防火墙系统配置,发现路由配置存在内部迂回的问题,一定程度上增加了系统负荷。通过修改防火墙迂回路由设置,降低了系统负荷(5%),一定程度上提高系统容量,为后续流媒体业务开通提供了保障。,系统安全性提升应急方案的完善,由于WAP业务流程复杂,WAP系统应急方案涉及多个环节配合,尤其是相关网元数据的调整时间较长,影响到WAP业务倒换的时间。在2005年南京11月份南京WAP节点1的一次故障期间,协调修改GGSN数据耗时18分钟左右;通过分析WAP组网结构,结合集团公司的意见,对RADIUS数据

8、通道进行调整,从而将应急调整的控制点缩减到只涉及GRE路由器应急方案调整后业务割接过程能够在15秒钟内完成(此前由于需要同步修改GPRS数据,割接需要15分钟以上)。下一步希望将业务质量的监测和应急方案结合起来,在单台WAP网关业务质量劣化时自动完成业务倒换。,GRE,GGSN,WAPGW,完善维护手段KPI指标分析,通过分析脚本实现报表数据的深度挖掘分析,解决了前期只能看到KPI指标波动,但是无法分析指标波动的具体原因的问题,为优化提高KPI指标提供了依据。通过组合分析报表数据,明确了日常KPI指标分析的方式和流程:针对日常KPI指标的波动,初步形成了一组报表数据分析脚本,能够快速对KPI指

9、标的波动原因进行分析定位;在分析彩信中心返回412错误代码过程中,准确定位到异常流程涉及到SP服务地址(http:/218.206.72.233/nsq.mms)下一步需要将分析脚本进一步完善,形成固定的分析流程;,完善维护手段业务量异常监测,目前WAP网关系统的监测主要完成了设备和进程的监测,对实际业务质量缺少有效的监测手段,在业务质量出现波动时难以及时发现。综合分析WAP系统组网结构和数据流向:在系统业务量出现较大幅度的变化时,WAP出口方向的流量必然相应出现波动。借鉴CMNET中继电路流量变化监测的机制,对WAP网关出口交换机端口流量变化进行监测,在出现流量异常变化(流量相对前一时段突然

10、下降)时产生告警通过出口流量的监测一定程度上弥补了业务质量监测手段的不足。,完善维护手段升级I2000模块,WAP系统配置I2000管理模块,实现对WAP系统设备的管理和监控,但是由于I2000功能的欠缺,一直没有实际应用起来。为了加强对设备和进程的监控,实现对业务指标的实时统计功能,经过跟华为公司的沟通,决定升级现网I2000模块。在WAP网关八扩工程调整期间,对南京WAP节点的I2000模块进行了升级调整,目前基本能够实现设备性能和业务指标的实时统计。,下一步优化工作计划,继续落实前期优化措施,完成WAP系统的版本升级;将优化视角由网关转移到整个业务流程,面向业务和服务进行优化:组织分公司

11、开展业务现场测试,分析不同设备之间质量指标差异原因,实现各网络环节协调优化;针对用户投诉处理时多网关报表查询复杂的问题,探索实现统一报表查询接口,简化用户投诉处理;联合华为公司加强网关的业务优化加速功能,如利用终端的能力实现动态的压缩、动态复合(multipart)等优化业务时延,改善用户业务感知。,WAP系统维护经验交流,江苏移动网络部数据业务室,内容提要,华为WAP网关I2000模块的功能应用承载网丢包故障的处理白名单数据核查软件使用说明,I2000模块的应用,目前华为WAP系统维护过程中比较困难的问题是对系统性能和实时业务质量的监控。在WAP网关建设初期,系统配置了I2000模块,实现对

12、系统的初步监控和管理。但是由于系统功能的不完善,缺少对WAP系统性能和业务质量指标的有效监控、告警数量庞大但是没有参考意义,没有投入实际使用。经过根华为公司沟通,WAP网关配套的I2000模块升级后能够完善性能和业务质量的监控。,I2000模块的应用,7月底开始,对南京WAP节点配套I2000模块进行了升级调整,经过测试目前能够完成以下几个方面功能:各模块配置参数的查询、PFM模块数据的配置、系统进程的重启;实现业务性能指标的实时统计,并且设置门限产生告警信息;目前设置系统转发时延超过300ms、成功率低于90%产生事件告警信息,测试能够有效产生告警。系统事件和故障告警信息:对进程重启等事件能

13、够及时展现。,I2000模块的应用,下一步需要解决的主要问题:目前没有安装报表模块,统计的性能数据已经入库但是没有呈现接口,无法了解系统性能指标细节;对于告警信息,需要进行准确性验证,同时为了实现集中监控需要将告警数据通过北向接口输出到IP综合网管;,内容提要,华为WAP网关I2000模块的功能应用承载网丢包故障的处理白名单数据核查软件使用说明,一个网络丢包问题的处理,在2005年年底进行彩信业务测试时,发现彩信发送端到端成功率偏低,跟踪WAP网关信令流程发现是WAP网关没有收到终端发送的 POST消息,造成WAP网关无法正常处理,导致彩信发送失败。丢包问题的处理共分两个阶段。第一阶段,跟踪发

14、现WAP网关配套GRE路由器在处理隧道流量方面能力不足造成丢包,导致彩信发送问题。虽然期间调整了GRE路由器的软件版本,但是没能从根本上解决丢包问题。最后,考虑到南京新建WAP节点2配套GRE路由器设备功能比较强,且已具备割接条件,随后将业务割接到新建节点配套GRE路由器后,GRE丢包问题解决;第二阶段,解决GRE路由器问题两天后在彩信测试过程中又发现成功率降低,经分析GRE路由器没有丢包现象。联合无线接入网、GPRS核心网、WAP网关同步挂表分析,判断丢包现象发生在Gi口外侧到WAP网关GRE路由器之间的CMNET承载网上。经逐段分析,发现问题出现在CMNET省网交换机4507 和汇聚层路由

15、器M20 之间一个互联端口之间,更换M20 端口板后问题解决。,GRE丢包问题的处理,南京公司在本地进行彩信测试过程中,发现彩信接通率偏低。经过信令跟踪分析,发现POST信令数据丢失导致彩信提交失败。此前有限公司网络部为了解决部分省份WAP配套GRE路由器存在丢包的问题,对南京GRE路由器进行了升级。发现问题后登录南京GRE路由器,统计发现GRE路由器到GGSN的隧道有大量丢包(7%),初步判断是GRE路由器丢包造成彩信测试失败。判断GRE路由器问题后,亚信公司最初推断是单条GRE隧道流量过大导致GRE路由器丢包严重,调整GGSN配置将流量均匀分配到多条隧道后,监测丢包现象并未缓解。随后按照C

16、ISCO和亚信建议,先后对GRE路由器IOS版本进行了三次调整,丢包问题虽然有所缓解名单是没有根本解决。考虑到现网的GRE路由器采用的是思科的7507路由器,系统比较老,在处理隧道机制方面存在容量的限制。结合当时新建南京WAP网关GRE路由器7304已经具备承载业务的条件,同时7304路由器属于新硬件平台,对隧道支持能力比较好。随后将业务割接到新建7304GRE路由器,监测7304路由器到GGSN方向的隧道,没有发现丢包。重新进行彩信测试,跟踪未发现POST丢包问题,彩信接通率测试达到100%,GRE路由器丢包造成彩信发送失败问题成功解决。,承载网丢包处理(一),GRE问题解决两天后,彩信测试

17、成功率异常,现象与前期基本相同,WAP网关信令跟踪也确认是POST消息丢失造成彩信发送失败。迅速检查了新启用的7304GRE路由器,未发现至GGSN方向的隧道有任何丢包的统计,在GRE路由器内进行抓包跟踪分析,证实GRE路由器确实未丢包。通过手机终端激活CMWAPAPN后,从WAP网关主机直接用1400字节的大数据包(与彩信上行数据包大小接近)PING手机终端地址,也发现有3%左右的丢包,证明丢包情况的存在。为了定位问题,协调相关专业重新进行测试跟踪,同时在Gb接口、Gi接口、WAP网关出口交换机上面同时挂表跟踪。经过3个多小时的测试,通过比对各接口信令,确认丢包的问题发生在Gi接口到WAP网

18、关配套GRE路由器之间,主要是CMNET承载网。,承载网丢包处理(二),由于CMNET承载网涉及多台路由器、交换机,我们采用逐段排查的办法,根据Gi接口连接的4507交换机到WAP网关的IP路由,逐段进行PING测试过程中,发现Gi接口连接的4507交换机到CMNET省网南京节点的汇聚JUNIPER M20 路由器之间有丢包现象,同时从WAP网关配套GRE路由器PING M20路由器连接4507交换机的端口地址211.138.201.1没有丢包,但是PING 4507交换机端口211.138.201.2就有比较明显的丢包现象:检测M20路由器端口,发现大量CRC校验错的统计,证明问题出现在此端

19、口或者4507到M20之间的连接线缆上。随后分别更换4507交换机到M20路由器之间的尾纤和M20上面的端口板,重新进行PING测试,发现丢包问题解决:随后使用手机终端激活CMWAP APN后从WAP网关主机进行PING测试,丢包问题解决。进行彩信拨打测试,没有发现丢包造成彩信发送失败的现象,至此CMNET丢包造成彩信发送成功率下降问题全部解决。,问题处理总结,高强度的业务拨打测试对于发现业务质量问题比较重要。实际上在第一阶段GRE路由器升级后就存在丢包现象,但是由于出现比例很低,通过终端手工测试没有发现问题,在随后通过仿真终端软件进行连续大量测试时才发现;处理问题过程中,摸索了一套比较有效的

20、测试方法,通过终端激活CMWAP APN后,直接从WAP网关内部PING手机终端的IP地址,能够直接检测网络连通性方面的问题。在多次分析彩信丢包的协议流程时,也发现了WAP网关本身的协议栈方面存在一定的缺陷。实际上,按照WTP协议的可靠性机制,POST消息丢失后,WAP网关在收到POST后续信令后应该主动发送NACK消息要求终端重发POST信令,而不应简单的置之不理。通过发送NACK响应,能够在业务层面通过重发机制提高系统的容错能力,大大提高WAP业务的可靠性。已将此建议提交给华为公司,要求在以后的版本中支持。最后,在处理业务类的投诉时,需要多层面、多角度综合考虑,不能仅仅凭直觉判断问题。发现

21、问题首先需要按部就班的进行分段、分层测试,从而提高问题的处理效率,缩短问题处理时间。在CMNET丢包问题处理期间,由于怀疑GRE路由器丢包问题的存在,对GRE路由器进行了反复跟踪测试,耽误了近半天的处理时间,一定程度上延误了问题的解决。以后在出现业务类的故障时,调动所有的资源同步进行检查处理能够有效提高问题处理的效率。,内容提要,华为WAP网关I2000模块的功能应用承载网丢包故障的处理白名单数据核查软件使用说明,白名单检查工具的使用,WAP网关白名单数据检查工具采用EXCEL模版文件内嵌宏脚本形式编写。为了保证宏脚本能够执行,需要在第一次运行此脚本前调整EXCEL宏安全性设置:选择菜单“工具

22、宏安全性”,在弹出对话框中“安全性”部分选择“中”,选择中在EXCEL打开带宏的EXCEL文件时,能够提示是否允许执行内嵌的宏程序。WAP网关白名单数据检查工具采用EXCEL脚本形式,内嵌在白名单数据模板文件中。在打开模版数据文件时,如果系统提示安全警告时,请选择“启用宏”。,白名单数据检查软件功能,WAP网关白名单检查工具包括两部分功能:检查模板数据和核查数据。检查模板数据功能指汇总统计模板文件中白名单数据的列表,剔除重复出现的数据(域名中的大小写不同视为地址相同),统计结果显示在“模板数据分析结果”表中。核查数据功能指针对不同厂家WAP网关导出的白名单数据与模板文件中的数据进行比较,检查导

23、出数据中相对模板数据中遗漏、多余、重复的数据,检查结果显示在“检查结果N”(其中N是执行检查的次数)表中。WAP网关白名单检查工具可以通过菜单项“数据核查”访问,也可以通过工具栏访问,白名单数据检查步骤,选择设备厂家;选择待核查的局数据文件,可以一次选择多个,但是要求所有局数据文件必须属于同一厂家设备;注意除中兴WAP网关导出的数据文件为EXCEL(*.xls)格式外,其他厂家WAP网关导出数据文件均为文本文件(*.txt);按“开始数据检查”按钮,软件将自动装载数据并逐条核对;等数据检查完成后,结果显示在“检查结果N”(其中N是执行检查的次数)表中,每执行一次检查N递增1。,核查软件其他说明

24、,各厂家白名单数据的导出:华为网关的白名单数据使用以下SQL语句导出为文本文件(*.txt):select zoneurlvisual_zh.name,zoneurllist.url,urlvisual_zh.name,zoneurllist.zoneid from zoneurllist,zoneurlvisual_zh,urlvisual_zh where zoneurllist.zoneid=zoneurlvisual_zh.zoneid and urlvisual_zh.url=zoneurllist.url and zoneurlvisual_zh.name=白名单;诺基亚网关的白名

25、单数据导出为文本文件(*.txt),每条数据1行,以http:/或https:/开头;西门子网关的白名单数据使用以下SQL语句导出,保存为文本文件(*.txt):select distinct(domain)from privacy_parm_sending;中兴WAP网关的白名单数据通过图形界面直接导出为EXCEL格式文件(*.xls)。【注意事项】在核查过程注意选择正确的设备厂家,否则可能造成结果错误或者脚本运行异常。在导出设备配置数据保存为文本文件(*.txt)时,请注意保存最为DOS格式的文本文件。目前不支持UNIX格式的文本文件。(DOS格式文本文件以回车换行符作为行结束,UNIX格式只使用回车作为行结束。由于脚本读取文件时功能局限,目前无法按行读取UNIX格式的文本文件。),

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 建筑/施工/环境 > 项目建议


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号