集中化上网记录查询及分析技术规范v1.0.5.doc

上传人:laozhun 文档编号:2392348 上传时间:2023-02-17 格式:DOC 页数:37 大小:835.50KB
返回 下载 相关 举报
集中化上网记录查询及分析技术规范v1.0.5.doc_第1页
第1页 / 共37页
集中化上网记录查询及分析技术规范v1.0.5.doc_第2页
第2页 / 共37页
集中化上网记录查询及分析技术规范v1.0.5.doc_第3页
第3页 / 共37页
集中化上网记录查询及分析技术规范v1.0.5.doc_第4页
第4页 / 共37页
集中化上网记录查询及分析技术规范v1.0.5.doc_第5页
第5页 / 共37页
点击查看更多>>
资源描述

《集中化上网记录查询及分析技术规范v1.0.5.doc》由会员分享,可在线阅读,更多相关《集中化上网记录查询及分析技术规范v1.0.5.doc(37页珍藏版)》请在三一办公上搜索。

1、中国联通集中化上网记录 查询及分析系统技术规范设备规范版本号:1.0.5前言41范围52规范引用文件53术语、定义和缩略语54概述74.1项目背景74.2方案介绍75功能要求85.1概述85.2数据采集子系统功能要求85.2.1概述85.2.2数据监听85.2.3数据解析95.2.4记录生成及上载115.3数据入库子系统功能要求115.3.1文件读取115.3.2记录解析115.3.3记录入库115.3.4文件删除/备份125.4数据存储子系统功能要求125.4.1数据存储部署125.4.2数据存储要求125.4.3在线存储时间135.4.4关键字段保存135.5数据查询子系统功能要求145.

2、5.1记录查询145.5.2用户管理145.5.3权限管理155.5.4角色管理155.5.5流量类型管理155.5.6禁查号码管理165.5.7数据过滤166接口要求166.1数据采集子系统采集接口要求166.2数据采集子系统与数据入库子系统接口要求166.2.1接口协议166.2.2文件命名和生成要求166.2.3文件读写冲突控制176.3数据入库子系统与数据存储子系统接口要求176.3.11 接口协议176.3.22 文件命名和生成要求176.3.33 数据格式要求186.3.44 文件读写冲突控制186.4数据存储子系统与数据查询子系统接口要求186.4.1接口协议186.4.2网络文

3、件传输接口186.4.3查询条件186.4.4结果返回方式197性能与可靠性要求197.1性能要求197.1.1采集和解析指标197.1.2记录生成性能指标197.1.3记录传输时间197.1.4数据入库性能指标197.1.5数据存储性能指标197.1.6数据查询性能指标207.2可靠性要求208时间同步要求209安全要求209.1安全域划分209.2运维安全219.3数据传输安全性219.4其它网络安全要求2110操作与维护要求2110.1业务操作维护界面2110.2设备操作维护要求2111网管要求2211.1接口协议2211.2需要提供的各类指标数据22附录A业务状态码字典表22附录B业务

4、编码规则33附录C流量类型解析34附录D省分区域编码规则35接口修订记录36201201027月修订记录36前言本标准是集中化上网记录查询及分析系统系列标准之一,是集中化上网记录查询及分析系统所涉及的网元设备需要遵从的技术文件。本标准主要包括以下几方面内容:集中化上网记录查询及分析系统在网络中的位置、系统的功能要求、接口要求、指标性能和可靠性要求、安全要求和时间同步管理等。本标准需与企业标准编号企业标准名称配套使用。本标准涉及知识产权的情况说明。本标准的附录为标准性附录,附录为资料性附录。本标准由中国联合通信号文件印发。本标准由中国联合通信集团提出,集团公司技术部归口。本标准由标准归口部门负责

5、解释。本标准起草单位:本标准主要起草人:1 范围本标准对集中化上网记录查询及分析系统提出规定,供中国联通集团内部和厂商共同使用,用于在移动用户上网记录查询及分析系统工程建设、运行维护及设备开发方面为集团公司和省公司提供技术依据,适用于GSM/GPRS/WCDMA网络环境。2 规范引用文件下列文件中的条款通过本标准的引用而成为本标准的条款。凡是注日期的引用文件,其随后所有的修改单(不包括勘误的内容)或修订版均不适用于本标准,然而,鼓励根据本标准达成协议的各方研究是否可使用这些文件的最新版本。凡是不注日期的引用文件,其最新版本适用于本标准。123 术语、定义和缩略语下列术语、定义和缩略语适用于本标

6、准:词语解释APNAccess Point Name,接入点名称CICell Identifier,小区标识FTPFile Transfer Protocal,文件传输协议GGSNGateway GPRS Support Node,网关GPRS支持节点GPRSGeneral Packet Radio Service,通用分组无线业务GSMGlobal System Mobile,全球移动通信系统GSNGPRS Support Node,GPRS支持节点GTPGPRS Tunnel Protocol,GPRS隧道协议HTTPHyperText Transfer Protocol,超文本传输协议I

7、CMPInternet Control Message Protocol,Internet控制报文协议IMEI(SV)International Mobile Equipment Identity(Software Version),国际移动设备身份码(软件版本)IMSIInternational Mobile Subscriber Identity,国际移动用户识别码IMAP4Internet Message Access Protocol 4,交互式数据消息访问协议版本4IPInternet Protocol,互联网协议IPv4Internet Protocol version 4,互联网

8、协议版本4IPv6Internet Protocol version 6,互联网协议版本6LACLocation Area Code,位置区识别码LAILocation Area Identify,位置区识别标识MSISDNMobile Subscriber International ISDN/PSTN numbe,移动用户国际ISDN/PSTN号码NATNetwork Address Translation,网络地址转换NTPNetwork Time Protocol,网络时间协议PDPPacket Data Protocol,分组数据协议POP3Post Office Protocol

9、3,邮局协议版本3PSPacket Switched,分组交换QoSQuality of Service,业务质量RadiusRemote Authentication Dial-In User Service,远端拨入用户验证服务RAIRouting Area Identity,路由区标识RNCRadio Network Controller,无线网络控制器RTSPReal Time Streaming Protocol,实时流传输协议SACService Aera Code,服务区代码SGSNServing GPRS Support Node,服务GPRS支持节点SMTPSimple Ma

10、il Transfer Protocol,简单邮件传输协议SNMPSimple Network Management Protocol,简单网络管理协议SPANLocal Switched Port Analyzer,本地交换端口分析器TCPTransmission Control Protocol,传输控制协议UDPUser Datagram Protocol,用户数据包协议UMTSUniversal Mobile Telecommunication System,通用移动通信系统URLUniform / Universal Resource Locator,统一资源定位符VLANVirtu

11、al Local Area Network,虚拟局域网WAPWireless Application Protocol,无线应用协议WLANWireless Local Area Network,无线局域网4 概述4.1 项目背景随着中国联通移动数据业务的快速发展,各种WAP、互联网应用增长十分迅速,移动数据业务的增值作用日益提高,并且在未来的移动业务竞争中逐渐占据了主导地位。而在数据业务迅猛发展的同时,数据业务上网记录查询也逐渐成为用户数据业务投诉的焦点,用户对上网服务查询内容不仅仅限于简单的上网流量计费信息,要求提供详细的上网记录,如访问的网站地址,访问时长等。集中化上网记录查询及分析系统

12、建设目标计划分两阶段实现:第一阶段,实现上网记录查询,通过在Gn进行数据采集、信令和业务解析、合成,提供全网移动用户数据业务上网记录查询,为一线客户服务人员提供客户上网记录快速查询服务,解决流量投诉问题。同时,为用户提供准实时的异常大流量上网记录自助查询服务,在运营商中体现差异化;第二阶段,通过对用户上网记录数据进行统计,一方面,为市场营销提供数据支撑;另一方面支持用户行为偏好分析,刻画用户画像,同时,通过感知业务态势,制定市场策略,指导业务产品开发。4.2 方案介绍为满足集中化上网记录查询及分析系统建设目标第一阶段的需求,现网分组域需进行相应的改造以配合用户上网记录查询系统。现网分组域需要增

13、加数据采集设备、数据入库设备、数据存储设备和数据查询设备。通过在分组域Gn口部署数据采集设备,可以获取用户私网地址上网记录。数据入库设备从Gn采集设备采集用户私网地址上网记录,关联防火墙NAT日志,生成包含用户公网地址的完整的上网记录,并入库。数据查询设备用于保存用户通过分组域上网的记录,采用基于Hadoop的Hbase数据库进行数据存储,并向数据查询设备提供查询接口。集中化上网记录查询及分析系统建设方案如图4-1所示:5 功能要求5.1 概述集中化上网记录查询及分析系统设备包含数据采集子系统、数据入库子系统、数据存储子系统和数据查询子系统四部分。5.2 数据采集子系统功能要求5.2.1 概述

14、数据采集子系统主要负责用户所有上网数据报文的采集,对所采集的数据进行信令和业务解析,生成记录后并上传到数据入库子系统中。在采集的时候,必须确保数据采集的准确性和完整性,同时保证不影响现网网络的稳定性和安全性。5.2.2 数据监听数据监听模块负责将Gn链路的数据(信令数据、业务数据)全部复制并输出到信令解析模块和业务解析模块,并且不影响原链路业务传输。该模块要求能够支持分光方式进行Gn接口数据的采集,分光采集方式应达到线速的数据采集,同时保证数据采集证准确性和完整性。分光接入方式的采集,需要在被监测网络的光纤链路中串接分光器,需保证不增加被监测网络的交换机负荷,保证对被监测网络不造成任何不良影响

15、。分光接入方式适用于10/100/1000Mbps及更大流量的以太网光纤链路,连接方式如图5-1所示:图5-1 分光方式示意图分光器应符合行标YD/T 1097-2001高端路由器设备技术规范要求,其应符合下述性能指标:表5-1 分光器性能指标参数单位指标工作波长nmCorl131040131040 & 155040分光比1/99 50/50光纤类型SMF-28回波损耗dB50方向性dB55偏振相关损耗dB0.10.15工作温度10 +70储存温度40 +855.2.3 数据解析采集部分所有支持的业务类型解析,统一按照集中化上网记录查询及分析系统的私有协议封装后进行传输,各个字段之间以逗号(,

16、)作为分隔符,User Agent以及Content-Type中间有“,”的,转换为空格,URL里面的“,”不做处理。文件生成周期:每5分钟(默认值,可以设置),单个文件大小:200MB,在两个指标同时设置时,单一指标到达阀值则结束文件。每个时间周期内,文件大小超过设定的大小阀值,则保存多个文件,同一周期内的文件通过nnnnn序号区分。数据报文协议解析如下:编号字段备注1手机号码不包含字冠如+86,0086,862位置区编码LAC,参见“附录D省分区域编码规则”3CI号码当有网络切换时,选择第一个CI4终端类型IMEI5流量类型参见“附录C流量类型解析”6开始时间YYYY-MM-DD HH:M

17、M:SS.1234567,精确到0.1微妙7结束时间YYYY-MM-DD HH:MM:SS.1234567,精确到0.1微妙8时长(秒)9上行流量(bytes)10下行流量(bytes)11总流量(bytes)12RATType取值为1代表3G;2代表2G13终端IP14访问IP没有IP信息的填空,对于有多个IP的业务,输出合并的流量记录,访问IP只填第一个IP15状态码见附录A16User Agent采集全部信息17APN如3gwap,3gnet,uniwap,uninet,cmwap,cmnet18IMSI19SGSN IP填接入第一个20GGSN IP21Content-Type22源端

18、口23目的端口24记录标识0 :表示未合并且未分割的记录; 1:表示合并过且未分割的记录; 2:表示未合并但是分割过的记录; 3:表示合并过且分割过的记录; 25网址/特征信息对于具备URL/URI的业务填充URL/URI信息,不携带的业务填充特有信息,填充方法见附录C网址特征信息表备注:1、协议中用红色标注的部分需要采集但在第一阶段不需要存储,其他颜色的字段既需要采集又需要存储。 2、对于某些流量类型数据报没有相关字段信息,添入空值。 3、详单文件中多条话单之间以回车符号+换行符号分隔 4、合并规则:为保证30分钟可以实现查询,对于涉及到的所有协议,按照每隔5分钟出一次中间日志;对QQ、微信

19、、飞信、MSN、xmpp等即时通信类业务流量类型,按照用户登录ID合并生成记录记录;对RTSP、FTP、SIP等业务流量类型,把控制通道和数据通道合并,合并为控制通道的端口;对其他种类的多IP、多通道的业务,进行和并时以第一个IP和第一个端口作为合并后的IP及端口。 5、采集里面对的WAP和HTTP流量中的URL域是完整的HTTP信息,包括http:/以及host域信息,没有的补足。 6、业务类型编码以3位数字作为业务编码,详尽见附件B业务编码规则5.2.3.1.1.1.1.1.2.1.35.2.4 记录生成及上载系统将解析出来的信令记录和业务记录中的关键字段进行合成,并写入到记录文件。同时,

20、将记录上载到指定的集中处理服务器上,以供记录文件进行集中入库处理,目标目录。5.3 数据入库子系统功能要求数据入库子系统负责解析数据采集子系统生成的详单文件,并调用HBase提供的接口,将上网记录插入HBase数据库。5.3.1 文件读取数据入库子系统接收各省的上网记录文件,并对其进行校验,将错误的上网记录存入错误库中,供后续的回收处理;将重复的上网记录删除,将正确的上网记录提交记录解析模块进行解析处理。1) 支持实时读取方式与非实时读取方式。2) 支持批处理文件方式与消息记录方式。3) 能判断输入文件的正确性与完整性,通过对采集文件批次号、文件序号、日期、文件基本信息的校验,防止文件的重采、

21、漏采。4) 应具备标准清单文件级错误检查与纠错能力。5) 能判断输入记录的正确性与完整性,应具备记录级错误检查,对于特定的域,可以根据业务规则做修补、纠错处理。6) 对新增机型或内容的文件要提前进行命名参数配置,增加格式约定7) 对于错误的文件与清单要求记日志、发预警信息,以便重新处理。5.3.2 记录解析系统对上网记录文件中的记录进行解析及处理,支持以下功能:1) 将DCN BSS域IP地址映射成记录新的关键字段网址;2) 将多条相关上网记录进行合并;3) 根据参数配置对重复记录进行实际剔重或不剔重处理;4) 根据不同的分拣要素如业务类型、区域信息、时段信息等进行记录分拣,分拣要素既可以是话

22、单中的关键字段,也可以是不同关键字段的组合。5) 可以对异常记录进行单条或批量人工纠错,并进行回收处理。5.3.3 记录入库系统中记录入库处理主要调用HBase提供的接口,将上网记录插入HBase数据库入库处理具体要求如下:1) 要求支持批量文件的实时及准实时入库;2) 要求支持消息方式的实时入库;3) 要求支持入库回退,即入库后发现错误时回退到入库前的状态。4) 上网记录从数据采集到入库,时间一般小于30分钟。5.3.4 文件删除/备份数据入库子系统负责将在某一段时间内的入库上网记录文件进行备份,时间过后则系统支持进行自动删除或人工删除。文件备份要求:1) 备份方式、备份周期等可进行人工配置

23、。2) 备份方式应支持全备份、部分备份和增量备份;3) 备份周期可以为每周一次,每天一次等;4) 备份应支持联机备份、脱机备份方式;5) 备份应支持自动备份、人工备份。文件删除要求:1) 已备份的文件超过时限时,可进行自动删除; 2) 未超过时限但已确认为无用的备份文件时,可进行人工删除;3) 删除时必须进行日志记录。5.4 数据存储子系统功能要求存储子系统采用“分布式文件存储”或“分布式对象存储”方式。存储子系统由分布式存储系统和分布式的对象元数据节点构成。分布式存储系统是存储对象数据的媒介,分布式存储系统中的存储节点的具体存储方式对查询子系统透明。对象元数据节点存储并处理用户上网原始记录,

24、并向应用平台提供HTTP接口、API接口用于访问对象存储相关功能。5.4.1 数据存储部署总部设置一台全国集中FTP服务器,用于接收各省上传的用户上网记录文件。同时此FTP服务器亦作为数据存储子系统的唯一数据源。31个省分公司均设置本地文件服务器,用于存储本省采集系统上获取的上网记录数据,同时将上网记录数据文件通过本地文件服务器向全国集中FTP服务器上传。上网记录查询及分析系统采取数据集中存储的方式,在总部一级设置集中式移动用户上网记录存储系统,用于保存31省分用户上网记录信息,并对接收自各省的上网记录文件的存储进行优化。5.4.2 数据存储要求HBase是为Terabyte到Petabyte

25、级别的海量数据存储和高速读写而设计,数据能够被分布在数千台普通服务器上,并且能够被大量并发用户高速访问。可以满足集中化上网记录查询及分析系统的性能要求。在本系统中,数据存储子系统要求采用基于Hadoop的HBase数据库完成上网记录的存储。系统应使用多线程处理方式,解析省分公司上传的上网记录文件,通过调用HBase提供的接口,将上网记录插入HBase数据库。5.4.3 在线存储时间集中化上网记录查询及分析系统要求具备在线存储全国用户不小于4个月的原始上网记录能力,包含3个月历史数据+当前月数据。用于统计分析的中间报表数据在线存储时间不小于5年。5.4.4 关键字段保存存储子系统中应保存的用户上

26、网记录关键信息包括:字段注释手机号码不包含字冠如+86,0086,86位置区编码LAC,参见“附录D省分区域编码规则”CI号码当有网络切换时,选择第一个CI终端类型IMEI流量类型参见“附录C流量类型解析”开始时间YYYY-MM-DD HH:MM:SS.1234567,精确到0.1微妙结束时间YYYY-MM-DD HH:MM:SS.1234567,精确到0.1微妙时长(秒)上行流量(bytes)下行流量(bytes)总流量(bytes)RATType取值为1代表3G;2代表2G终端IP访问IP没有IP信息的填空,对于有多个IP的业务,输出合并的流量记录,访问IP只填第一个IP状态码见附录AAP

27、N如3gwap,3gnet,uniwap,uninet,cmwap,cmnetIMSISGSN IP填接入第一个GGSN IP源端口目的端口记录标识0 :表示未合并且未分割的记录; 1:表示合并过且未分割的记录; 2:表示未合并但是分割过的记录; 3:表示合并过且分割过的记录; 网址/特征信息对于具备URL/URI的业务填充URL/URI信息,不携带的业务填充特有信息,填充方法见附录C网址特征信息表5.5 数据查询子系统功能要求5.5.1 记录查询记录查询,根据其作用主要分为两大部分,一部分给最终客户提供,实现自助查询,另一部分给营业员提供,主要解决流量投诉问题。1) 客户自助查询: 用户通过

28、营业厅提供的触摸屏或通过网上营业厅为用户上网记录查询,同时提供准实时的异常大流量上网记录自助查询服务。a) 查询要求:提供以帐务周期为单位的详细上网记录或准实时产生的异常大流量上网记录,并可根据客户的需要(如时间段、流量类型、流量大小等)进行条件查询,查询结果可以根据不同项目进行排序。b) 查询内容:查询结果返回内容包括用户上网的接入地点、上网方式、业务类型、信息类型、发送流量、接收流量、总流量、开始时间、结束时间、总时长、访问网站地址等。2) 营业员柜台方式查询:一线客户服务人员通过系统前台的查询界面对客户上网记录进行组合查询。a) 查询要求:,可以进行多种方式的查询:按用户号码、上网方式、

29、时间段、网络承载类型、业务类型、信息类型等查询以及按以上各种条件进行组合查询。所有的查询服务应能够支持查询结果打印、生成磁盘文件等方式。b) 查询内容:查询结果返回内容包括用户号码、用户上网的接入地点、上网方式、业务类型、信息类型、发送流量、接收流量、总流量、开始时间、结束时间、总时长、访问网站地址、终端信息等。c) 可以设置流量类型、流量大小、业务类型、信息类型等过滤条件。5.5.2 用户管理用户管理是指操作系统人员等基本信息进行管理和维护,基本信息包括用户编号、姓名、密码、所属组别、描述等。1) 支持管理各类岗位的人员,包括a) 市场类岗位:产品经理、渠道经理等。b) 销售类岗位:销售经理

30、等。c) 客服类岗位:营业员、营业厅班长、客户经理、呼叫中心坐席等。d) 业务类岗位:对系统的业务参数或流程进行配置的后台管理人员等。e) 系统类岗位:对系统的硬件平台、操作系统、数据库、网络等进行管理维护的人员等。2) 支持对用户基本信息的增、删、改、查功能。3) 支持自动生成工号的密码信息,并提供用户密码的修改功能。4) 支持定期密码修改系统提示,工号权限与岗位职责相符。5) 只有经过授权的用户才能访问系统。6) 支持配置员工的职务、所在的岗位、所属的组织、所在的地区等信息,并能够对员工和组织机构等关联信息进行调整。7) 支持定义用户的权限和角色信息。8) 支持根据员工的职务、岗位、组织等

31、条件查询相关的上网记录信息。9) 对用户信息的生成、维护、各种关系的调整等需要有相应权限的管理员才可以操作。10) 支持从外部批量导入用户信息。5.5.3 权限管理权限管理是对集中化上网记录查询及分析系统维护及使用权限的管理,主要涉及对操作该系统资源(菜单等)的人员进行授权管理和系统功能角色的管理。11) 支持增、删、改、查功能点权限,在删除功能点权限时,需要确保此权限没有分配给相应的员工。12) 支持将一个或多个操作权限直接授予员工。13) 支持采用单个和批量的方式将操作权限直接授予员工。14) 权限设置必须由被授权的系统管理员完成,管理员不能设置大于自身权限的权限;权限管理采用分级的管理方

32、式,上一级可以设置下一级的管理权限。15) 支持给不同的代理商赋于不同的操作权限,且要求能够控制每个代理商的操作范围只限于自己发展的用户。赋于代理商的营业受理权限包括:各种业务的新装、变更、改号、移机、退网等各种业务受理操作。5.5.4 角色管理角色是对单个或多个权限所组成的集合。一个角色可以有一个或者多个权限,一个权限可以分配给多个角色。角色管理需要完成角色的定义、维护等功能。1) 各级系统管理员有权对本级所属角色进行增加、修改、删除,可通过组合各种基本权限,设定新角色的权限。2) 在删除角色时,需要确保角色未分配给任何员工。3) 支持通过各种角色的组合形成新的角色。4) 支持采用单个或批量

33、的方式将角色分配给员工。5) 管理员不能设置大于自身权限的角色;角色管理采用分级的管理方式,上一级可以设置下一级的管理角色。5.5.5 流量类型管理流量类型管理主要是维护流量类型编码与流量类型名称的映射关系。支持对业务流量类型编码与业务流量类型名称之间映射关系的增加,修改,删除,查询的管理功能。所支持的流量类型包括:WAP浏览、HTTP浏览、邮件、彩信、即时通信、视频、P2P等。5.5.6 禁查号码管理系统可以根据某些条件(如某个用户号码,或某一类用户)设置禁止查询号码。支持对禁止查询号码的解禁;支持对禁止查询号码的查询;支持对禁止查询号码的修改。5.5.7 数据过滤支持能够按用户所在单位和部

34、门对查询数据进行过滤。 6 接口要求6.1 数据采集子系统采集接口要求采集接口是集中化上网记录查询及分析系统设备的数据源,要求具备以下特性:1) 支持对电口和光纤接口等不同介质的采集能力2) 应具备同时采集电口和光纤接口的能力6.2 数据采集子系统与数据入库子系统接口要求6.2.1 接口协议1) 数据采集子系统与数据入库子系统之间的接口采用FTP协议实现数据交换,交换对象为数据采集子系统生成的记录文件。2) 数据采集子系统设备要求具备通过FTP协议主动将生成记录文件上传到全国集中的服务器的功能。其中,在主动上传文件时,需要保证为增量上传模式,即每次上传新产生的记录文件3) 要求具备支持数据采集

35、子系统通过FTP协议下载记录文件的功能6.2.2 文件命名和生成要求详单文件命名规则是年4位+月2位+日2位+时2位(24小时制)+分2位+秒2位+文件序列号5位,从0开始+省分代码3位补充省分编码规则+地市编码,gzip,完整后变成gzip+采集服务器编码3位+文件后缀(.txt),例如:2012011114402512345010123.txt。文件生成要求1) 文件生成周期:每10分钟(默认值,可以设置)2) 单个文件大小:100MB(默认值,可以设置,最大1GB)3) 数据采集设备保存最近7天内产生的文件,对于保存超过7天的文件需要进行清理4) 每个文件在生成.txt文件后,用GZip

36、算法进行压缩,生成压缩后的.gz文件6.2.3 文件读写冲突控制记录文件可以由数据采集设备通过FTP协议上传到数据入库子系统设备,也可以由数据入库子系统设备登录到数据采集设备进行下载操作。这两种操作模式下,都存在文件操作冲突的问题,为了避免文件操作冲突,在数据提供方(数据采集设备)和数据使用方(数据入库子系统设备)之间通过控制文件对数据文件的操作进行可用性协调。具体要求如下:1) 数据入库子系统设备主动下载文件模式下,当数据提供方(数据采集设备)完成一个数据文件,该数据文件已经可以供数据使用方(数据入库子系统设备)使用时,应生成一个和数据文件同名,但扩展名为.ctr(小写)的控制文件2) 控制

37、文件的内容可以为空3) 数据使用方(数据入库子系统设备)在检查到.ctr文件时,认为同名的数据文件已经可用,开始进行数据文件操作4) 数据采集设备主动上传模式下,要支持文件增量上传模式。对已经上传过的文件不需要再发起上传操作5) 数据采集设备主动上传模式下,需要先以临时文件名(文件名添加.tmp后缀)上传文件到数据入库子系统设备,当文件上传完成后,数据采集设备再把已经上传完毕的的文件的名字由临时文件名修改为正式文件名,即把文件名的.tmp后缀去掉6.3 数据入库子系统与数据存储子系统接口要求要求入库子系统能够批量将用户上网原始记录数据,按照指定格式和大小,提供给存储子系统,由存储子系统完成数据

38、导入工作,并完成分布式存储。6.3.1 1 接口协议入库子系统与查询子系统之间的接口采用FTP协议实现数据交换,交换对象为入库子系统处理过的用户上网原始记录。要求入库子系统具备通过FTP协议主动将用户上网记录文件上传到存储子系统的功能。入库子系统主动上传文件时,需要保证为增量上传模式,即每次上传新产生的记录文件。6.3.2 2 文件命名和生成要求入库子系统产生的用户上网记录文件,其文件名应遵守以下命名规则:年4位+月2位+日2位+时2位(24小时制)+分2位+秒2位+文件序列号5位,从0开始+省分代码3位+采集服务器编码3位+文件后缀(.txt),例如:20120111144025123450

39、10123.txt。文件生成周期:每10分钟(默认值,可以设置),单个文件大小:200MB(默认值,可以设置,最大1GB),在两个指标同时设置时,单一指标到达阀值则结束文件。每个时间周期内,文件大小超过设定的大小阀值,则保存多个文件,同一周期内的文件通过nnnnn序号区分。6.3.3 3 数据格式要求(1)文件内容要求:每条数据内的字段需要有分隔符,分隔符为单字符“,”; (2)文件中每条记录数据以换行符号“n”表示结束;(3)可为空的字段且数据确实为空,则在此字段内不用填入任何值。6.3.4 4 文件读写冲突控制为了避免记录文件操作冲突,在数据提供方(入库子系统)和数据接收方(存储子系统)之

40、间需要通过保证文件操作的一致性来避免冲突,具体要求如下:(1) 当数据提供方(入库子系统)所上传的话单文件是用gzip压缩后的而文件,在完成上传一个数据文件之前,要求在传输过程中保证文件后缀为“.tmp”,在上传工作完成,可以提交给存储子系统进行处理之后,将文件后缀改为“.gz”。(2) 数据使用方(存储子系统)在检查到.tmp文件时,不能对该进行数据文件操作。只有在指定目录搜索到.gz文件时才可以进行相关的文件读取、移动、删除等操作。(3) 入库子系统工作在主动上传模式下,要求记录文件以增量模式上传,保证文件不重复传送。6.4 数据存储子系统与数据查询子系统接口要求存储子系统为上层数据查询子

41、系统提供对象查询HTTP接口、记录检索API接口,作为存储子系统存储提供对外服务的接口,使查询子系统可以根据查询条件,快速精准的查询到所需用户上网记录数据。6.4.1 接口协议查询子系统可以通过webservice接口或者API接口访问存储子系统中的数据。存储子系统需要给应用提供基于webservice的访问接口,以及支持c/c+/java等语言的API接口。6.4.2 网络文件传输接口存储子系统允许查询子系统通过TCP/IP方式访问存储子系统,进行文件系统浏览操作。6.4.3 查询条件对于查询条件,可以指定查询关键字,如手机号码(MSISDN)、时间段、业务类型、话单类型、目的地址等。6.4

42、.4 结果返回方式要求存储子系统同时支持以记录及文件两种方式返回查询结果。7 性能与可靠性要求7.1 性能要求总体性能可达到从采集到入库时间在30分钟以内,性能包括采集+传输+系统分析+入库在采集+传输方面,数据采用压缩传输,减少传输量,需要带宽,使采集+传输在15分钟内完成;hadoop性能保证系统分析+入库在15分钟内完成。7.1.1 采集和解析指标1) 数据采集子系统生产设备对Gn接口PDP事件或消息合成的准确率不低于99%;2) 数据采集子系统可以缓存7天的记录;3) 数据采集子系统生产设备单设备需要支持500Mbps以上的IP流量分析能力和每秒20万业务报文的处理能力;4) 数据采集

43、子系统生产设备单设备需要支持不少于30万在线用户;5) 数据采集子系统生产设备单设备需要支持每秒40万PDP信令处理能力。7.1.2 记录生成性能指标数据采集子系统生产设备在访问行为发生后详单文件生成时延一般不大于10分钟。7.1.3 记录传输时间详单文件从省分服务器传输到总部集中化平台时间一般不大于10分钟。7.1.4 数据入库性能指标数据入库子系统生产设备在访问行为发生后上网记录入库时延一般不大于10分钟;7.1.5 数据存储性能指标具备存储全国移动用户不小于4个月的原始上网记录能力,包括3个月的历史记录和当前月记录。 7.1.6 数据查询性能指标1) 数据查询子系统设备需要支持全网用户每

44、秒4000次的查询请求处理能力2) 数据查询子系统设备在接收到查询请求信息后返回响应的时延不大于1秒7.2 可靠性要求集中化上网记录查询及分析系统应保证724小时不间断运行,系统硬件构成应具有冗余等安全措施。设备的MTBF(Mean Time Between Failure,平均故障间隔时间)应小于或等于每年50分钟内。每年每台设备故障率不超过2%。设备具有避免单点失效的功能,从而保证系统的可靠度不低于99.99%,要求某一个设备的宕机不会影响业务的运行。具体可靠性措施如下:l 系统能够避免单点失效,即某台设备宕机不会影响到整个业务的运行l 系统的系统实现阵列级RAID备份l 系统提供关键部件的冗余能力l 系统设计寿命应大于10年l 系统的硬件与软件相互配合,提供对系统故障的管理能力l 系统要求可靠、稳定,平均故障时间间隔应不低于5000h,故障平均修复时间不高于1h。硬件设备应有较高的可靠性和容错能力8 时间同步要求集中化上网记录查询及分析系统设备的同步要求如

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 建筑/施工/环境 > 项目建议


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号