《建行XX分行灾难备份系统规划.docx》由会员分享,可在线阅读,更多相关《建行XX分行灾难备份系统规划.docx(71页珍藏版)》请在三一办公上搜索。
1、灾难备份系统建设规划 1、概述 随着计算机技术和通讯技术的高速发展,以计算机和通讯技术为基础的金融电子化系统得到了飞速发展。建设银行xx分行为了发挥计算机城市综合网系统的最大优势,在市场竞争中保持建设银行现有的科技优势,能够给大行业大企业提供全省范围内的优质服务,加强城市综合网系统的安全运行。规划将建设银行xx分行全省范围内的客户数据帐务信息,集中到省分行运行中心统一处理,这是计算机应用技术发展的必然,也是建设银行xx分行业务发展的需要。随着数据集中处理的实施,可以预计,建行的业务运作、经营管理将越来越依赖于计算机网络系统的可靠运行。建设银行所提供金融服务的连续性以及业务数据的完整性、正确性、
2、有效性,会直接关系到我们建行的生产、经营与决策活动。一旦因自然灾害、设备故障或人为因素等原因引起计算机网络系统停顿导致信息数据丢失和业务处理中断,将会给建设银行xx分行造成巨大的经济损失和声誉损害,受到致命的打击。将全省客户帐务数据集中统一处理,因数据集中处理伴随而来的运行风险将因为灾难发生大大增加。生产运行主机系统及其配套设备一旦发生故障,就会导致在全省建设银行范围内所有营业柜台停止营业的风险。会计、储蓄、信用卡等建设银行的三大主营业务的停业,建设银行xx分行面临的将是灾难性打击。因此,生产运行系统的灾难备份系统就显得格外重要。我们认为,一旦实施全省数据集中,灾难备份系统应该与生产运行应用系
3、统(全省集中)同步投入使用,保证全省数据集中处理系统的运行安全。 根据建设银行xx分行数据集中处理领导小组的统一安排,1999年10月10日到10月20日,分行科技处组织人员在成都市龙泉,进行封闭式工作,制定城市综合网系统全省数据集中处理规划,本应用系统灾难备份系统建设规划是其中很重要的分部。1.1 计算机系统灾难备份概念简介 1.1.1 计算机系统灾难定义 计算机系统灾难是指造成重要业务数据丢失,使业务中断了不可忍受的一段时间的计算机系统事故,这些事故导致银行丧失了全部或部分业务处理能力,引起企业营业收入下降、信誉降低和形象受损,甚至威胁其生存。造成计算机系统灾难性事故的原因有自然灾害、基础
4、设施的突发性事故、计算机系统故障和各种人为因素等。 1.1.2 灾难备份与灾难恢复基本概念 灾难备份: 灾难备份是指为了减少灾难发生的概率,以及减少灾难发生时或发生后造成的损失而采取的各种防范措施。 灾难恢复: 灾难恢复是一个在发生计算机系统灾难后,在远离灾难现场的地方重新组织系统运行和恢复营业的过程。灾难恢复的目标一是保护数据的完整性,使业务数据损失最少甚至没有业务数据损失。二是快速恢复营业,使业务停顿时间最短甚至不中断业务。 灾难备份中心: 灾难备份中心是一个拥有备份系统与场地,配备了专职人员,建立并制定了一系列运行管理制度、数据备份策略和灾难恢复程序,可以承担灾难恢复任务的机构。 灾难应
5、急方案: 灾难应急方案是指在发生计算机系统灾难事件时,为了尽可能减少损失,而对计算机应用系统采取的抢救措施、故障隔离措施、恢复过程以及工作人员救护和撤离计划等。 灾难恢复方案: 是一套为保证在计算机系统发生灾难后恢复业务运行而预先制定的一套技术措施、管理方法和处理步骤。它是在充分考虑经济、技术、管理和社会条件的可行性的基础之上,提出的最佳灾难恢复策略。 1.1.3 灾难备份数据分析从数据用途角度分析一般可将需要备份的数据分为系统数据、基础数据、应用数据、临时数据;根据数据存贮与管理方式又可分为数据库数据、非数据库数据、孤立数据、遗失数据。 系统数据(SYSTEM DATA): 系统数据主要是指
6、操作系统、数据库系统安装的各类软件包和应用系统执行程序。系统数据在系统安装后基本上不再变动,只有在操作系统、数据库系统版本升级或应用程序调整时才发生变化。系统数据一般都有标准的安装介质(软盘、磁带、光盘)。 基础数据(INFRASTRUCTURE DATA): 基础数据主要是指保证业务系统正常运行所使用的系统目录、用户目录、系统配置文件、网络配置文件、应用配置文件、存取权限控制等。基础数据随业务系统运行环境的变化而变化,一般作为系统档案进行保存。 应用数据(APPLICATION DATA): 应用数据主要是指业务系统的所有业务数据,对数据的安全性、准确性、完整性要求很高而且变化频繁。 临时数
7、据(TEMPORARY DATA) 主要是指操作系统、数据库产生的系统运行记录、数据库逻辑日志和应用程序在执行过程中产生的各种打印、传输临时文件,随系统运行和业务的发生而变化。临时数据对业务数据的完整性影响不大,增大后需要定期进行清理。 数据库数据(DATABASE DATA): 是指通过数据库管理系统(DBMS)来进行存取和管理的数据。 非数据库数据(NON-DATABASE DATA): 是指通过文件等非数据库管理系统来进行存取和管理的数据。 孤立数据(ORPHAN DATA): 是指从最后一次业务数据备份后到灾难发生、系统运行停止前未备份的数据。这部分数据通常需要通过人工等方法重新录入到
8、系统中。一般情况下,孤立数据越多,系统恢复的时间就越长,业务的停顿时间也就越长。孤立数据的多少与数据备份的周期有很大关系。 对数据库数据可通过逻辑日志来恢复全部或部分孤立数据,对非数据库数据则需通过其它方法如缩短备份周期来减少孤立数据。 遗失数据(LOST DATA): 是指无法恢复或重建的数据。在灾难备份系统的设计与实施中,要重点考虑的就是防止遗失数据的产生或减少遗失数据的数量,以及如何快速查找遗失数据等等。 从各种数据的数据量增长速度、数据变化频率等方面考虑,应用数据、临时数据、基础数据、系统数据都具有不同的特点,如图1.1所示。系统数据基础数据临时数据应用数据变化与更新频率快(数据量)大
9、小慢 图1.1 数据量增长速度、数据变化频率关系示意图 因此从数据备份角度讲,上述各种不同的数据类型需采取不同的备份策略,如采取相应的数据备份技术及不同的备份周期,重点保护应用数据等。 1.1.4 灾难备份系统的组成 灾难备份系统一般由可接替生产系统运行的后备运行系统、数据备份系统、终端用户切换到备份系统的备用通讯线路等部分组成。 在正常生产和数据备份状态下,生产系统通过人工或网络传输方法向备份系统传送需备份的各种数据。备份中心与生产中心及终端用户的关系如图1.2所示。图1.2 生产中心与灾难备份中心正常关系图 灾难发生后,备份系统将接替生产系统继续运行,备份中心、生产中心及终端用户三者之间的
10、关系如图1.3所示。此时重要营业终端用户将从生产主机切换到备份中心主机,继续对外营业。 图1.3 灾难恢复时生产中心与灾难备份中心关系图 1.1.5 数据备份方式简介目前比较实用的的数据备份方式可分为本地备份异地保存、远程磁带库与光盘库、远程关键数据+定期备份、远程数据库复制、网络数据镜像、远程镜像磁盘等六种。( 1)本地备份异地保存 是指按一定的时间间隔(如一天)将系统某一时刻的数据备份到磁带、磁盘、光盘等介质上,然后及时地传递到远离运行中心的、安全的地方保存起来。(2)远程磁带库、光盘库 是指通过网络将数据传送到远离生产中心的磁带库或光盘库系统。本方式要求在生产系统与磁带库或光盘库系统之间
11、建立通信线路。( 3)远程关键数据+定期备份 本方式定期备份全部数据,同时生产系统实时向备份系统传送数据库日志或应用系统交易流水等关键数据。(4)远程数据库复制 在与生产系统相分离的备份系统上建立生产系统上重要数据库的一个镜像拷贝,通过通信线路将生产系统的数据库日志传送到备份系统,使备份系统的数据库与生产系统的数据库数据变化保持同步。(5)网络数据镜像 是指对生产系统的数据库数据和重要的数据与目标文件进行监控与跟踪,并将对这些数据及目标文件的操作日志通过网络实时传送到备份系统,备份系统则根据操作日志对磁盘中数据进行更新,以保证生产系统与备份系统数据同步。(6)远程镜像磁盘 利用高速光纤通信线路
12、和特殊的磁盘控制技术将镜像磁盘安放到远离生产系统的地方,镜像磁盘的数据与主磁盘数据以实时同步或实时异步方式保持一致。磁盘镜像可备份所有类型的数据。 1.1.6 后备运行系统的状态按后备运行系统的准备程度,可将其分为冷备份、温备份和热备份三大类。冷备份:后备运行系统未安装或未配置成与生产系统相同或相似的运行环境, 应用系统数据没有及时装入备份系统。一旦发生灾难,需安装配置所需的运行环境,用数据备份介质(磁带或光盘)恢复应用数据,手工逐笔或自动批量追补孤立数据,将终端用户通过通讯线路切换到备份系统,恢复业务运行。优点:设备投资较少,节省通信费用,通信环境要求不高。缺点:恢复时间较长,一般要数天至一
13、周,数据完整性与一致性较差。温备份:有后备运行系统安装场地、后备运行主机和通讯设备,后备运行系统已安装配置成与生产系统相同或相似的系统和网络运行环境,安装了应用系统业务定期备份数据。一旦发生灾难,直接使用定期备份数据,手工逐笔或自动批量追补孤立数据或,将终端用户通过通讯线路切换到备份系统,恢复业务运行。优点:设备投资较少,通信环境要求不高。缺点:恢复时间长,一般要十几小时至数天,数据完整性与一致性较差。热备份:后备运行系统处于联机状态,生产系统通过高速通信线路将数据实时传送到备份系统,保持备份系统与生产系统数据的同步。也可定时在备份系统上恢复生产系统的数据。一旦发生灾难,不用追补或只需追补很少
14、的孤立数据,备份系统可快速接替生产系统运行,恢复营业。优点:恢复时间短,一般几十分钟到数小时,数据完整性与一致性最好,数据丢失可能性最小。缺点:设备投资大,通信费用高,通信环境要求高,平时运行管理较复杂。1.2 国外灾难备份技术发展趋势 1.2.1业务连续性要求的提法与灾难恢复目标的变化 建立灾难备份中心的最初目的是:以最合理的代价保护应用数据的完整性与安全性,在灾难发生后尽快恢复运行,减少业务停顿时间,尽可能不中断或不影响业务的正常进行,使灾难造成的损失降到最小。即不管两个系统相离多远,当一个数据中心出现问题时,另一个数据中心就应能迅速接替运行,既要保证业务数据的完整性,又要保证关键业务的连
15、续性。 随着商业银行的业务发展及竞争的日益加剧,国外商业银行又提出了业务连续性的要求。这种要求的产生背景是: (1)商业银行承诺向客户提供“3A”服务(即任何时间Anytime,任何地点Anywhere,任何方式Anyways)。由于家庭银行、企业银行、网络银行、电话银行、ATM/POS等电子银行的出现,客户不受银行终端用户的上下班时间及位置的限制,享受银行提供的金融服务。 (2)随着银行金融服务和金融市场的拓展,商业银行比较注重银行间相互联网。这样,当客户外出时,无需携带大量现金,也无需在当地银行、外币找换店及酒店兑换外币,可直接在当地自助设备上提取当地货币,还可办理各种存取款、转帐、申请结
16、单或支票等业务,既节省时间,又极大方便了客户。由于时差等原因,要求银行服务具有连续性。 ()在开放的金融市场环境下,为适应市场需求,发达国家的商业银行从注重规模效益转为重视深度效益。注重客户关系及客户价值是变革的关键,而深度效益的内涵是对详细客户信息和市场信息的组织和分析,利用数据仓库(DATA WAREHOUSE)、数据采掘(DATA MINING)技术从业务数据中提取可供辅助决策用的信息。数据仓库是将银行各自分散的原始数据(如主机中的帐务数据)汇集和整理成为单一的管理信息数据库、客户信息数据库,面向专题和时间组织数据,并对数据进行集成。使用数据采掘技术从数据仓库中提取隐藏的预测性信息,为银
17、行提供完整、及时、准确的商业决策信息,为银行经营决策人员提供辅助决策支持。它要求原始数据具有实时性、连续可用性,并具有较好的完整性与长时间延续性。 保持业务的连续性要求灾难恢复系统实现更高的目标:除了以最合理的代价保护应用数据的完整性与安全性,在灾难发生后尽快恢复运行,减少或尽可能消除业务停顿时间外,还应做到: (1)保证业务的连续性与延续性,即保证业务数据的连续性,为银行的决策支持系统提供连续完整的基本数据; (2)缩小或取消应用系统用于批处理和数据备份(如磁带备份)的时间,保证关键业务服务24小时不中断,使应用系统的服务时间达到7X24,满足银行互联及客户的需求; (3)为业务发展及应用开
18、发提供与生产系统完全一致的开发与测试环境,如测试2000年日期问题,开发测试新应用程序等。 1.2.2 灾难备份技术的发展趋势 灾难备份技术的发展趋势主要有三个方面: ( 1)采用实时热备份技术。实时热备份技术具有一次性投资昂贵、通讯费用高等缺点,但具有最好的数据完整性与业务连续性保证。随着商业银行的业务发展及竞争需要,银行的业务连续性要求将越来越高,采取实时热备份技术来实现灾难备份是未来的发展趋势。 (2)外包方式:灾难恢复计划涉及到业务风险分析、方案选择、实施、测试、培训、演习等内容,是一项既复杂又繁锁的工作。采用外包方式则可将灾难恢复计划交给专业计算机公司来完成,银行则可专心从事银行的生
19、产与经营。 (3)开发灾难恢复计划辅助工具:灾难恢复计划是一项系统工程,开发灾难恢复计划的辅助工具与系统是非常必要的,它包括:备份策略决策系统,灾难恢复指引系统,自动运行管理系统等。 1.2.3 灾难恢复计划辅助工具的应用 (1)备份策略决策系统 备份策略决策系统应以风险及损失分析为基础,同时考虑成本、恢复速度、防灾种类、数据的完整性等因素,通过科学的分析及决策方法来确定应采用的备份策略。 (2)灾难恢复指引系统 通过将相应的灾难恢复处理流程编成相应的在线指引性软件系统,在灾难发生后指导管理维护人员如何一步一步地依照设定好的步骤,准备相应的资源,执行相应的操作,从而准确地进行灾难恢复。灾难发生
20、后的恢复工作是一项复杂的系统工作,不是仅凭经验就可以做好的,恢复工作必须依照严格的操作指南来完成,以保证整个系统恢复工作的有序进行。 (3)自动运行管理系统 运行自动化是指通过软、硬件等措施,实现生产系统及备份系统的全部或部分自动操作。这样既可减少人员的投入,又可减少由于人为失误而带来的损失,从而提高整个系统的安全性与可靠性。2、备份系统规划的制约条件2.1 技术上的制约因素 技术上的制约因素主要有以下几个方面:(1)灾难恢复技术比较复杂。开放系统(xx分行系统属于开放系统)远程备份可采用EMC或STK的远程磁盘镜像技术或者数据库管理系统厂商的热备份技术,如INFORMIX HDR/CDR。I
21、BM公司在RS6000计算机上有系统一级的热备份技术HAGEO。HP公司在HP-9000计算机上有硬件级的远程磁盘阵列镜像技术HP SureStore E-XP256。这些技术的实施都比较复杂,需要进行高层次的培训及操作管理熟悉。并在实际使用方面加以多方面的考虑和规划。(2)应用系统需要改造我们现在运行的城市综合网应用系统在系统的结构、信息组织及运行方式等方面未充分考虑数据备份及灾难恢复的需求。如城市综合网系统的数据库SAVDB,存放了储蓄业务、信用卡业务的所有客户帐户信息、会计信息、报表数据和各种标准数据,有发生变化频繁的支持日常业务交易的数据(流水帐、明细户主帐、综合户主帐等),有发生不频
22、繁的数据(明细帐、总帐、报表等),也有基本不发生变化的数据(科目字典、利率表、机构编码表等)。这些数据存放在一起,造成每天有70%以上的数据在重复备份,既占用大量数据存储资源(磁带、硬盘空间),需要计算机主机硬件资源频繁的升级或更换;更占用了比较多的数据备份及恢复时间,造成数据全省集中潜在的危机。2.2 管理和认识方面的制约因素(1)在灾难备份中心的运行管理上,尚无成熟的规章制度,无经验可谈,需要借鉴国内外的成熟经验,需要在实践中不断摸索。(2)灾难备份中心的建设尽管看起来主要涉及众多技术方面的问题,但灾难备份中心的建设是一项浩大的系统工程,需要各部门的参与,而绝不仅仅是技术部门的事,灾难备份
23、中心的建设应该由管理的决策高层来决定和推动。2.3 投资方面的制约 要建立一个技术比较先进、功能完备的灾难备份中心,具体说来,就是建立一个能在较短时间(如在3小时以内),接替生产运行系统工作并保持生产运行系统的运行性能的灾难备份系统,投资是巨大的,因为灾难备份系统应该具有生产运行系统的所有投资,还要加上。3、规划的基本原则由于存在着各种制约条件,要确定一个理想的灾难备份与恢复策略是非常困难的,必须综合考虑各方面的因素。我们认为,灾难备份规划的制定应遵守以下基本原则。3.1 侧重于保护业务数据安全。灾难备份的目标有两个,一是保护数据的完整性,尽量减少业务数据丢失,最好没有业务数据丢失,从而减少业
24、务风险。二是快速恢复营业,使业务停顿时间最短。要实现保证业务连续性的目标,资金投入要比保护数据完整性的目标大得多,而“数据是银行的生命线”,因此在制定灾难备份策略时应侧重于保护业务数据安全,将确保数据安全作为灾难备份的首要目标。3.2 充分利用已有资源。要充分利用已有的机器设备、机房等资源。尽可能少投入新增设备购买资金。如要投资,也要与其他的工作项目一起综合利用资源的使用,如软件测试、新技术实验等。3.3 灾难预防措施与灾难备份策略相结合。灾难备份作为银行计算机信息系统安全技术机制的一个重要组成部分,与灾难预防措施有着密切的联系,采用灾难预防措施可以大大地减少灾难性故障发生的概率,启用灾难恢复
25、系统,还是在运行中心进行现场恢复要作全面的、综合的考虑,作出最优的决策。3.4 目前管理运行上可行,又要考虑将来的发展变化。目前,我行正处于从专业银行向国有商业银行转化的体制改革之中,总行科技部也正在进行灾难备份建设的总体规划。因此灾难备份中心的建设的策略是:既要在目前管理运行上是可行的,又要能适应将来的发展变化。4、需求分析4.1 计算机系统灾难分析4.1.1 灾难类型 (1)自然灾害:造成计算机灾难的自然灾害有:火灾、水灾、雷击、台风、地震、鼠害等。根据有关资料,成都地区发生毁坏性地震的可能性不大,并且,现有生产运行中心所在地-民兴大厦,在修建时作了抗7级以下地震的设计。成都地区附近无大江
26、大河,不会出现洪涝。因此对我们生产运行系统来讲,自然灾害主要是指水灾、火灾、雷击和鼠害。 (2)计算机系统故障:引起计算机系统故障的因素有下述几点: a.主机系统故障:主要指:数据库系统故障、系统软件故障、硬盘损坏、网卡故障、电源故障、应用系统缺陷、其它故障 b.主机房故障: 主要指:主机房电源故障、主机房通讯故障、主机房水灾、主机房火灾、主机房鼠害 c.整幢楼房故障: 主要指:整幢楼房电源故障、整幢楼房火灾或水灾、整幢楼房其它灾害 ()人为因素:由于应用系统缺陷、误操作、人为蓄意破坏、外来暴力事件等都将直接影响系统的安全运行。 图4.1是1988年以来世界范围内计算机系统灾难统计。 图4.1
27、计算机系统灾难统计图 (资料来源:美国UNISYS公司) 4.1.2 国外银行和公司计算机灾难案例1997年四月下旬,在香港零售银行业占有一半以上市场的汇丰银行和恒生银行由于电源系统发生故障导致中枢电脑系统停机,造成“该行一百三十年以来最严重的事故”。故障期间,这两家银行的八百多部自动柜员机暂停服务两个小时,同时柜台服务和电话银行服务也受到严重的影响,这次重大事故立刻成为传媒的焦点,给两行业务和信誉造成极大损失; 1996年1月美国南加州洛杉矶发生6.6级地震,造成三百亿美元的损失;1995年1月17日日本神户地区大地震摧毁了1700多部电脑系统,造成一千多亿美元的损失;1992年4月美国芝家
28、哥市中心商业区河水倒灌电力管道,致使200家电脑中心受损;1990年8月美国纽约CON EDISON电力公司发生火灾,致使120多家电脑中心遭受损失。 4.1.3 对建设银行计算机灾难成因的分析 根据对各分行调查的材料统计分析,1997年六月份以前全国建设银行计算机应用系统发生的故障排序如下: ( 1)通信线路出现故障最频繁。一旦出现故障轻则影响数个网点,重则影响大部分甚至整个地区。如某直辖市通讯线路出现故障致使建行ATM全部停业3天;某计划单列市电信局更换设备考虑不周,全市线路处于瘫痪状态整整7个小时。 (2)引起计算机系统停顿的内部因素,一是数据库管理系统存在缺陷,二是数据库厂商与机器厂家
29、在产品兼容性等方面工作未做好,一旦出现问题,相互推诿责任,常常出现数据库系统瘫痪现象,导致业务中断。如沿海、沿江一些省分行全部采用INFORMIXONLINE作为数据库平台,但数据库系统经常瘫痪,时间在十几分钟到数小时之间不等,在某一分行竟长达2天之久。(3)某些地区电网周波不稳定,常常损坏中心机房UPS等设备。(4)某些地区雷击和火灾对我行计算机系统构成了直接威胁。如沿海某县行由于雷击,使网络设备和供电设备遭到严重破坏,损失高达70万元;某分行信托公司由于接线板短路引发火灾,大楼受到严重破坏,计算机设备全部报废,证券部停业,在社会上造成很坏的影响 。某分行一县支行大楼发生火灾,整幢大楼全部被
30、烧毁,幸亏一技术人员冒着生命危险从金库中抢出数据备份磁带,从而避免了毁灭性的损失。 (5)由于应用系统缺陷、后台人为误操作等造成系统停机的现象也不同程度存在。如某计划单列市分行由于应用软件缺陷导致停机1.5小时;某二级分行技术人员由于误删数据库停机长达半天;某二级分行由于轧帐出错,致使停机长达8小时。 (6)由于管道破裂引起机房进水的情况存在。如某行由于水管破裂差一点使配电柜受到损坏;某行因水管破裂使一台U6000主机受淹,幸好未开机而未受到严重损坏。 4.2 业务连续性要求分析 4.2.1 国外研究分析资料 ()调查到的国外各行业可以忍受的最长停顿时间如下: 银行:2.0天 商业:3.3天
31、工业:5.0天 保险:5.6天 ()停顿14天后企业面临的危机和恶果(若没有灾难备份措施) 75%的业务完全停顿 43%的业务再也无法开张 29%的公司在二年内倒闭 ( 资料来源:美国明尼苏达大学) 4.2.2 我行各种业务最大允许停顿时间要求分析() 允许停顿时间因素分析 A、不同的业务系统允许的停顿时间不同 面向客户的实时性业务系统及功能要求停顿时间短,内部的信息处理业务系统停顿时间可以稍长。 B、不同的时间段允许的停顿时间不同 周末、中午、夜晚可容忍的业务系统停顿时间可以稍长,业务量高峰期、月末、季末、年末业务系统停顿时间要求短。 C、不同的分行允许的停顿时间不同 经济发达地区公民金融意
32、识强,业务系统可容忍停顿时间短,欠发达地区可容忍停顿时间可稍长。 D、客户对不同的灾难造成的停顿时间心理承受能力不同 对于区域性灾难如地震、机房火灾、公共数据网大面积瘫痪等,客户心理上可以承受,而对于由于银行自身原因如系统故障造成系统频繁停顿,客户心理上比较难于接受。 (2)计算机应用系统数据分析 操作系统、数据库管理系统、业务应用软件一旦装入,若不进行版本升级或功能改造,一般不会改动。主机系统配置参数、数据库系统配置参数、网络设备配置参数一旦配置完毕,若不作系统性能调整等工作也不会经常发生变化,但与业务系统的正常运转密切相关。 每天的交易流水等关键数据随时都可改变并且是业务系统数据的基础,通
33、过它可派生出其它业务数据如总帐、分户帐、明显帐等数据,因此关键数据是否正确、完整,对于保证业务系统数据的完整性、正确性、一致性,是至关重要的。 (3)业务系统等级划分 根据前面的分析,我们可以按各种业务系统由于其处理的业务类型、数据存储方式、处理方式、实时性要求、每天处理的业务量、单位时间内处理的业务量、与其相连的网点与系统个数等等条件,将业务系统划分为关键业务系统、重要业务系统、一般业务系统等。 关键业务系统:业务数据集中存放,所连网点及系统较多,对保证整个企业的正常运转至关重要;一旦业务中断,将会立刻使银行提供的服务及正常运作受到相当严重的影响。并且一旦在特殊时期如月末、年末、业务量高峰期
34、中断造成的影响更大,不仅经济损失大,企业信誉降低,而且有可能要承担潜在的法律责任。 目前我行的关键业务系统主要有:城市综合业务网络系统、清算系统等。 重要业务系统:业务中断将对整个企业的正常、有效运转产生较严重的影响。 目前我行的重要业务系统主要有:内部企业网系统、总帐传输系统、会计稽核系统、国际业务处理系统、房改业务处理系统等。 一般业务系统:业务中断将不会立刻对整个企业的正常运转产生严重影响,一旦中短可以容忍在数天或数周内恢复。 目前我行的一般业务系统主要有:人事档案系统、工程预决算系统等。 (5)各种业务系统最大允许停顿时间要求分析 业务中断持续时间愈长,损失愈大。不同的时期如日终、月末
35、、季末、年末、业务高峰期中断也是造成灾难损失的一个重要时间因素,且业务种类不同,造成的损失也不同。4.3 业务交易备份需求 (一)对数据集中处理城市综合网系统,全省建设银行营业柜台基本业务不能办理的时间不超过24小时。 (二)在24小时到48小时内,后台主机所有业务应用系统恢复运行;所有的会计柜台网点,60%的储蓄网点恢复业务,40%的ATM网点恢复业务。 (三)在48小时到72小时内,100%的储蓄业务要恢复业务,90%的ATM网点要恢复业务,稽核中心业务恢复工作。(四)由于通讯线路的限制,如果民兴大厦运行中心在短时间内不能恢复正常工作,则不能强求恢复所有网点的业务;由于备份系统主机资源的限
36、制,不能强求恢复生产系统所能处理的全部业务处理功能。5、备份策略 (一)根据不同的业务系统等级采用不同的应用数据备份方式。对于数据集中处理城市综合网系统,采用热备份方式;对汇划清算系统,由于本身具有故障后援功能,则采用定期备份的温冷备份方式。对其他业务系统,近期暂时不考虑进行灾难备份,待时机成熟后,再逐渐进行。(二)在同一系统中,根据数据的变化频率与重要程度,采用不同的应用数据备份方式。在城市综合网系统中,系统处理的数据可以大致分为客户帐务数据、会计信息数据、系统标准数据和会计报表数据,由于客户帐务数据是非常重要的数据,则要采取实时热备份方式,而对其他数据,采用定期温备份方式即可。(三)对系统
37、数据、基础数据、临时数据等,采用跟随变动、人工管理的备份方式。在系统数据方面,备份系统主机的操作系统、数据库产品随生产系统主机的操作系统、数据库产品的升级而升级;应用系统程序代码,因变动比较频繁,使用检测工具对程序代码变动进行检测,及时对备份系统的应用程序代码进行替换,随时与生产系统的程序代码保持一致;在基础数据方面,当生产系统改变后,制定完善的工作流程,保证备份系统也能得到及时的改变,可采用数据替换方式,也可采用人工再次修改的手工方式;在临时数据方面,采用定期定时备份方式。 (四)新鸿路备份中心备份系统具有的功能及性能是: A、对城市综合网系统、汇划清算系统,能进行数据备份和恢复,在生产运行
38、系统发生灾难遭到损坏后,能在较短时间内运行起来,接替生产系统的工作,保证银行业务的正常运行。 B、对汇划清算系统,应本身具有一定的故障后援功能,能备份好昨天的数据并及时恢复到备份计算机主机里; C、对城市综合网系统,要能备份实时的业务交易数据,特别是通存通兑数据、ATM存取款交易数据、POS转帐交易数据、证券转帐交易数据等, C、在灾难发生,恢复城市综合网系统、汇划清算系统的运行时。灾难备份系统应提供查找数据丢失恢复交易数据的手段和操作流程。D、建立的灾难备份中心系统的基本性能是: 满足业务交易运行的需要。当它接管运行系统工作时,运行性能不会明显下降; 可以在8个小时内恢复系统后台运行、恢复部
39、分前台业务交易; 当运行中心生产运行系统恢复正常后,可以在6个小时内顺利切换回生产运行系统。 备份网络系统建设的目标是:备份中心的网络在生产中心发生灾难事件时能够通过专线、卫星、拨号线等多种方式连接成都地区60%的网点及全川地市行的网络。能满足日常成都地区、地市行数据复制、软件测试的需求,建立多条链路、多种链路连接的生产中心与备份中心之间的高速可靠信道。6、实施策略由于前述的各种制约条件的限制,在实施灾难备份方案时,灾难备份的实施上采取以下策略:() 以灾难预防为重点 无论是否建立灾难备份中心,灾难预防都是第一位的。因此,积极采取有效的灾难预防措施,加强运行管理,加强灾难风险管理教育,对系统认
40、真进行灾难风险评估分析,针对影响系统安全的薄弱环节,制定整改措施,防止人为灾难发生。另外,要根据现有条件制定较完善的应急计划,即使发生灾难,也能最大限度地减少损失。()有步骤分阶段实施以“先重点,后全面”为工作的指导方针,分清轻重缓急,有步骤分阶段地实施,不断总结经验,逐步推广。 灾难备份规划的实施应优先考虑这些高等级业务系统,关键业务系统。由于关键业务系统对于银行的经营管理是至关重要的,所以应首先考虑对关键业务系统采取有效的灾难备份措施。(3)积极研究“投资少,实用性强”的灾难备份策略,少花钱,多办事,办好事。对于城市综合网络系统,要尽快开展磁带定期备份关键数据实时备份的可行性研究、应用软件
41、开发和试点工作;把这一既能有效地保护数据安全,又能减少投资的灾难备份策略早日应用到实际工作中。7、近期任务(23年)近期的主要目标是解决关键业务系统的灾难备份问题,摸索建设和管理灾难备份中心的经验。近期主要任务的如下:()采取有效的灾难预防措施,加强运行管理,确保计算机系统安全。认真执行中国建设银行计算机系统安全运行管理试行办法,切实加强运行管理,防范灾难性事故发生。适当地采取一些系统运行监控、自动化运行管理措施和手段,减少人为差错导致的故障,对灾难性故障苗头及早发现,及时采取相应处理措施。灾难备份中心的建设需要一个过程,在目前阶段,做好磁带备份异地存放工作,制定出周密的应急计划,通过加强管理
42、,将灾难风险控制到很小的程度。同时,加快备份系统的建设,使备份系统尽快投入运行。()建设灾难备份中心。由于灾难备份中心是一个以前建设银行没有的部门,因此近期两三年灾难备份中心的工作有:落实灾难备份中心的工作环境和人员;启动数据冷备份工作,分阶段实施数据温备份工作。()制定备份中心的灾难恢复方案。制定数据集中处理综合业务网络系统、汇划清算系统灾难恢复方案;(4)建设灾难备份通讯网络。 通讯网络建设是灾难备份的基础工程,应该首先进行建设。 在生产系统网控中心与灾难备份中心之间准备数据实时备份用的高速通讯链路。现在的情况是:民兴大厦与新鸿路之间有2M带宽的无线通到一条,128K的DDN通道2条;以后
43、,还可以将无线通道的带宽扩展到4M,128K的DDN有线通道扩展到8条。在新鸿路备份中心,还要准备比较齐备的网络通讯设备,以备备份系统运行使用。 ()结合灾难恢复开发新的应用软件。a.对综合业务网络系统进行维护和改造。开发关键数据及时备份与数据恢复软件;增加孤立数据追补功能;完善业务数据完整性与一致性检查功能。b.在新开发软件和旧系统进行整合时应考虑灾难备份问题。 新开发系统应考虑系统易于数据备份与恢复,有完善的数据完整性与一致性检查功能,有方便、高效、安全的孤立数据恢复功能。旧系统如果没有考虑数据备份与恢复的功能,则在进行系统整合时,在整合方案中,则应该把易于数据备份与恢复有完善的数据完整性
44、与一致性检查功能,有方便、高效、安全的孤立数据恢复功能等作为十分重要的方面提出来。我们在开发整合过程中应注意以下几个方面: 根据孤立数据恢复方法和数据完整性、一致性检查方法设计孤立数据恢复功能和数据完整性、一致性检查功能。 应用系统应设有灾难恢复状态。在灾难恢复状态下,只允许网点终端用户利用原始凭证等方法进行数据完整性、一致性检查和孤立数据恢复,不允许ATM、POS等自助设备做任何交易。 对整个业务系统进行分析,找出系统的关键文件,如交易流水,对其进行实时热备份,并增加向前向后恢复功能,使系统具有通过交易流水等关键数据方便地恢复应用数据的功能。 在开发新系统的过程中,应针对各种备份技术所能处理
45、的数据类型的不同,对各种关键数据进行适当集中与调整,例如一个交易尽可能只读写一个数据库,报表、单据等输出文件最好用数据库数据的形式来组织,这样使得数据的备份与恢复更加容易。在应用系统安全方案设计时,在确保系统安全的前提下,应考虑能容易地恢复或生成加密密钥等敏感数据。 ()建立灾难防范组织机制。 灾难备份还有一个比较重要的方面是建立灾难防范组织机制。我行要成立灾难恢复工作领导小组,研究业务发展中不断出现的新问题,制定出相应的备份工作政策措施,对全行工作进行指导,协调。成立灾难恢复工作办公室,由一名主管行长负责,参加人员包括科技、业务、行政等相关人员,负责灾难备份管理工作,以及检查、培训、模拟演练等工作。 ()建立健全灾难恢复管理制度。 根据建设银行总行灾难备份总体规划的规定结合我行的实际情况,现制定以下灾难恢复管理制度: 灾难报告制度:主要规定灾难的认定条件及报告程序等。 灾难恢复审批制度:主要规定各级领导的