《GAD双活存储集群方案.doc》由会员分享,可在线阅读,更多相关《GAD双活存储集群方案.doc(20页珍藏版)》请在三一办公上搜索。
1、技术方案建议书技术方案建议书目目 录录第第 1 1 章章 需求分析需求分析 3 3第第 2 2 章章 总体技术解决方案总体技术解决方案 5 52.1 方案拓扑示意图与简要说明 52.2 方案优势简要说明 62.3 VSP G1000 的高性能、高可靠性、高扩展能力 7 综合说明 7 高可靠性 9 高性能 11 高扩展性 122.4 双活存储集群的技术优势 132.4.1 VSP G1000 的 GAD 双活存储集群 132.4.2 GAD 双活存储集群的基础VSM142.4.3 GAD 与其他厂商双活集群技术的对比 152.5 现有核心 SAN 存储与新购存储的无缝集成 172.6 关键线路连
2、接示意图 172.7 存储虚拟化整合规划 182.8 远程容灾规划 19 选用 HUR 异步复制技术 192.8.2 HUR 异步复制软件的工作原理 202.8.3 HUR 异步复制软件与友商的技术对比说明 22第第 3 3 章章 数据迁移解决方案数据迁移解决方案 23233.1 数据迁移概述 23 迁移目标 23 数据迁移相关因素 233.2 数据迁移方法论 24 迁移评估设计阶段 24 迁移实施阶段 263.3 数据迁移技术的选择 27 可选的数据迁移技术 27 推荐数据迁移方案 292 / 20第第 1 1 章章 需求分析需求分析根据现状分析,本次项目的核心建设要点有以下 4 点:1)1
3、) 高性能高性能, ,高扩展性高扩展性, ,且可保证数据以与应用安全的存储设备且可保证数据以与应用安全的存储设备鉴于#的存储使用情况和未来的业务发展,需要高性能,高扩展性如存储产品的容量与端口等,高可靠性的企业级高端存储设备作为南方中心整体存储方案的支撑.2)2) 需要单一存储设备故障不影响业务生产需要单一存储设备故障不影响业务生产, ,即双活存储集群技术即双活存储集群技术#对存储的要求不仅仅是能保证单套存储设备的可靠性,而且要保证在极端情况下,单一存储设备故障时,不会影响关键业务的生产,此外,即使在单套存储设备故障时,另一节点的双活存储的性能也需能够高效支撑业务,因此双活存储需采用相同的配置
4、,以保证在单套存储出现灾难时,另一套存储可以以同样的性能支撑南方中心的业务.双活存储集群在写数据时是需要两套存储均确认写入成功才会执行下一写操作的,因此必须考虑双活存储集群技术对业务性能的影响.随着两套存储之间距离的增大,数据写入延时越长,因此,建议双活存储集群应在同一个数据中心中以保证业务性能.3)3) 必须满足长期规划必须满足长期规划, ,以实现双活基础上的远程容灾保护以实现双活基础上的远程容灾保护即使已经实现了双活存储集群,但由于两个存储在一个机房楼里,仍然无法避免整个数据中心灾难所带来的影响.因此,还必须在双活的基础上实现远程数据容灾保护的功能,以保证在灾难发生时仍有可用数据快速恢复业
5、务生产.4)4) 数据迁移数据迁移由于南方中心的核心业务系统是从中心拆分出来的,需要将中心的部分现有数据迁移到南方中心.因此,本项目必须提供一套可行的、完善的、风险系数最低的数据迁移方案,为南方中心业务系统的部署和上线运行打好基础.根据分析,本项目需要实施数据迁移的 IT 环境中具有如下特点:操作系统多样性:整体环境中主机包括 AIX、Windows、Linux、ESX等各种操作系统,服务器涉与多个品牌;数据格式的多样性:数据的存放主要以 Oracle 数据库为主,有 RAC和主备等多种形式的集群,另外还有主机文件系统,NAS 文件系统等;数据量大:数十 TB 规模的数据需要迁移到南方中心新购
6、存储;环境限制:距离远、网络带宽有限;这些特点都表明了数据迁移的复杂性,也对数据迁移的方法提出了挑战.因此数据迁移方案的选择和设计重点考虑以下要点:迁移方案应重点考虑数据初始化,即如何成功、快速的将数据从中心迁移到南方中心;迁移方案重点考虑与应用、操作系统、数据库的无关性,尽量通过更底层的技术,如备份恢复、数据库复制、存储复制等,这样可有效降低数据迁移的复杂性;3 / 20总之,数据迁移应考虑采用一个有效的方法来面向不同数据库、操作系统、服务器的各种应用的迁移,且迁移过程尽量缩短数据初始化的时间,完成南方中心的快速部署和上线运行.4 / 20第第 2 2 章章 总体技术解决方案总体技术解决方案
7、2.1 方案拓扑示意图与简要说明方案拓扑示意图与简要说明在明确项目建设目标,经过调研和分析,建议方案设计如下图所示:上图中紫色字体的部分是本次项目投标提供的 SAN 网络与存储设备.方案说明:SAN 网络层在 SAN 网络层面,方案采用两套 Brocade 6520 交换机作为 SAN 交换网络,形成双冗余连接,避免因单台交换机故障导致的存储业务中断.由于南方中心与中心之间的远程连接为 IP 网络,因此建议用户考虑增加FC/IP 路由设备,用以实现南方中心与中心之间的远程 FC SAN 路由连接,为基于存储的远程容灾复制提供链路支持.注:该设备未包含在本方案存储设备供货清单中存储层方案采用两套
8、 HDS 最高端的存储设备 VSP G1000 为南方中心的业务系统提供高性能、高可靠的支撑服务,且采用安全级别最高的双活存储集群来实现两套 VSP G1000 的设备级冗余故障切换,单套 VSP G1000 停机不会影响业务的运行,无须任何人为干预,业务系统能够连续不停机的对外服务.此外,方案中还采用一套 HDS 中端存储设备 HUS130,既可以为网管、监控等业务系统提供支撑服务,也可当作 VSP G1000 双活存储集群的仲裁节点使用.主机层考虑到系统可靠性,服务器应安装两块独立的 HBA 卡,分别连接到两台Brocade 6520 交换机,形成冗余链路.HDS VSP G1000 自带
9、 HDLM 动态多路径管理软件,可以安装在服务器操作系统中,用于管理路径负载均衡和故障路径自动切换.2.2 方案优势简要说明方案优势简要说明1) 高可靠性、高性能、高扩展性:VSP G1000 高端企业级存储,采用多控制器架构冗余设计,具有极高的可靠性.与此同时,VSP G1000 的性能也非常出色,其上一代产品 VSP 公开发布的SPC-1 测试结果为 60 万 IOPS,而 VSP G1000 预估 IOPS 可以达到 200 万以上.扩展性方面:VSP G1000 最大支持 2304 块磁盘,192 个前端口,2TB 缓存,能够充分满足未来的业务发展需求.2) 双活存储集群方案由两套 V
10、SP G1000 存储共同提供业务支撑服务,在任意一套存储出现严重故障如断电等无法工作时,业务系统能够继续运行,无须任何人工干预操作.在一套存储出现严重灾难时,单套存储仍可保证的业务的高效5 / 20运行,实现 RTO=0,RPO0 的高可靠业务连续性方案和数据安全方案.两套存储的配置完全相同,在一套存储故障时,剩余的单套存储仍可以提供相同的业务处理速度,不会降低服务水平.3) 可实现双活基础上的远程容灾保护VSP G1000 能够与中心实现远程容灾复制,从而实现中心与南方中心之间的数据互备容灾.虽然本项目选择的是利用数据库复制软件实现两中心间的容灾,但根据以往的项目经验,我们仍然建议使用存储
11、级容灾复制功能,对 Oracle 数据库的 Archive Log 再做一份副本数据,作为数据库复制软件的补充手段和备用手段,为两中心间的容灾方案提供更全面的技术支撑.4) 可行的、完善的数据迁移方案数据迁移是一个极其复杂的系统问题.如何选择一种可行的、完善的数据迁移方案,应重点从以下几个方面考虑:容灾复制技术优先本项目的建设目的就是为了实现南方中心与中心之间的远程容灾,因此建议首选容灾复制技术进行数据迁移.只有这样,数据迁移到南方中心并启动业务生产之后,才能够继续保持与中心之间的数据容灾复制关系.其他数据文件系统、NAS等,可以考虑采用 NFS、FTP 等方式迁移到南方中心.在具备条件的情况
12、下可实现两中心间的 FC/IP 路由通讯,也可以考虑使用存储系统的复制功能完成两中心间的数据迁移.电子传输比介质传送更可靠无论哪种复制技术,都具有非常完善的数据传输机制与校验机制,并且迁移到南方中心的数据可以与中心直接建立容灾复制关系.如果带宽条件有限,预估传输时间较长,建议考虑临时增容带宽,以提高初始化复制的处理速度.介质传输,无论是传送磁盘、磁带、甚至存储设备,都存在极高的数据损坏风险,并且时效性很差,需要再次通过数据复制进行数据更新,过程非常复杂.2.3 VSP G1000 的高性能、高可靠性、高扩展能力的高性能、高可靠性、高扩展能力2.3.1 综合说明综合说明权威机构 Gartner
13、于 2014 年 11 月对业界主流高端存储进行了全方位的综合评测,评测项目众多,评分标准细致且科学.最终排名结果显示:VSP G1000 排名第一并列第一的 HP XP7 是 VSP G1000 的 OEM 型号.Gartner 官方如下::/以下图片均为 Gartner 官方的截图:上图是 2014 年 3 月综合排名情况VSP 为 VSP G1000 的上一代产品,VSPP9000 为 VSP 的 OEM 产品综合排名第一.评测内容包括:管理性、可6 / 20靠性、性能、快照复制、扩展性、环保特性、多租户与安全、存储效率.上图是 2014 年 11 月的综合排名情况,VSP G1000X
14、P7 为 VSP G1000 的OEM 产品再次综合排名第一.2014 年 11 月 OLTP 典型数据库应用评测,VSP G1000 排名第一.2014 年 11 月 OLAP 典型数据库应用评测,VSP G1000 排名第一.2.3.2 高可靠性高可靠性整体的存储系统平台分为三个层次,主机层、网络层和存储层.主机层:主机层:在数据中心的生产区和交换区的业务系统中,主机主要进行信息处理和数据库运行,在主机端安装 HBA 卡用于建立数据访问通道.由于主业务系统是典型的OLTP 应用,所以应用对数据访问性能的要求非常高,为了满足这一要求,主机端需要多块 HBA 卡,提供多条数据通道,通过安装 H
15、DLM 数据通道管理软件,可以提供多通道之间的流量负载均衡,确保高性能的数据访问.另一方面,对于生产系统这样关键的系统,链路的安全性需要得到保证,HDLM 同样可以提供数据通道之间的失败切换功能.网络层:网络层:SAN 网络中网络层是非常关键的一个部分,它负责将主机和存储系统连接在一起,并且提供一个高灵活性、高扩展性的环境,以适应业务系统不断发展带来的主机和存储系统的扩展.在 SAN 网络设计中,我们采用冗余的网络设计,按照本项目的要求,我们全新配置 2 台 Brocade6520 交换机构成冗余 FABRIC,为主机和存储系统提供冗余的、可持续发展的连接路径.存储层:存储层:存储层或者说整个
16、 SAN 网络存储系统的核心设备是磁盘阵列,在数据中心存储系统中,我们建议配置两台高端存储设备做同步实现0数据丢失的保护;建议采用高性能、高可扩展性、功能强大的磁盘阵列系统VSP G1000 通用存储平台.VSP G1000 存储平台的出现,完全改变了存储业界的工业标准,致使各个竞争友商的产品又一次处于落后状态.VSP G1000 磁盘存储系统是业界唯一可以保证 100数据可用性的系统,整个系统采用全冗余的交换式结构设计,没有任何单点故障,双独立供电接口与内部 N+1 电源模块,冗余散热风扇,RAID 技术保护方式,全局动态热备份盘包,多独立 Cache 板设计,支持镜像写缓存技术,所有缓存都
17、是 NVS 保护的,保证系统高可靠性和实现 724365 天不停机运行要求.VSP G1000 存储系统也是最易维修的系统.系统的所有部件均支持热插拔和不停机进行更换、扩容和不停机地微码升级.当微码出现问题时可以自动不停机地返回旧版本并可不停机地加入微码的 Patch.这种维护特性是经过广大用户证实有效的技术,也是用户选择 VSP G1000 的原因之一.7 / 202.3.3 高性能高性能VSP G1000 虚拟存储系统是业界性能更高的多控制器企业级存储系统.其内部结构采用高性能、无瓶颈的全交换结构,如上图.前端控制器CHA、后端控制器DKA、数据缓存 cache 控制器多部分组成通过系统内
18、部交换系统核心为 HDS 专利技术交换芯片连接组成无阻塞的高速数据交换网络,提供 I/O 数据交换的多路由和高速的数据交换;前端CHA、后端DKA、控制缓存组成了点到点的网络结构,用于传输 I/O 和 cache 的控制信息,上述结构是目前业界最先进的存储结构设计;同时 VSP G1000 虚拟存储系统采用全局的数据检索技术和处理机制,保证了数据 CACHE 中的数据高速检索和 CACHE 命中效率,获得全世界各权威咨询与评估机构的高度评价,并被公认为是目前业界最高性能和最好的扩展性的存储系统.下图为权威评测机构 SPCStorage Performance Council官方截图,分别显示了
19、 VSP G1000 的上一代产品 VSP,与 Huawei 公司 18800 的 SPC-1 测试结果.虽然 VSP 最高 60 万 IOPS,略低于 Huawei 18800 最高 100 万 IOPS.但在平均响应时间方面,VSP0.25-0.7 毫秒却较 Huawei 188001.55 毫秒的表现要出色 5 倍以上.换言之,在相同的 I/O 压力情况下,Huawei 18800 的读写处理时长会是 VSP 的 5 倍,也就意味着业务操作的等待时间是 VSP 的 5 倍.毫秒.SPC 官方hds/A00136_Hitachi-VSP-Flash/a00136_Hitachi_VSP-H
20、AF_SPC-1_executive-summary_revision-1.pdfHuawei 18800:100 万 IOPS,平均响应时间 1.5-5 毫秒.SPC 官方:数据来源:2.3.4 高扩展性高扩展性VSP G1000 磁盘存储系统采用了全光纤的交换体系结构的设计,保证了系统的极大的扩充能力,系统内部最大可以扩充到 2304 块磁盘,内部最大扩充裸容量可以达到 8PB,通过虚拟化云的扩展可以达到 256PB.系统的数据 CACHE 最大可以扩充到 2000GB.VSP G1000 系统的前端通道最大为 192 个 8Gb 光纤通道接口.与此同时,VSP G1000 在设备扩展的灵
21、活性方面作出了巨大的努力,允许扩展机柜与控制机柜分开摆放,以解决机房空间紧张的问题,其他最大连接距离可达100 米.此外,VSP G1000 还可以通过内置的存储虚拟化功能,将其他符合 FC SAN 标准的磁盘阵列虚拟化整合进来,形成一个统一的存储资源池,其最大规模可以扩展到 256PB.2.4 双活存储集群的技术优势双活存储集群的技术优势2.4.1 VSP G1000 的的 GAD 双活存储集群双活存储集群VSP G1000 具有的 GAD 双活存储集群功能,存储真正成为了一个虚拟设备,不再依赖于具体的物理设备,类似于服务器的虚拟化一样,成为了一个存储资源池;8 / 20在存储物理设备更新换
22、代的过程中,虚拟的存储设备永远在线,业务永远在线,不会因为一台设备故障造成业务中断.GAD 双活存储集群功能,可以将来自两台 VSP G1000 的磁盘逻辑卷整合为一个虚拟卷交给服务器,服务器的写操作会被自动镜像写入到两台 VSP G1000 中,形成数据镜像保护,同时服务器的读操作会被自动分发到两台 VSP G1000 中的一台执行,从而提高数据的读取速度.通过这种双写双读的数据处理方式,VSP G1000 能够轻松的依靠内置功能实现双活存储集群,如下图所示:两台 VSP G1000 上的逻辑卷可以被整合成为统一的虚拟卷标示符,从主机看来如同来自不同路径的同一个逻辑卷,底层的数据双写和双读操
23、作则由 GAD 软件控制完成.这种技术使得主机的存储资源可以在两节点的 VSPG1000 上同时运行,在单台 VSPG1000 出现故障时,主机逻辑卷不需要人工干预进行切换,另外一台VSP G1000 上的逻辑卷可以持续提供服务,极大的降低了业务运行的风险,避免了出现故障时需要大量时间人工恢复业务的风险.本方案中推荐两套 VSP G1000 采用完全相同的配置,目的是在一套存储出现灾难时,另一套存储可以以同样的性能高效的支撑整个业务中心的运行,使得整体存储性能始终保持在一个相同的水平.2.4.2 GAD 双活存储集群的基础双活存储集群的基础VSMVSP G1000 的 GAD 双活存储集群功能
24、,其基础功能是 VSP G1000 创新的存储虚拟机 Virtual Storage Machine.VSP G1000 创造性地将虚机的概念引入存储,在一台物理存储内允许用户按照业务和应用的要求定义多个 Virtual Storage Machine, VSM 与一台存储类似,具备自己的存储 ID,设备序列号和端口 WWN,通过 VSM 的定义,能够有效提高存储资源利用率,并实现最大的架构、业务的灵活性. VSP G1000 通过 VSM 实现了 GAD 功能,GADGlobal-Active Device 是利用 VSP 的虚拟控制器功能来实现 VSP G1000 的水平扩展和设备双活业务
25、全部在线.VSP G1000 未来可以实现 8 台 VSP G1000 的横向扩展能力.如上图所示,主机识别 LUN 是通过控制器 ID 来识别,VDKC 是 VSP G1000 上虚拟出来的一个虚拟控制器,它可以将多台存储底层的物理控制器虚拟成同一个控制器,这样主机通过虚拟控制器访问后端磁盘资源时始终和一个控制器 ID 交互,无论后台存储如何变化,主机都不会有感知,从而实现了业务永远在线,双活等特性.如上图所示,GAD 能实现双活数据中心,应用数据在两端同时写入 2 台存储,另外还需要一个 quorum 设备做仲裁判断,仲裁盘可以是 VSP G1000 内部磁盘,也可以是通过 VSP G10
26、00 虚拟化的外部磁盘.部署后应用层面由 Cluster 进行高可靠连续性保护,数据层面有 GAD 进行高可靠连续性保护.双活数据中心在数据读取时可以分开读取,即本地主机读取本地存储数据,降低延时,提升应用响应速度.2.4.3 GAD 与其他厂商双活集群技术的对比与其他厂商双活集群技术的对比GAD 是目前业界唯一的,通过存储内置功能实现的双活存储集群解决方案.其他厂商则通过增加虚拟化与双活网关的方式实现类似功能.这两种技术方案的主9 / 20要区别如下以 VSP G1000+GAD 对比 EMC VPLEX+VMAX 为例:指标与特性指标与特性VSP G1000GADEMC VPLEX + V
27、MAXHuawei VIS6000+18000IBM SVC+DS8800前端端口最大 192 个 FC 接口,冗余设备不影响存储最大 32 个 FC 接口,任何一个端口坏掉都会引起 VPLEX 控制器重启最大双活卷64000 个16000 个体系架构分布式交换架构高端存储,GAD 为内置软件,双活方案不增加任何软硬件层VMAX 40K 是 8 个中端存储的堆叠, VPLEX 是多增加的一层 PC 架构的虚拟化层I/O 写操作流程与存储同步复制技术流程相同增加 VPLEX 缓存写入环节,I/O 处理速度大幅下降I/O 读操作流程与存储同步复制技术流程相同增加 VPLEX 缓存读取环节,I/O
28、处理速度大幅下降管理控制器存储内部集成单独增加一对 PC 管理服务器与交换机组成管理网络双存储间的网络连接SAN 网络互通即可SAN 互通以外,额外多出一对管理IP 网络,网络管理复杂统一管理存储软件实现VPLEX, VMAX 分开管理,VMAX的设置变化需要 VPLEX 重启三中心容灾不需引入其他的产品或架构需要加入 Recover point,改变现有架构下图为 EMC VPLEX 的部署架构示意图:每个 VPLEX 群集都有一对专用本地 IP 子网,它们将控制器连接到管理服务器.其中一个子网上的链路丢失将导致某些成员不能与此子网上的其他成员通信.如下面图:虽然有网络冗余配置,但从上图可以
29、看出 VPLEX 集群引入了一对 PC 服务器.集群间的网络连接复杂,可能引起整个系统的故障.包含两个或更多引擎的 VPLEX 群集还需要多搭配一对光纤通道交换机,提供光纤通道连接来支持群集内的控制器间通信.由此可以看出 VPLEX 的集群连接非常复杂,而且低级的故障点很多.而利用 VSP G1000 的先进的 GAD 技术,在实现双活存储的同时,可以最大化的简化系统架构,系统没有因为要实现双活存储增加任何额外的层和故障点.2.5 现有核心现有核心 SAN 存储与新购存储的无缝集成存储与新购存储的无缝集成VSP G1000 与#现有的 USP-V、VSP 技术完全兼容,能够实现 VSP G10
30、00与 USP-V、VSP 之间的远程容灾复制,从而实现南方中心与中心之间的数据容灾保护.虽然本项目选定了数据库复制软件进行远程容灾,但我们仍然为南方中心的VSP G1000 配置了少量的容灾复制软件许可,通过 VSP G1000 与 USP-V、VSP之间的容灾复制技术,对数据库的 Archive Log 进行异地容灾复制,作为数据库复10 / 20制软件的后备手段,提供更全面的容灾保护.除了数据库以外,南方中心还会有部分其他数据需要复制,如文件系统等,这些数据无法通过数据库复制软件传输,因此也可以利用存储之间的复制功能进行远程容灾保护.在未来的下一步规划中,我们建议将南方中心的 VSP G
31、1000 与中心的 USP-V、VSP 之间的复制功能全部打开,通过底层存储对两中心的所有数据进行容灾复制保护,以保证数据库与文件系统的一致性,进一步提高容灾数据的可用性.2.6 关键线路连接示意图关键线路连接示意图下图为 GAD 双活存储集群的关键线路连接示意图.其中,两台 VSP G1000 之间的 GAD Pair 采用光纤直连,两台 VSP G1000 到 HUS130 仲裁存储之间也同样采用光纤直连.为了保证系统冗余度,各直连线路均为 2 条以上.如果光纤交换机端口充足,也可以考虑使用交换机来连接 GAD Pair 以与仲裁存储.为了保证系统冗余度,所有链路均应为 2 条以上,并分别
32、通过不同交换机连接.此外,VSP G1000、HUS130、HNAS4060 各自对主机提供服务的 FC 接口和10Gb IP 接口,均需按照传统模式连接到 FC 交换机与 10Gb 以太网交换机.同样的,为了保证系统冗余度,所有链路均应为 2 路以上,并通过不同交换机连接.连接架构如下图所示:2.7 存储虚拟化整合存储虚拟化整合规划规划VSPG1000 存储特有的存储虚拟化功能可以将基于 FC 的IBM、EMC、HDS、HP 等主流存储公司的光纤存储整合为一个整体,为数据中心向云转化提供统一的、可灵活调配的存储资源池.VSP G1000 磁盘存储系统通过存储虚拟化的技术,可以实现将不同厂商的
33、存储系统集合到同一个存储池中.VSP G1000 存储平台内部的资源为内部存储资源,与之相连的其它存储设备上的资源是外部资源.通过该功能,可以使用统一的管理平台实现对内部和外部存储资源的统一管理,统一分配,可以按照应用系统的性能要求分配相应的存储资源.从主机的角度看,内部存储资源和外部存储资源功能完全相同,而内部和外部存储资源之间的数据交换可以通过存储系统本身的数据复制和数据迁移软件来完成.VSP G1000 外部连接的存储系统进行虚拟化的独特功能,可为异构存储创建单一的异构存储池.这可以简化存储管理、提高利用率和效率,改善服务水平、简化数据迁移,并可帮助企业满足监管达标要求.异构存储虚拟化架
34、构示意图VSP G1000 通过异构存储虚拟化的技术,可以使用统一的管理平台实现对VSP G1000 内部和外部存储资源的统一管理,统一分配,可以按照应用系统的性能要求分配相应的存储资源.从主机的角度看,VSP G1000 内部存储资源和外部存储资源功能完全相同,而内部和外部存储资源之间的数据交换可以通过存储系统VSP G1000 本身的数据复制和数据迁移软件来完成.同样的,这些被虚拟化整合进来的外部存储均能够使用 VSP G1000 的独有功能,例如快照、克隆、GAD 双活存储集群,3DC 闭环容灾复制等等.也就是说,未来11 / 20如果用户的其他项目采购了其他品牌的存储设备,同样可以利用
35、 VSP G1000 的先进技术,实现更高级别的数据保护和更高效的数据管理功能.通过 VSP G1000 存储分区技术可以对 VSP G1000 进行逻辑划分,可以多个逻辑虚拟存储系统VSM.每个虚拟存储系统都拥有独立的主机通道端口、CACHE、磁盘等资源.在 VSP G1000 和与之相连的外部存储设备中,通过逻辑分区功能可以使得应用系统的需求和分配给该应用的资源得到合理的调度和匹配,从而保证应用服务质量.2.8 远程容灾规划远程容灾规划2.8.1 选用选用 HUR 异步复制技术异步复制技术远程容灾技术中主要有两种选择.同步数据复制技术 数据实时同步没有数据丢失,但是应用系统能容忍的同步距离
36、有限制容灾存储越远性能越差,不能抵御区域性的灾难,如大面积的自然灾害,区域性停电等,与本次项目中容灾的规划不符,因此不采用.异步数据复制技术数据实时异步复制,异步复制距离没有限制,能抵御区域性的灾难,对生产存储性能影响小,但也正是由于采用异步数据复制,灾备中心数据有数据丢失链路足够宽时,RPO 可无限接近于 0,但不能绝对等于零.由于条件有限由于条件有限,本项目的远程容灾必须采用异步数据复制技术本项目的远程容灾必须采用异步数据复制技术.VSP G1000 的的异步数据复制功能采用的是业界最先进的异步数据复制功能采用的是业界最先进的,基于日志卷的远程容灾复制技术基于日志卷的远程容灾复制技术HUR
37、.2.8.2 HUR 异步复制软件的工作原理异步复制软件的工作原理HUR 复制软件采用基于磁盘日志文件的技术,可以保证远程数据的一致性和完整性,同时,极大的降低了存储系统 CACHE 和通信链路带宽的需求.HUR 的原理如下图所示:图:HUR 远程数据复制软件磁盘日志卷HUR 远程数据复制软件利用磁盘日志卷进行待传数据的实时转发,节省生产系统存储 Cache 资源当服务器端发出一个写操作时,写 I/O 按照写发生的顺序保存在主存储系统的日志卷JNL中,远端的存储系统通过发出读日志命令从主存储系统的日志卷JNL中读取记录并将其写到本地的日志卷JNL中,然后将该记录更新到本地的数据卷中.上述过程是
38、实时进行的,相比起其他厂家的以 30 秒钟为周期的异步复制技术,具有更理想的RPO指标.同时,无论线路带宽如何变化,HUR 远程数据复制软件能够自动的调整传输策略,充分使用线路的带宽资源.HUR 远程数据复制软件也节省了通信链路的带宽需求,在传统的数据远程复12 / 20制环境下,通信链路的带宽需求不够,则数据会累积在存储系统的 CACHE 中,当CACHE 资源不够时,远程数据复制过程中断.采用基于磁盘日志方式的 HUR 远程数据复制软件,可以利用磁盘日志文件缓冲对带宽的瞬时高需求,从而可以避免由于瞬间的高带宽需求造成的远程数据复制的挂起.图:HUR 对 Cache 和带宽的要求降低吸收式复
39、制技术HUR 远程数据复制软件利用吸收式复制技术进行数据复制,提升生产系统的存储工作性能.HUR 引入了 pull拉机制实现数据的复制,使用这种技术,主存储系统不需要特定的资源将数据推Push到远程存储系统中,而是远程存储系统到本地存储系统来读日志卷.这样就解除了主存储系统用于数据远程复制的资源消耗,使得主存储系统的资源 100%的服务于生产系统,从而提高了存储系统的性能.数据一致性保证通过 顺序号、一致性组技术,HUR 远程数据复制软件保证异步模式的数据一致性.HUR 远程数据复制软件也有效的解决了在数据复制过程中的重新同步过程中的数据不一致性问题.在传统的数据复制方式下,当数据链路的原因造
40、成数据不能够复制,数据远程复制自动挂起,同时对生产端存储系统的数据更新保存在存储系统的 Bitmap 表中,当链路恢复后,存储系统根据 Bitmap 表中的记录信息将更新过的磁道复制到备份端的存储系统,而在这个过程中备份端的存储系统的数据一致性是不能保证的,这就是数据复制的重新同步问题.由于 HUR 远程数据复制软件采用基于磁盘日志的工作方式,当数据链路断开后,对数据的更新仍然按顺序保存在磁盘日志中,这样,当链路恢复后,HUR 远程数据复制软件仍然到生产端存储系统的日志文件中读取数据更新记录,这样就解决了数据的重新同步问题.解决通信线路故障修复后的数据再同步问题HUR 远程数据复制软件也有效的
41、解决了在数据复制过程中的重新同步过程中的数据不一致性问题.在传统的数据复制方式下,当数据链路的原因造成数据不能够复制,数据远程复制自动挂起,同时对生产端存储系统的数据更新保存在存储系统的 Bitmap 表中,当链路恢复后,存储系统根据 Bitmap 表中的记录信息将更新过的磁道复制到备份端的存储系统,而在这个过程中备份端的存储系统的数据一致性是不能保证的,这就是数据复制的重新同步问题.一般的异步复制解决方案,为了解决再同步过程中的数据不一致,会要求在灾备系统留出额外的一份Golden Copy完整数据快照空间,在再同步之前首先进行一个快照,以保证数据的一致性.这种方式,即浪费存储资源,又增加了
42、额外的系统管理难度.由于 HUR 软件采用基于磁盘日志的工作方式,当数据链路断开后,对数据的更新仍然按顺序保存在磁盘日志中,这样,当链路恢复后,HUR 远程数据复制软件仍然到生产端存储系统的日志文件中读取数据更新记录,这样就解决了数据的重新同步问题,无需额外的Golden Copy.2.8.3 HUR 异步复制软件与友商的技术对比说明异步复制软件与友商的技术对比说明基于存储系统实现的数据远程复制技术的比较13 / 20功能/产品其他友商的异步复制技术HUR 远程数据复制软件生产系统 CACHE占用率 高低链路故障管理破坏式 bitmap,重新同步按顺序写入,日志文件RPO 控制30 秒同步一次
43、实时同步对主存储系统性能的影响高由生产系统执行复制逻辑低由灾备系统执行复制逻辑所支持的平台本厂商的存储HDS 以与其它厂商的异构存储14 / 20第第 3 3 章章 数据迁移数据迁移解决方案解决方案3.1 数据迁移概述数据迁移概述3.1.1 迁移迁移目标目标数据迁移是企业 IT 建设经常面对的工作.在开发环境向运行环境转换、低版本数据库向高版本数据库转换、两个不同数据库之间进行转换以至系统硬件升级时,数据均可能需要被转移并使之迁移后正常运行.就本项目而言,数据迁移工作主要是指将中心现有核心业务系统的部分数据一次性搬迁到南方中心,之后中心和南方中心作为应用双活中心同时工作,各自负责一部分业务的交
44、易处理.在此基础上,还需要实现两个中心之间的数据交叉复制,实现数据的远程容灾保护.3.1.2 数据迁移相关因素数据迁移相关因素在进行数据迁移项目计划时,一些因素是必须考虑的.数据的保护数据的保护是最重要的,在数据迁移中数据的安全必须得到完全的保护.任何一个更换过个人计算机中的硬盘的人,都对因为在更换过程中对某些细节的忽视造成的数据丢失有预期和经验.当在企业级数据迁移中,数据备份、实施步骤的回退计划是保证数据在迁移后的可用性的必需准备.在线或离线迁移如果应用可以暂停,则迁移过程可以更快捷;但是当今大多数系统有着严格的可用性要求.当数据迁移在生产环境中进行时,不仅要密切监控数据迁移的过程,而且要将
45、迁移对生产系统的影响降到最低.维护时间窗口通常迁移工作只能在预先确定的维护时间窗口中进行.通常时间窗口是在夜间或周末生产活动最少的时候.这些严格的时间窗口的存在使得迁移项目可能表现出不规则间断的情况:紧张的迁移在时间窗口中进行,然后在时间窗口关闭时停止,业务继续运行;迁移工作只有在时间窗口再次打开后才可以继续进行.从而使得迁移工作分散成数个不连续的多个阶段性工作.迁移技术在开放系统环境中,没有一个完美的数据迁移技术.每个迁移技术均有优势和劣势.针对每个特定的业务环境,应该根据不同技术的特点进行仔细甄别选择. 直接费用人力、硬件和软件等因素应该和间接因素应用停止和生产系统性能影响等结合起来作为选
46、择迁移技术的判据.有些需要更大的维护时间窗口,而有些对生产系统的性能会有较大影响.这些都会成为选择相应存储技术的考虑因素.计划和应用停顿的容忍程度数据迁移会对生产系统有着或多或少的影响,当分析完应用可用性要求,完成维护时间窗口的选择后,可供选择的技术就相对比较固定.15 / 20测试需求根据应用的情况,特定时间的迁移前测试和迁移后测试是必须的.因为没有一个普遍适用的测试计划,所以针对每个特定的环境都需要做出详细的有针对性的测试计划.测试的时间跨度也与应用情况相关,时间长短也是根据应用的需求决定.数据迁移的时间跨度总的来说,决定数据迁移时间跨度的最主要因素是用户对迁移对原应用的影响的容忍程度.而
47、时间跨度与应用可用性之间密切相关.通常,在费用和可以接受的应用可用性之间有着一定的关系.越高要求的应用可用性意味着越多的费用,从而也就制约了时间跨度.经验表明,在没有详细彻底的评估环境和项目目标的情况下,进行迁移时间的预测是很困难的.一般来说,需要经过评估,分析,计划和实施等几个步骤.整个环境的复杂性在数据迁移过程中涉与到各种应用和数据之间的关系,越复杂的应用环境,则相应的计划和实施就越复杂.3.2 数据迁移方法论数据迁移方法论HDS 所提供的数据迁移服务是一种为客户准确完整地将物理上存在的多或单点数据转移集中至单一数据中心或单一存储系统的解决方案.本方案涵盖了主机与存储设备的重新配置,并对客
48、户系统资源进行合理的规划,以保证在迁移集中完成后,新系统环境可以达到设计的要求,从而避免由于迁移集中导致的客户业务中断,与系统性能下降,同时确保数据迁移集中后系统的安全性与可管理性.该方案将数据迁移集中过程中对客户业务的影响减至最小,并承诺在 HDS 与客户双方同意的时间范围与规定的费用内完成对数据的迁移.HDS 将一个数据迁移项目分为两个阶段:迁移评估设计阶段和迁移实施阶段.3.2.1 迁移评估设计阶段迁移评估设计阶段在这个阶段,通过分析工具,问卷调查和现场访问等手段,HDS 技术顾问收集掌握用户主机、应用、存储环境信息.在了解用户将来的商业和技术目标对存储的要求,以与理解用户当前的存储架构
49、的基础上,设计未来满足要求的存储架构和数据迁移计划.这个阶段由以下子阶段组成:项目初始化阶段现场技术访问阶段收集数据阶段分析数据阶段制订数据迁移计划阶段总结回顾阶段1. 项目初始化阶段这一阶段对于数据迁移项目成功与否非常重要.在最初的项目会议中确认项目目标和预期.在这一阶段中,项目基于用户的要求开始并定义.主要的用户人员16 / 20被确认并联系,项目范围和定义经过用户与 HDS 项目人员的评论和确定.初步信息收集后,建立文档资料.基于已经定义的项目范围,项目人员确认并排出相应的时间表.2. 现场技术访问阶段在这一阶段中,项目组成员进一步了解和明确用户对数据迁移的商业和技术要求.同时对已有的主
50、机、应用、存储环境做更多的了解和熟悉.3. 收集数据阶段这一阶段的目的是快速收集用户应用系统相关的计算环境信息和应用架构.这些信息是对项目初始化阶段得到的信息的补充和验证.将收集到的信息整理归档以备分析阶段使用.在这个阶段,项目中涉与的每个系统都要进行数据收集. 这个阶段是以后各个阶段的基础.从主要技术人员比如:数据库管理员和系统管理员那里收集信息.制作系统环境收集表格,收集整理主机、系统和存储等的详细信息.收集整理有关数据库和应用的信息,包括数据类型、数据可用性和数据库性能等方面.收集整理相关 IT 人员的职责和联系信息明确数据迁移的时间限制、维护时间窗口和停机许可等.4. 分析数据阶段所有