《OceanStorN8500集群NAS存储系统产品技术白皮书.docx》由会员分享,可在线阅读,更多相关《OceanStorN8500集群NAS存储系统产品技术白皮书.docx(32页珍藏版)》请在三一办公上搜索。
1、 OceanStor N8500集群NAS存储系统产品技术白皮书IssueV2.1Date2022-12-21华为技术有限公司OceanStor N8500 集群NAS存储系统技术白皮书版权所有 华为技术有限公司 2012。 保留一切权利。非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,并不得以任何形式传播。商标声明和其他华为商标均为华为技术有限公司的商标。本文档提及的其他所有商标或注册商标,由各自的所有人拥有。注意您购买的产品、服务或特性等应受华为公司商业合同和条款的约束,本文档中描述的全部或部分产品、服务或特性可能不在您的购买或使用范围之内。除非合同另有约定,华
2、为公司对本文档内容不做任何明示或默示的声明或保证。由于产品版本升级或其他原因,本文档内容会不定期进行更新。除非另有约定,本文档仅作为使用指导,本文档中的所有陈述、信息和建议不构成任何明示或暗示的担保。华为技术有限公司为客户提供全方位的技术支持,用户可与就近的华为办事处联系,也可直接与公司总部联系。华为技术有限公司地址:深圳市龙岗区坂田华为总部办公楼 邮编:518129网址:客户服务电话:0755-28560000 4008302118客户服务传真:0755-28560111客户服务邮箱:Support目 录1 概 述52 N8500集群NAS存储系统架构62.1 产品逻辑结构62.2 集群NA
3、S软件62.3 集群NAS引擎72.4 交换设备配置82.5 存储单元配置82.6 管理子系统83 组网以及环境要求93.1 集群NAS存储系统93.2 NAS/SAN一体化典型组网103.3 数据备份组网103.4 系统运行环境124 软件特性134.1 集群文件系统134.1.1 技术背景134.1.2 技术原理134.1.3 技术特点194.2 快照技术194.2.1 技术背景194.2.2 技术原理194.2.3 技术特点214.3 动态分级存储技术224.3.1 技术背景224.3.2 技术原理224.3.3 技术特点264.4 远程复制技术264.4.1 技术背景264.4.2 技
4、术原理274.4.3 技术特点284.5 配额管理技术294.5.1 技术背景294.5.2 技术原理294.5.3 技术特点31图目录图 1 产品逻辑结构图6图 2 软件及应用架构示意图7图 3 N8500集群NAS存储系统关系图9图 4 SAN、NAS一体化典型组网10图 5 使用NBU客户端备份方式组网11图 6 使用NDMP备份组网11图 7 数据通道全互联技术14图 8 通信通道全互联技术14图 9 全局存储空间管理技术16图 10 高效的集群锁技术17图 11 对称式元数据处理技术17图 12 全局名字空间技术18图 13 集群多节点并发访问技术18图 14 主文件系统及其快照文件
5、集20图 15 新生成快照20图 16 主文件系统数据更新21图 17 对快照进行数据更新22图 18 N8500多卷文件系统示意图23图 19 N8500远程复制技术实现步骤27图 20 N8500远程复制技术实现机制28图29 配额管理逻辑架构30图30 配额管理执行方式311 概 述传统NAS系统存在扩展性差、可靠性差等缺陷。为了克服传统NAS系统的缺陷,集群NAS技术应运而生。集群NAS系统具有高扩展、高性能、高可用等特点。本文档介绍华为N8500集群NAS存储系统软件和技术的相关细节。2 N8500集群NAS存储系统架构2.1 产品逻辑结构N8500集群NAS存储系统(以下简称N85
6、00或N8500系统)由集群NAS引擎(由集群NAS引擎硬件+集群NAS软件组成)、交换设备、存储单元以及管理子系统组成,其中集群NAS软件包含定制化的操作系统,不需要额外选择操作系统平台。图 1 产品逻辑结构图2.2 集群NAS软件集群NAS软件作为整个N8500集群NAS存储系统的核心部件,其作用除了管理存储并提供NAS服务外,还包括对集群系统自身的管理以及相关的故障处理。N8500的集群NAS软件基于商用的CFS开发,通过在专用64位存储系统上安装CFS软件,并配置NFS和samba等服务以对外提供NAS访问接口。N8500集群NAS软件的核心部件CFS提供了大量的增值功能,如快照、动态
7、分级存储等功能。软件及应用架构示意图如下图所示。软件由核心层的CFS、CVM软件和用户层的各类NAS服务应用组成。软件部署于集群NAS引擎节点(Node)上,集群NAS引擎节点可通过集群方式扩展,提供全Active的集群架构。所有节点可访问同一个共享存储空间,对外可通过以太网向上层应用提供NAS业务。图 2 软件及应用架构示意图2.3 集群NAS引擎NAS引擎是集群软件运行的硬件平台,通过与软件的配合,将后端存储提供的卷以NAS方式提供给客户使用,需要较好的I/O处理能力、网络带宽和可靠性。2.4 交换设备配置在N8500集群NAS软件中,集群节点间的通讯通过专用的心跳网络来实现,同时,连接多
8、套存储单元时需要光纤交换设备。心跳网络对交换机的带宽要求低,光纤交换设备要求支持8Gb接口。当选择的节点数超过2个时,需要额外配置2台以太网交换机,作为集群NAS的心跳链路使用。2.5 存储单元配置支持S2600T、S5500T、S5600T、S5800T、S6800T存储系统。上述所有类型的存储单元,均可以向下细分为两个组件,即控制框和硬盘框,其中控制框包含了控制器及控制软件,硬盘框用于磁盘容量扩展。在N8500集群NAS存储系统中,将控制框称之为存储单元控制框,将硬盘框称之为存储单元硬盘框。存储单元控制框前可增加型号的描述区分各种型号,如S5x00T存储单元控制框。2.6 管理子系统N85
9、00集群NAS存储系统提供GUI和CLI两种管理方式。GUI支持NAS引擎和存储单元统一管理,CLI仅支持NAS引擎和存储单元独立管理。另外有些高级功能及部分系统配置功能仅适用CLI支持,面向高级管理维护人员。3 组网以及环境要求3.1 集群NAS存储系统图 3 N8500集群NAS存储系统关系图3.2 NAS/SAN一体化典型组网图 4 SAN、NAS一体化典型组网组网说明:N8500系统的NAS、SAN一体化体现为从后端单元直接提供FC或iSCSI接口,提供FC-SAN和IP-SAN的组网方式供用户业务使用,使用S2600T、S5500T、S5600T、S5800T或S6800T时,由于后
10、端单元可提供较多的接口,在提供N8500集群节点使用之余,其余接口可作为SAN接口使用。在N8500系统中,仅使用了存储单元的部分端口,此外,在引擎节点数量比较少或使用交换形态的情况下,可以根据需要配置10Gbps iSCSI扣卡,从而为用户提供万兆IP SAN;若用户有SAN的需求,则可以在阵列上将未使用的磁盘空间(以LUN为单位)通过空闲的FC端口或iSCSI/10Gbps iSCSI端口提供给用户使用,达到NAS/SAN一体化的效果,在这种组网下,用户的具体网络环境可能为无域的环境、AD域环境、NIS域环境或LDAP域环境等。3.3 数据备份组网N8500集群NAS存储系统支持两种备份方
11、式,一是通过集成的NetBackup客户端进行备份;二是通过NDMP协议进行备份。两种备份方式的组网如图示:图 5 使用NBU客户端备份方式组网组网说明:使用NBU客户端进行备份时,需要环境中包含NBU服务器(包括Master Server和Media Server),如果使用DNS,则要求DNS服务器能对NBU服务器进行正确解析,网络连接好后在N8500系统上配置NBU服务器相关的信息,然后在NBU Master Server上进行备份策略等配置后,备份即可按照设置的策略正常进行,数据流从N8500引擎经Media Server后备份到后端介质,无需再进行干预。图 6 使用NDMP备份组网组
12、网说明:使用NDMP协议进行备份时,当前版本支持通过LAN进行备份的方式,即备份数据通过IP网络进行传输,备份采用的协议为标准的NDMP协议。在采用基于IP网络的NDMP备份时,同样需要有备份服务器(如NBU),由备份服务器连接备份介质(磁带库设备),根据备份软件的不同,可能需要相应的选件支持,如使用NBU时需要备份服务器上安装有远程NDMP选件,在进行备份时,NDMP控制信息由备份服务器下发到N8500系统,N8500系统根据控制命令进行备份,将备份数据通过IP网络传送到备份服务器的相关模块(如NBU的Media Server)再由该模块写入备份介质。3.4 系统运行环境N8500集群NAS
13、存储系统通过SAN共享技术将存储阵列提供的卷虚拟成可同时供多个集群节点使用的逻辑卷,在此基础上,通过NFS共享、CIFS共享、FTP等方式为用户提供文件服务。对最终用户来说,N8500集群NAS存储系统就是一个文件服务器,用户通过该文件服务器存取文件。用户所在的环境可能是比较复杂的,如AD域、NIS域、LDAP等环境,需要N8500系统也能支持这些环境,因此,在N8500中也提供了这些域环境的支持,用户只需要进行相应的配置即可将N8500在现有的域环境中运行起来供应用主机访问。4 软件特性4.1 集群文件系统4.1.1 技术背景N8500系统的集群架构,采用全互联的组网机制,对称式集群设计,实
14、现集群节点的全局命名空间,从而允许集群任何节点并发访问任何文件系统的任何文件;并且支持文件内的细粒度的全局锁,提供从多个节点并发访问相同文件的不同区域,实现高并发读写,最终达到高性能访问系统。4.1.2 技术原理 数据通道全互联技术原理N8500系统分为引擎单元和存储单元,存储单元处理数据块的存储,引擎单元提供集群文件系统的逻辑功能。引擎单元和存储单元通过直连全互联,或者交换网络实现全互联,从任何一个引擎节点都能够访问到任何一个存储单元,从而保证数据通道的畅通无阻,并且提供冗余路径实现高可靠性,如下图所示。图 7 数据通道全互联技术对于N8500系统的典型配置,两个引擎节点连接到存储单元,每个
15、节点都有路径连接到阵列的双控端口中,从而实现全互联,并且提高冗余链路;对于N8500系统的典型配置,引擎节点通过冗余的交换机连接到存储单元,每个存储单元也分别连接到冗余交换机,从而形成全冗余的组网。 通信通道全互联技术原理N8500系统的引擎节点之间需要相互通信,提供集群节点的统一视图,保证元数据/数据处理的一致性。节点之间采用双通道连图,冗余互联,保证通信通道的高效可靠。图 8 通信通道全互联技术N8500系统的2引擎节点典型配置下,每个节点提供2条链路到另外一个节点,从而即使一条链路故障时,也能保证通信链路的可靠性。N8500系统的多引擎节点,则是连接到2个交换机上面,从而提供冗余通信平面
16、,保证可靠性。 全局存储空间管理技术原理N8500系统在数据通道和通信通道实现全互联的基础上,采用集群卷管理技术,提供了全局的存储空间管理。也就是说,在集群中的任何节点能够以相同的卷设备名字访问同一存储空间,保证块设备访问的一致性,如图9。图 9 全局存储空间管理技术 高效的集群锁技术原理N8500系统需要在节点之间传递元数据/数据,而为了保证数据的一致性,提供了GLM(Global lock manager)集群锁技术,如图10所示。图 10 高效的集群锁技术N8500系统的GLM集群技术是构建在LLT(Low Latency Transport)/GAB(Group Membership
17、and Atomic Broadcast)底层通信基础上,该通信层直接构建在以太网二层协议上,而不是TCP/IP层上。考虑到集群通信主要传送的锁信息,通常帧都比较小,而TCP/IP包会带来额外的大帧头开销;同时集群通信主要在私有网络内传递,对TCP/IP在广域网的超时重传、滑动窗口没有太多需求。所以,LLT针对集群锁通信需求,直接利用以太网帧传送包,从而达到提高利用率的目的,并且设计自己的流量控制、超时重传、以及重复帧处理,实现高效传输。同时,针对集群多引擎节点通信的原子要求,设计了GAB模块,它保证通信的原子性;也就是说,保证在集群多引擎节点中,消息要么被所有引擎节点受到并确认,要么所有引擎
18、节点都丢弃该消息,从而不会出现部分确认消息、部分丢弃消息的中间状态。 对称式元数据处理技术原理N8500系统中,元数据分为了不同的类型,比如:超级块、日志区、分配单元(AU, Allocation Unit)、INODE。这些元数据具有不同的属性,分别对不同的数据管理负责,比如,超级块对整个集群文件系统的数据负责,而INODE则是针对单独的那个文件负责。图 11 对称式元数据处理技术在元数据分类的基础上,N8500系统的每个引擎节点就可以担当不同元数据处理的责任主体。如图-11所示,第一个引擎节点负责超级块的更新修改,其他节点需要对元数据的处理,都把请求发送给他;第二个引擎节点负责文件F1的I
19、NODE元数据更新修改,其它节点需要操作F1文件,都需要把请求发送给该引擎节点。同时,在任何引擎节点故障后,都可以把该节点负责的元数据处理转移到其他任何引擎节点上,从而实现对称式的元数据处理,实现元数据处理的负载均衡,提高元数据处理的效率。 全局名字空间技术原理N8500系统采用对称式的设计架构,每个节点都可以参与处理元数据,从而很容易形成全局名字空间,让系统的每个处理节点都能够读写相同的文件系统,实现节点之间的并发访问,如图12所示。图 12 全局名字空间技术根据元数据的分类、分片,让每个节点都能参与元数据的处理,减少节点之间转发元数据/数据请求的通信量,实现负载均衡。 集群多节点并发访问技
20、术原理N8500系统提供了全局的命名空间,从而实现了多个节点可以并发访问同一个文件系统。除此之外,N8500系统还提供全局锁机制,保证不同节点访问相同文件系统相同文件并发访问的一致性,通过细粒度的锁设计,保证系统的并发性,如图13所示。图 13 集群多节点并发访问技术当不同节点访问文件F1的不同区域时,通过该文件的所有者(Owner)进行仲裁,如果没有其他节点访问对应区域,则允许该节点读写数据;如果发现有其他节点访问该区域,则出现冲突,该所有者就会让新请求等待,直到读写该区域的请求完成,然后通知等待该区域的节点竞争锁。通过此机制,实现了集群多节点范围内的一致锁所处理;同时,通过细粒度的区域锁设
21、计,保证高并发。4.1.3 技术特点N8500集群存储系统采用全Active、全共享设计。文件系统为所有引擎节点共享而不是与特定节点绑定,所有引擎节点可以并发访问同一文件系统,不存在负荷热点问题。N8500所有引擎节点互为备份,某一节点故障时,故障节点原来承担的应用可以切到其它在线节点。N8500所有节点提供业务,互为备用,具有更高的系统可靠性和资源利用率。4.2 快照技术4.2.1 技术背景N8500集群NAS存储系统中的文件系统快照,支持生成源文件系统在某个时间点上的一致性映像,在不中断正常业务的前提下,快速得到一份与源文件系统一致的数据副本。副本生成之后立即可用,并且对副本的读写操作不再
22、影响源文件系统中的数据。因此通过文件系统快照技术就可以解决如在线备份、数据分析、应用测试等难题。用户可以通过多种方法使用存储检查点。例如,它们可用于: 创建可以备份到磁带的文件系统的稳定映像。 提供源文件系统的磁盘备份,在意外删除情况下,最终用户可以恢复自己的文件。 在安装修补程序之前,创建应用程序的二进制副本,以允许出现问题时进行还原。 创建文件系统的磁盘备份,可用作传统的基于磁带备份的补充,从而提供更快的备份和恢复功能。4.2.2 技术原理N8500的文件系统快照采用了写前拷贝(copy-on-write)技术方式来实现,其实现原理如下:1、 在文件系统未进行任何快照前,数据写入动作与未创
23、建快照的文件系统一样:对数据的任何修改操作,会直接写入文件系统中对原有数据进行覆盖,原有数据不会被保留。2、 为文件系统创建快照时,首先会冻结该文件系统,创建一个没有任何实际数据的快照文件集,快照文件集仅包含指向主文件系统的一组指针。由于不需要拷贝数据,因此整个过程耗时极少,从一秒以内到数秒不等,与文件系统中的文件数量有关。N8500中的快照文件集与主文件系统共同使用文件系统空间,无需单独为快照分配特定的空间。图 14 主文件系统及其快照文件集3、 刚创建的快照不包含任何实际数据,只包含指向主文件系统的一组指针,当用户访问快照时,实际上访问的是主文件系统中的数据。当主文件系统的数据发生变化后,
24、首先旧数据被拷贝到快照文件集中,然后新数据才会写到主文件系统中(即copy-on write)。图 15 新生成快照图 16 主文件系统数据更新4、 随着主文件系统不断被更新,原有的数据块会逐渐的拷贝到快照文件集中,但如果需要更新的块已经被快照文件集保存过一次,这时就不会发生拷贝操作,只更新主文件系统即可,因为快照文件集所映像的只是生成快照时刻的主文件系统映像。5、 当用户需要恢复出快照点时刻的数据时,可通过快照数据的回滚快速实现,通过回滚,文件系统可将数据恢复到快照点时刻,从而避免了快照点后因为人为的错误或者病毒的入侵等引起的源文件系统损坏造成的数据丢失。需要说明的是,快照的回滚是不可逆的,
25、回滚只能将数据恢复到某一特定的时间点,但该时间点到故障点之间的数据将会丢失。如果仅仅是特定的几个文件被损坏、误修改、误删除,则无需进行整个文件系统的回滚,直接从特定时间的快照文件集中将这些文件恢复到主文件系统中即可。6、 当快照被删除后,指向主文件系统的指针和写入时拷贝数据都将被清空,快照创建时间点的数据变为不可用。7、 从上面的过程可以看到,当快照创建后,无论后续的数据怎样的读写和改变,只要快照不被删除,我们均能够及时的获取到快照创建时间点的数据。4.2.3 技术特点 可写快照N8500中的文件系统快照可以为用户提供读写业务,用户可通过创建快照方便的重定义数据用途,实现诸如测试、备份、归档等
26、各类操作。对快照的修改操作,需要说明的是,如果对某一快照执行了写操作,那么该快照将不再是快照创建时间点的一致性映像,不能使用该快照进行文件系统回滚。图 17 对快照进行数据更新 快速数据恢复对于传统的离线备份,备份数据无法直接在线读取,必须经过较长时间的数据恢复过程才能够获得原数据在备份时间点的可用副本,从而实现数据的还原。N8500的文件系统快照可以直接从快照中恢复出快照时间点的数据,从而实现了方便的数据回滚。 循环定时快照,实现持续数据保护N8500对同一文件系统支持多个时间点的快照,用户可以定制策略定时自动进行快照的创建操作。当多个时间点的快照采用循环的方式沿时间轴向前推进自动操作时,就
27、非常方便且低成本的实现了持续数据保护。 快照对性能的影响在文件系统中使用快照并非对系统性能没有影响。在文件系统中创建快照后,读操作的性能不会受到影响,但却增加了写操作的复杂度。当原文件系统数据更新较大时,写操作增加,系统性能有一定的降低。4.3 动态分级存储技术4.3.1 技术背景N8500动态分级存储特性的主要价值是降低平均联机存储硬件成本,而又不会相应地增加管理的复杂性。重要的文件放置在高可用性、高性能(相应地,成本也非常高)的存储设备上;不太重要的文件放置在成本较低的、性能和可用性规格较低的设备上。N8500动态分级存储特性可自动将文件重定位到正确类型的存储设备上,而不更改它们在文件系统
28、命名空间中的逻辑位置。由于物理重定位的文件保留在相同的逻辑位置上,因此使用动态分级存储特性可以不需要对应用程序配置和操作步骤进行更改。对于应用程序和用户而言,动态分级存储中的文件重定位是透明的。N8500动态分级存储包括两部分:支持多卷文件系统,以及在由文件系统管理的存储内基于策略自动迁移文件。4.3.2 技术原理 多卷文件系统的属性N8500可以构建多个文件系统,并让这些文件系统的逻辑命名空间分布在多个存储卷上。构建文件系统所使用的各个卷被称作该文件系统的卷集。卷集中的各个卷是从单个存储单元中的 LUN 配置的。事实上,占用多个卷的文件系统对于应用程序是透明的。该文件系统中的所有文件都是同一
29、命名空间的一部分,在访问和处理这些文件时就如同它们全部占用单个卷一样。基于文件系统的卷存储层相对于基于硬件的多层存储方法有一个重要的优点。与基于硬件的解决方案(它的各个层都基于由磁盘阵列提供的 LUN)不同的是,N8500卷可以是任何需要的容量和配置,如果有 I/O 性能或容错需要,甚至可以跨接多个N8500存储单元。N8500动态分级存储特性所使用的文件系统必定是多卷文件系统。 使用放置级别以管理文件位置多卷文件系统的管理员可以通过定义文件放置策略(可控制初始文件位置和重定位现有文件的环境)来控制卷集内的文件位置。文件放置策略由一些规则组成,这些规则将文件的位置限制为由管理员定义的、文件系统
30、卷集中各个卷的子集。这些子集被称为放置级别。通常,用存储层来标识放置级别。根据策略规则,将在指定的放置级别中创建和扩展一些文件,并当这些文件满足某些与命名、活动、访问率以及大小相关的限定条件时,将它们重定位到其他放置级别。例如,下图中表示一个 N8500 多卷文件系统,该系统的卷集由两个分别名为 tier1、tier2 的放置级别组成。这样的卷集可用于包含重要文件 (tier1),以及大量非活动的文件 (tier2) 的文件系统。图 18 N8500多卷文件系统示意图 文件放置策略根据文件系统的活动文件放置策略,可将文件动态放置在文件系统卷集的各个卷之间。文件放置策略由用来管理文件的初始位置和
31、随后的重定位的各个规则组成。这些规则定义了三方面的内容,一是文件写入文件系统时的初始位置,用户可以自定义文件写入时放置于哪一个卷集中;二是文件如何从存放热点数据的卷集重定位到存放非活动文件的卷集,N8500系统中,该规则设定为指定时间长度内,未进行访问的文件则需进行重定位;三是文件如何从非活动文件的卷集重定位至存放热点数据的卷集,N8500系统中,该规则设定为若文件平均访问热度超过指定值,则将这些文件进行重定位。策略规则将初始分配目标和重定位目标指定为按优先顺序排列的放置级别的列表。如果空闲空间允许,则在列表中的第一个放置级别中分配文件;如果在第一个放置级别中没有可用的空闲空间,则在列表中的第
32、二个放置级别中分配文件,依此类推。 执行文件放置策略执行文件放置策略时将实施文件重定位,可按需手动进行重定位操作,也可通过一个时间表策略定期进行,此操作与初始分配类似。如果有可用的空间,则将文件重定位到规则中列出的第一个放置级别中,如果第一个放置级别中没有可用的空间,则将文件重定位到第二个放置级别中。文件重定位基于一些必要的限制条件,例如:在一段指定的文件是否未被访问、文件的访问热度。若文件放置策略未能执行,那么,即使某些文件已经满足重定位的条件,重定位操作也不会实施。只有当文件放置策略执行时,文件系统才会对这些限制条件的满足情况进行判断,并且对符合条件的文件实施重定位。 计算文件的访问热度动
33、态分级存储特性的重要应用是将非活动文件从高性能存储区自动重定位到低成本存储区,或是将热点文件从低成本存储区自动重定位到高性能存储区。N8500系统通过平均访问热度来判定文件是否为热点文件。文件的平均访问热度是在指定数量的时间段内文件的读取或写入请求数除以时间段数。与 I/O 热度不同,访问热度与文件大小无关;一个在 2 天的时间段内有 20 次 I/O 请求的大文件与一个在 2 天的时间段内被访问过 20 次的小文件具有相同的平均访问热度。 数据的自动迁移N8500的DST策略制定中,可基于文件访问频率策略,自动将文件从一级存储迁移至二级存储,或将文件自动从二级存储回迁至一级存储,对业务主机透
34、明。 卷的可访问性:分级存储的重要假定动态分级存储特性背后存在一个通常未表述出来的重要假定,即:系统正常工作时并不要求所有存储设备总是可访问的。企业通过将数据存储在容错功能较低的设备上,默认表示这些数据对企业运营的重要性不及存储在容错能力较高的设备上的数据。极端情况下,如果企业将数据存储在没有容错能力的设备上,则默认表示即使没有这些数据企业也能够正常运营,至少在安装替换存储设备并从备份副本中恢复这些数据所需的时间段内是这样的。如果常规数据中心内的某个存储设备不可用,则无法装入该存储设备上的文件系统,而且使用该文件系统的应用程序也无法运行。不过,对于多卷文件系统,要使文件系统正常工作,只需要最关
35、键的数据必须是可访问的;包含非关键数据的存储设备不必是可访问的。与任何商业文件系统类似,VxFS 多卷文件系统必须可以访问其所有元数据才能正常工作。但是 VxFS 文件系统不需访问任何特殊用户文件的数据就可以装入和运行。例如,如果由于包含某些文件的数据的卷出现故障,导致这些数据不可访问,则需要这些文件的应用程序无法运行,但是文件系统可以像往常一样工作。由此可以得出一个结论:应将多卷文件系统的元数据放置在其卷集中容错能力最好的卷上,而用户文件的数据可以放置在与该文件的商业价值相称的卷上。 元数据放置VxFS 为文件系统卷集中的每个卷都提供了一个 dataonly 标记,从而可以对元数据的放置进行
36、管理控制。如果已为某个卷设置 dataonly 标记,则 VxFS 仅在其上存储用户文件数据,而不存储元数据。未设置 dataonly 标记的卷可以存储元数据和用户数据。VxFS 文件系统卷集中的第一个卷必定可以存储元数据(名为 metadataok 的属性)。默认情况下,VxFS 在文件系统创建时或在向卷集中添加卷时,设置所有其他卷的 dataonly 标记。通过将卷指定为 dataonly,管理员可以阻止 VxFS 在该卷上存储任何文件系统元数据。仅应使文件系统的容错功能最好的卷有资格存储元数据。N8500动态分级存储特性默认将分级存储文件系统的第一个放置级别定义为高性能存储区,该存储区所
37、使用的卷默认拥有metadataok属性;而第二个放置级别定义为低成本存储区,该存储区所使用的卷默认设置dataonly标记。因此文件系统元数据将全部存放于第一个放置级别中。 可部分访问的文件系统即使多卷文件系统中的某些甚至全部 dataonly 卷不可访问,仍可以装入和访问VxFS 多卷文件系统。尽管仍可以对不可访问的卷进行纯粹的元数据操作(如所有权或权限更改),但存储在这些卷上的文件中的数据是无法访问的。不过,其数据位于可用卷上的文件是可访问的,VxFS 可以处理所有文件系统元数据。新文件的空间分配操作会因没有可用于元数据的空闲空间而失败,即使在 dataonly卷上有足够的可用空间也无济
38、于事。因此,管理员应在 metadataok 卷上分配足够的空间以满足预期需求,并应持续监视这些卷上的空闲空间。指定 dataonly 仅在文件系统级别上有意义。它是与文件放置级别完全不同的属性。由于在进行初始分配和重定位决定时,VxFS 会将放置级别中的所有卷视为等同的,因此给定放置级别中的所有卷应具有相似的容错能力和 I/O 性能,并应具有相同的dataonly 或 metadataok 属性。4.3.3 技术特点文件迁移策略可以定制,数据在各级存储间自动迁移。数据迁移过程对用户和管理员透明,无需人工干预。由于多卷文件系统的使用,文件迁移完成后,不会在原址保存文件相关链接信息,没有额外的空
39、间开销。4.4 远程复制技术4.4.1 技术背景N8500集群NAS存储系统中,远程复制技术建立在VxFS文件系统基础上,利用了文件系统的两项功能,文件改变日志(FCL)和存储检查点(Storage Checkpoint),可基于用户定制的周期性时间策略在不同的N8500系统间进行数据复制。我们通常将复制的数据源称为源系统,将复制的目的地称为目标系统。 文件改变日志(FCL)技术该技术能够跟踪文件系统中数据更改的时间并记录更改类型,可记录多种文件系统更改操作,例如文件的创建、附加数据,覆盖数据、截短数据、扩展属性修改、打孔、链接、取消链接、重命名等。远程复制利用这项技术可迅速识别给定周期时间范
40、围内,哪些文件中发生了数据改变,但该项技术无法识别被改变的数据块。 存储检查点技术该技术可在任意时间点快速创建文件系统持久映像。映像生成时只包括指向文件系统的一组指针,当文件系统的数据发生变化后,旧数据被拷贝到映像中,然后新数据才会写到主文件系统中,即写入时复制方式。每一个存储检查点映像均可以独立进行读写操作,因此,远程复制的整个过程可基于文件系统存储检查点提供,这样即使在复制过程中,有持续的写操作存在,复制过程也能够顺利进行,且用户业务不会受到任何影响。4.4.2 技术原理N8500远程复制是基于给定周期的异步复制,对于每一个配置了远程复制服务的文件系统,会为其保留至少一个文件系统存储检查点
41、即时映像,该映像是最近一次执行复制任务时所创建,可为下一次复制任务提供参照。N8500的远程复制可分为三个关键步骤,文件改变识别、增量数据生成、增量数据同步。文件改变识别过程可在源文件系统中识别当前周期内被改变的文件;增量数据生成过程可获取文件系统被改变的扩展区(extent),并生成待同步的增量数据;增量数据同步过程可将增量数据同步到目标文件系统。图 19 N8500远程复制技术实现步骤在每一个复制周期时间点到来时,首先会为需要复制的源文件系统创建一个存储检查点即时映像。该周期的复制操作,将使用这个存储检查点映像作为复制源。另外,每个远程复制的文件系统均会保留上一个复制周期时间点的存储检查点
42、,用于数据对比。存储检查点创建完成后,N8500远程复制通过文件改变日志技术,迅速识别出在这个周期内被改变的文件,生成一个记录了这些文件的列表。该过程中,系统无需对整个文件系统进行扫描,与传统的文件级远程复制技术相比,显著提升了处理性能。随后,N8500远程复制使用文件系统存储检查点的元数据对比功能,在当前周期的存储检查点及上一周期的存储检查点间逐一比较这些被改变文件,识别出被改变的扩展区(extent)并进行记录。整个比对过程均通过元数据进行,无需访问文件数据,效率极高。另外,由于只需对比被改变的文件,因此,即使整个文件系统中存在海量文件,也无需担心数据对比过程会耗费较长时间。最后,N850
43、0远程复制将被改变的扩展区(extent)中的数据提取出来,生成待传输的数据文件,并利用业界广泛应用的rsync数据同步工具,通过SSH方式,将这些数据同步到目标系统中,还原到目标文件系统中。当前周期的复制过程完成后,源系统中,较老的存储检查点将被删除,而最新创建的存储检查点会被保留下来,以便下一个周期复制时进行数据对比。值得一提的是,远程复制的目标文件系统可随时对用户提供只读业务。此时用户访问的实际上并不是真实的文件系统,而是目标文件系统在上一周期复制完毕后创建的存储检查点即时映像。这样既保证了用户能够随时访问到完整可用的文件,也不会因为用户的访问而影响到远程复制过程的顺利进行。图 20 N
44、8500远程复制技术实现机制4.4.3 技术特点 可访问的复制数据N8500的远程复制技术,当复制服务开启时,允许用户通过只读方式访问目标系统中的复制数据。当复制服务关闭后或用户业务已经切换到目标N8500系统,则允许用户对目标文件系统进行读写访问。 快速的业务恢复N8500的远程复制中,源系统发生故障时,系统业务可迅速切换到目标系统,通过目标系统提供业务。由于目标系统实际上已经可以单独为用户提供只读数据访问。因此,可在极短的时间内切换到目标系统,提供只读业务。若需目标系统提供可读写业务,仅需进行少量的设置即可完成切换。 与集群技术紧密结合N8500的远程复制服务与集群技术紧密结合,当承载复制
45、业务的节点发生故障后,远程复制服务可自动切换到其他正常节点上,持续提供复制业务,保障了复制业务的持续性。 复制业务与数据业务分离N8500的远程复制中,用户可配置专门的网络接口用于复制业务,可将复制业务与NFS、CIFS等数据业务完全分离。避免了复制业务与主业务的相互影响与带宽争用。 复制过程的高效性N8500的远程复制技术在整个复制流程中对复制效率进行了优化。利用文件改变日志技术与存储检查点的元数据比对技术提升了增量数据识别的效率。另外,由于只需要传输发生改变的数据块,大大降低了需要传输的数据量,提升了复制效率。4.5 配额管理技术4.5.1 技术背景磁盘配额是一种基于用户和分区的文件存储管
46、理。通过磁盘配额管理,管理员就可以对本地用户或登录到本地计算机中的远程用户所能使用的磁盘资源进行合理的分配,每一个用户只能使用管理员分配到的磁盘资源。磁盘配额使得管理员可以方便合理地为用户分配存储资源,可以限制指定账户能够使用的磁盘资源,这样可以避免因某个用户的过度使用磁盘资源造成其他用户无法正常工作甚至影响系统运行避免由于磁盘资源使用的失控可能造成的系统崩溃,提高了系统的安全性。4.5.2 技术原理类unix操作系统的用户管理常常分为用户和用户组。对于文件的来说,创建文件的用户和他所属的组拥有该文件,在文件对象用userID和groupID这两个属性来表示其拥有者。据此,我们可以统计和控制特
47、定用户或用户组在特定的文件系统中拥有的文件数和文件占用空间。在特定的文件系统上应用配额管理主要流程如下,首先,在挂载文件系统时使用quota选项;其次,从应用层使能quota特性;最后,为某个用户或用户组设置配额的门限值。图21 配额管理逻辑架构内核用dquot结构表示user或group的配额管理项,hardlimit为用户从应用层下发的门限值,curinode和curspace分别代表运行时user或group所拥有的文件数目和文件所占字节空间。此外,内核还维护二个基于文件系统的配额配置文件,分别保存着当前用户和用户组的配额状态,这样下次启动时系统可以获取上次的配额状态。配额的实现附着在内核文件子系统上面,从应用层下来的文件读写创建请求,会先经过quota模块,与对应用户配额中的门限值相比较,根据门限值允许或禁止此次文件操作。如果允许,请求才能继续进行,并更新此用户