分布式存储基础Cephcinder及华为软件定义的存储方案.docx

资源描述

《分布式存储基础Cephcinder及华为软件定义的存储方案.docx》由会员分享，可在线阅读，更多相关《分布式存储基础Cephcinder及华为软件定义的存储方案.docx（11页珍藏版）》请在三一办公上搜索。

1、分布式存储基础Cephcinder及华为软件定义的存储方案块存储与分布式存储块存储，简单来说就是提供了块设备存储的接口。通过向内核注册块设备信息,在Linux中通过lsblk可以得到当前主机上块设备信息列表。本文包括了单机块存储介绍、分布式存储技术Ceph介绍，云中的块存储Cinder，以及华为软件定义的存储解决方案。单机块存储一个硬盘是一个块设备，内核检测到硬盘然后在/dev/下会看到/dev/sda/。因为需要利用一个硬盘来得到不同的分区来做不同的事，通过fdisk工具得到/dev/sda1, /dev/sda2等，这种方式通过直接写入分区表来规定和切分硬盘,是最死板的分区方式。

2、分布式块存储在面对极具弹性的存储需求和性能要求下，单机或者独立的SAN越来越不能满足企业的需要。如同数据库系统一样，块存储在scale up的瓶颈下也面临着scale out的需要。分布式块存储系统具有以下特性：分布式块存储可以为任何物理机或者虚拟机提供持久化的块存储设备; 分布式块存储系统管理块设备的创建、删除和attach/detach; 分布式块存储支持强大的快照功能，快照可以用来恢复或者创建新的块设备; 分布式存储系统能够提供不同IO性能要求的块设备。现下主流的分布式块存储有Ceph、AMS ESB、阿里云磁盘与sheepdog等。 1 Ceph 1.1 Ceph概述 Ceph

3、目前是OpenStack支持的开源块存储实现系统(即Cinder项目backend driver之一) 。Ceph是一种统一的、分布式的存储系统。“统一的”意味着Ceph可以一套存储系统同时提供对象存储、块存储和文件系统存储三种功能，以便在满足不同应用需求的前提下简化部署和运维。“分布式”在Ceph系统中则意味着真正的无中心结构和没有理论上限的系统规模可扩展性。 Ceph具有很好的性能、可靠性和可扩展性。其核心设计思想，概括为八个字“无需查表，算算就好”。 1.2 Ceph系统的层次结构自下向上，可以将Ceph系统分为四个层次：基础存储系统RADOS；基础库LIBRADOS；高层应用接

4、口：包括了三个部分：RADOS GW、 RBD和Ceph FS。 RADOS由两个组件组成：一种是数量很多、负责完成数据存储和维护功能的OSD。另一种则是若干个负责完成系统状态检测和维护的Monitor。OSD和monitor之间相互传输节点状态信息，共同得出系统的总体工作状态，并形成一个全局系统状态记录数据结构，即所谓的cluster map。这个数据结构与RADOS提供的特定算法相配合，便实现Ceph“无需查表，算算就好”的核心机制以及若干优秀特性。 OSD可以被抽象为两个组成部分，即系统部分和守护进程部分。OSD的系统部分本质上就是一台安装了操作系统和文件系统的计算机，其硬件部分至少包括

5、一个单核的处理器、一定数量的内存、一块硬盘以及一张网卡。在上述系统平台上，每个OSD拥有一个自己的OSD deamon。这个deamon负责完成OSD的所有逻辑功能，包括与monitor和其他OSD通信以维护更新系统状态，与其他OSD共同完成数据的存储和维护，与client通信完成各种数据对象操作等等。 1.3 Ceph中的数据寻址用户存储数据时的数据路由过程如下图所示：首先明确几个概念： File 用户需要存储或者访问的文件。对于一个基于Ceph开发的对象存储应用而言，这个file也就对应于应用中的“对象”，也就是用户直接操作的“对象”。 OjbectRADOS所看到的“对象”。Obje

6、ct与上面提到的file的区别是，object的最大size由RADOS限定，以便实现底层存储的组织管理。因此，当上层应用向RADOS存入size很大的file时，需要将file切分成统一大小的一系列object进行存储。 PG顾名思义，PG的用途是对object的存储进行组织和位置映射。具体而言，一个PG负责组织若干个object，但一个object只能被映射到一个PG中，即，PG和object之间是“一对多”映射关系。同时，一个PG会被映射到n个OSD上，而每个OSD上都会承载大量的PG，即，PG和OSD之间是“多对多”映射关系。在实践当中，n至少为2，如果用于生产环境，则至少为3。一个O

7、SD上的PG则可达到数百个。事实上，PG数量的设置牵扯到数据分布的均匀性问题。 OSD即object storage device。数据路由的过程需要经过几次寻址： l File - object映射。这次映射的目的是，将用户要操作的file，映射为RADOS能够处理的object。其映射十分简单，本质上就是按照object的最大size对file进行切分。这种切分的好处有二：一是让大小不限的file变成最大size一致、可以被RADOS高效管理的object；二是让对单一file实施的串行处理变为对多个object实施的并行化处理。 l Object - PG映射。在file被映射为一个或

8、多个object之后，就需要将每个object独立地映射到一个PG中去。计算公式： hash(oid) & mask -pgid。根据RADOS的设计，给定PG的总数为m，则mask的值为m-1。因此，哈希值计算和按位与操作的整体结果事实上是从所有m个PG中近似均匀地随机选择一个。基于这一机制，当有大量object和大量PG时，RADOS能够保证object和PG之间的近似均匀映射。 l PG - OSD映射。第三次映射就是将作为object的逻辑组织单元的PG映射到数据的实际存储单元OSD。如图所示，RADOS采用一个名为CRUSH的算法，将pgid代入其中，然后得到一组共n个OSD。这n个

9、OSD即共同负责存储和维护一个PG中的所有object。前已述及，n的数值可以根据实际应用中对于可靠性的需求而配置，在生产环境下通常为3。具体到每个OSD，则由其上运行的OSD deamon负责执行映射到本地的object在本地文件系统中的存储、访问、元数据维护等操作。和“object-OSD”映射中采用的哈希算法不同，CRUSH算法的结果不是绝对不变的，而是受到当前系统的状态和存储配置策略的影响。故而当系统中的OSD状态、数量发生变化时，Cluster map发生变化，映射的结果也就发生了变化。 1.4 写数据的流程当某个client需要向Ceph集群写入一个file时，首先需要在本地完成

10、寻址流程，将file变为一个object，然后找出存储该object的一组三个OSD。找出三个OSD后，client将直接和Primary OSD通信，发起写入操作。 Primary OSD收到请求后，分别向Secondary OSD和Tertiary OSD发起写入操作。当Secondary OSD和Tertiary OSD各自完成写入操作后，将分别向Primary OSD发送确认信息；当Primary OSD确信其他两个OSD的写入完成后，则自己。也完成数据写入，并向client确认object写入操作完成。 1.5 集群维护由若干个monitor共同负责整个Ceph集群中所有OSD

11、状态的发现与记录，并且共同形成cluster map的master版本，然后扩散至全体OSD以及client。OSD使用cluster map进行数据的维护，而client使用cluster map进行数据的寻址。 monitor并不主动轮询各个OSD的当前状态。正相反，OSD需要向monitor上报状态信息。常见的上报有两种情况：一是新的OSD被加入集群，二是某个OSD发现自身或者其他OSD发生异常。在收到这些上报信息后，monitor将更新cluster map信息并加以扩散。 l 新增一个OSD时首先根据配置信息与monitor通信，monitor将其加入cluster map，并设置

12、为up且out状态，再将最新版本的cluster map发给这个新OSD。收到monitor发过来的cluster map之后，这个新OSD计算出自己所承载的PG以及和自己承载同一个PG的其他OSD。然后与这些OSD取得联系。如果这个PG目前处于降级状态，则其他OSD将把这个PG内的所有对象和元数据赋值给新OSD。数据复制完成后，新OSD被置为up且in状态，cluster map也更新。 l 自动化故障恢复当其中一个OSD发生故障时，如果其PG目前一切正常，则这个新OSD将替换掉故障OSD，并承担其数据。在数据复制完成后，新OSD被置为up且in状态，而被替换的OSD将推出该PG。而clu

13、ster map内容也将据此更新。 l 自动化的故障探测过程如果一个OSD发现和自己共同承担一个PG的另一个OSD无法联通，则会将这一情况上报monitor。此外，如果一个OSD deamon发现自身工作状态异常，也将把异常情况主动上报给monitor。此时，monitor将把出现问题的OSD的状态设置为down且in。如果超过某一预定时间期限该OSD仍然无法恢复正常，则其状态将被设置为down且out。如果该OSD能够恢复正常，则其状态会恢复成up且in。 1.6 在OpenStack中使用ceph Ceph底层是存储集群RADOS，然后是LIBRADOS，这是一个可以访问RADOS的库。

14、用户利用这个库开发自己的客户端应用。Ceph提供对象存储、块存储、文件系统也就是基于这个库完成的。在OpenStack中使用Ceph块设备，必须首先安装 QEMU，libvirt和OpenStack。下图描述了OpenStack和Ceph技术层次。libvirt配置了librbd的 QEMU 接口，通过它可以在OpenStack中使用Ceph块设备。可以看出OpenStack通过libvirt中的接口调用QEMU，QEMU去调用Ceph的块存储库libRBD，从而完成在OpenStack中的Ceph使用。 OpenStack 与 Ceph 有三个结合点： l 镜像：OpenStack Gla

15、nce 管理虚拟机镜像。镜像是不变的。OpenStack 把镜像当作二进制对象并以此格式下载。 l 卷：卷是块设备。OpenStack 使用卷来启动虚拟机，或者绑定卷到运行中的虚拟机。OpenStack 使用 Cinder 服务管理卷。 l 客户磁盘：客户磁盘是客户操作系统磁盘。默认情况下，当启动一台虚拟机时，它的系统盘以文件的形式出现在 hypervisor 系统上。在 OpenStack Havana 以前的版本，在 Ceph 中启动虚拟机的唯一方式是使用 Cinder 的 boot-from-volume 功能，现在能够在 Ceph 中直接启动虚拟机而不用依赖于 Cinder，这是非常有

16、利的，能够很容易的进行虚拟机的热迁移。除此之外，如果 hypervisor 挂掉还能够方便地触发 nova evacute然后无缝得在其他的地方继续运行虚拟机。 1.7 Ceph的一些问题关于Ceph作为块存储项目的几个问题需要考虑: l l l Ceph在读写上不太稳定，目前Ceph官方推荐XFS作为底层文件系统 Ceph的扩展性较难，如果需要介入Ceph，需要较长时间 Ceph的部署和集群不够稳定 2 AMS EBS EBS是Amazon提供的块存储服务，通过EBS，用户可以随时增删迁移volume和快照操作。Amazon EBS是目前IAAS服务商最引入注目的服务之一，目前的OpenS

17、tack、CloudStack等等其他开源框架都无法提供Amazon EBS对于的如此弹性和强大的服务。 3 Sheep dog Sheepdog是另一个分布式块存储系统，它与Ceph相比，最大优势就是代码短小好维护和hack的成本很小。Sheepdog也有很多Ceph不支持的特性，比如说Multi-Disk, cluster-wide snapshot等。 Sheepdog主要有两部分，一个是集群管理，另一个是存储服务。集群管理目前使用Corosync或者Zookper来完成，存储服务的特点是在client和存储host有Cache的实现可以大大减小数据流量。目前Sheepdog只在QEM

18、U端提供Drive，而缺少library支持，这是Sheepdog目前最主要的问题。云计算中的块存储 4 OpenStack Cinder Nova利用主机的本地存储为虚拟机提供“临时存储”，如果虚拟机被删除了，挂在这个虚拟机上的任何临时存储都将自动释放。基于SAN、NAS等不同类型的存储设备，OpenStack Cinder，Swift引入了永久存储，负责为每个虚拟机本身的镜像以及它所产生的数据提供一个存储场地。 Cinder是OpenStack中提供类似于EBS块存储服务的API框架，为虚拟机提供持久化的块存储能力，实现虚拟机存储卷的创建、挂载卸载、快照等生命周期管理。Cinder提供的

19、RESTful API针对逻辑存储卷进行管理。其架构如下：用户通过cinder client发送Restful请求，cinder-api是进入cinder的HTTP结构。Cinder-volume运行在存储节点上管理具体存储设备的存储空间，每个存储节点上都会运行一个cinder-volume服务，多个节点一起构成了一个存储资源池。 Cinder-Scheduler根据预定的策略选择合适的cinder-volume节点来处理客户请求。Cinder-backup提供存储卷备份功能。 Cinder并没有实现对块设备的管理和实际服务，而是为后端不同的存储结构提供了统一的接口，不同的块设备服务厂商在C

20、inder中实现其驱动支持以与OpenStack进行整合。后端的存储可以是DAS，NAS，SAN，对象存储或者分布式文件系统如ceph。也就是说，Cinder的块存储数据完整性、可用性保障是由后端存储提供的。Cinder只是提供了一层抽象，然后通过其后段支持的driver实现来发出命令来得到回应。关于块存储的分配信息以及选项配置等会被保存到OpenStack统一的DB中。Cinder默认使用LVM作为后端存储。LVM将众多不同的物理存储器资源组成卷组，从卷组上创建逻辑卷，然后将文件系统安装在逻辑卷上。其更为细化的架构如下图所示： 5 华为软件定义的存储方案 5.1 软件定义的存储传统的存储

21、当中，存储不感知VM，存储扩展困难，LUN配置复杂，修改配置困难；多VM运行同一个LUN时，存在IO blending的问题。为解决传统存储的问题，可得到软件定义的存储具有以下几个特征： l l l l 自助式的用户接口策略驱动的存储，提供SLA保障各种存储资源统一池化，自动化管理兼容任意硬件，包括通用硬件和专用存储硬件。 5.2 华为软件定义的存储相关技术 5.2.1. 基于Cinder的华为块存储为解决传统存储中配置困难、兼容性不好等问题，华为采用了统一的、策略驱动的存储控制平面OpenStack Cinder。其中Cinder API是统一的卷管理接口；Cinder Schu

22、duler是基于策略的存储资源调度；Cinder Volume可以介入不同存储厂商的driver，如下图所示：在当前架构下，管理面上通过Cinder提供统一接口；但各driver之间不能互通，数据面的能力依然参差不齐；各产品之间特性会重叠；整个数据面还不够开放。 5.2.2. 华为SDS目标架构左边的图是当前的架构，右边的图为目标架构。由图可以看出，目标架构中增加了一层以APP为中心的数据服务，希望提供统一的以APP为中心的数据服务，提供跨异构存储设备的数据服务，数据服务不依赖任何存储设备提供商。以APP为中心的数据服务是指以APP为中心的QoS服务，以APP为中心的缓存服务，以APP

23、为中心的瘦分配服务。在这种服务中，所有数据服务提供App力度的策略管理，虚拟机或app可配置QoS要求，如带宽，IOPS，延迟；可配置Cache需求，如介质，容量，算法，可靠性；可配置瘦分配需求，如总容量，预留容量。 l 虚拟机或应用细粒度的QoS服务通过分布式流控、分布式调度和智能资源调整技术，实现按策略组进行流量控制、流量保障和系统资源最大化利用。由上图可以看出，每个虚拟机后挂载的vDisk都可以进行QoS的配置。 l 分布式缓存服务传统方式，所有APP的SSD cache交织在一起，无法充分发挥SSD的价值；云数据中心应用众多，特征不一，存在SSD blending的问题。采用新型方式，每个vSSD的容量，Cache算法，块大小，刷盘方式，等可根据应用特征配置；所有的vSSD共用集群中所有的SSD硬件，使用最小的SSD成本，满足所有APP的Qos要求。如下图所示，其中左图为传统模式，右图为新的模式：其实现方式如下： l 瘦分配 5.2.3. 华为分布式存储 l 分布式对象存储UDS l 分布式块存储FusionStorage l 分布式文件存储OceanStor

展开阅读全文