admin 管理员组

文章数量: 887021


2024年3月20日发(作者:java定义一个方法)

华为 OceanStor Dorado 全闪存存储系统

技术白皮书

华为 OceanStor Dorado V3 全闪存存储系统

品技术白皮书(中国区企业版本) 目 录

目 录

1 摘要 ...................................................................... 1

2 简介 ...................................................................... 2

2.1 产品系列 .................................................................................. 2

2.2 客户价值 .................................................................................. 3

3 系统架构 .................................................................. 5

3.1 相关概念 .................................................................................. 5

3.1.1 控制框 .................................................................................. 5

3.1.2 控制器 .................................................................................. 6

3.1.3 硬盘框 .................................................................................. 7

3.1.4 硬盘域 .................................................................................. 7

3.1.5 存储池 .................................................................................. 9

3.1.6 RAID 技术 .............................................................................. 10

3.2 硬件架构 ................................................................................. 14

3.2.1 设备形态 ............................................................................... 15

3.2.2 自研 HSSD ...................................................................................................................................................................... 16

3.2.2.1 盘内磨损均衡 .......................................................................... 17

3.2.2.2 坏块管理 .............................................................................. 17

3.2.2.3 数据冗余保护 .......................................................................... 17

3.2.2.3.1 后台巡检 ............................................................................ 18

3.2.2.3.2 支持 SAS 和 NVMe 协议 ............................................................... 18

3.2.3 自研芯片 ............................................................................... 19

3.2.4 硬件扩展能力 ........................................................................... 20

3.2.5 硬件架构特征 ........................................................................... 24

3.3 软件架构 ................................................................................. 24

3.3.1 FlashLink ................................................................................................................................................................. 26

3.3.1.1 冷热数据分流 .......................................................................... 27

3.3.1.2 端到端 IO 优先级 ....................................................................... 27

3.3.1.3 ROW 满分条写 ......................................................................... 28

3.3.1.4 全局垃圾回收 .......................................................................... 29

华为 OceanStor Dorado V3 全闪存存储系统

品技术白皮书(中国区企业版本) 目 录

3.3.1.5 全局磨损均衡/反磨损均衡 ................................................................ 29

3.3.2 读缓存 ................................................................................. 31

3.3.3 IO 流程 ...................................................................................... 31

3.3.3.1 写流程 ................................................................................ 31

3.3.3.2 读流程 ................................................................................ 33

3.3.4 丰富软件特性 ........................................................................... 34

3.3.5 软件架构特征 ........................................................................... 35

4 精简高效 Smart 系列特性 ................................................... 36

4.1 在线重删(SmartDedupe) .................................................................. 36

4.2 在线压缩(SmartCompression) .............................................................. 37

4.3 智能精简配置(SmartThin) ................................................................ 39

4.4 智能服务质量控制(SmartQoS) ............................................................. 39

4.5 异构虚拟化(SmartVirtualization) .............................................................. 41

4.6 智能数据迁移(SmartMigration) ............................................................ 42

4.7 多租户(SmartMulti-Tenant for File) .......................................................... 44

4.8 智能配额(SmartQuota for File) ............................................................. 46

5 数据保护 Hyper 特性 ....................................................... 48

5.1 快照(HyperSnap) ........................................................................ 48

5.1.1 LUN 快照(HyperSnap For Block) ............................................................ 48

5.1.2 FS 快照(HyperSnap For File).............................................................. 51

5.2 HyperCDP .................................................................................................................................................................. 52

5. 54

5.4 克隆(HyperClone) ....................................................................... 57

5.4.1 LUN 克隆(HyperClone For Block) ........................................................... 57

5.4.2 FS 克隆(HyperClone For File) ............................................................. 59

5.5 远程复制(HyperReplication) ............................................................... 61

5.5.1 LUN 同步远程复制 (HyperReplication/S For Block) ................................................................................................. 61

5.5.2 LUN 异步远程复制 (HyperReplication/A For Block) ................................................................................................ 64

5.5.3 FS 异步远程复制(HyperReplication/A For File) ............................................... 66

5.6 阵列双活(HyperMetro) ................................................................... 68

5.6.1 LUN 双活(HyperMetro For Block) ........................................................... 68

5.6.2 FS 双活(HyperMetro For File) ............................................................. 69

5.7 两地三中心(3DC) ....................................................................... 72

5.8 一体化备份(HyperVault for File) ............................................................ 72

5.9 WORM(HyperLock for File) ................................................................ 73

6 云灾备 Cloud 特性 ......................................................... 76

6.1 云复制(CloudReplication) ................................................................. 76

6.2 云备份(CloudBackup) .................................................................... 77

华为 OceanStor Dorado V3 全闪存存储系统

品技术白皮书(中国区企业版本) 目 录

7 系统安全和数据加密 ........................................................ 80

7.1 系统数据加密(Data Encryption) ............................................................ 80

7.2 基于角色的访问控制管理 ................................................................... 81

8 系统管理及兼容性.......................................................... 82

8.1 系统管理 ................................................................................. 82

8.1.1 Device Manager ....................................................................................................................................................... 82

8.1.2 CLI ........................................................................................................................................................................... 82

8.1.3 Call Home 服务 ........................................................................... 82

8.1.4 Restful API ............................................................................................................................................................... 83

8.1.5 SNMP ...................................................................................................................................................................... 83

8.1.6 SMI-S ...................................................................................................................................................................... 83

8.1.7 配套工具 ............................................................................... 83

8.2 生态集成及兼容性 ......................................................................... 83

8.2.1 VVol(Virtual Volumes) ........................................................................ 83

8.2.2 OpenStack 集成 ........................................................................... 84

8.2.3 虚拟机环境插件 ......................................................................... 84

8.2.4 主机兼容性 ............................................................................. 84

9 最佳实践 ................................................................. 85

10 更多参考信息 ............................................................ 86

11 如何反馈意见 ............................................................ 87

12 缩略语 .................................................................. 88

华为 OceanStor Dorado V3 全闪存存储系统

品技术白皮书(中国区企业版本)

1 摘要

1

摘 要

华为公司 OceanStor Dorado V3 是面向企业关键业务打造的全闪存存储系统,采用专为

闪存设计的 FlashLink

®

技术,实现 0.5ms 稳定低时延;免网关双活技术,为客户提供端

到端双活数据中心解决方案,并可平滑升级到两地三中心容灾方案,实现方案级99.9999%

的可靠性;在线重删和压缩技术,提供更多的客户可用容量,减少 TCO。OceanStor

Dorado V3 能够满足数据库、虚拟桌面 (VDI)、虚拟服务器架构 (VSI)等企业级应

用的关键需求,助力金融、制造、运营商等行业向全闪存时代平滑演进。

本文从产品定位、硬件架构、软件架构、特性方面详细介绍了 OceanStor Dorado V3 全

闪存存储系统的关健技术,以及为客户带来的独特价值。

华为 OceanStor Dorado V3 全闪存存储系统

品技术白皮书(中国区企业版本)

2 简介

2

2.1 产品系列

2.2 客户价值

图2-1 OceanStor Dorado5000 V3

简 介

2.1 产品系列

OceanStor Dorado V3 包括 Dorado5000 V3 (包括 NVMe 和 SAS 版本)、Dorado6000 V3

几款产品。

图2-2 OceanStor Dorado6000 V3

华为 OceanStor Dorado V3 全闪存存储系统

品技术白皮书(中国区企业版本)

2 简介

图2-3 OceanStor Dorado NAS

详细产品规格信息请参见:/cn/products/cloud-computing-

dc/storage/unified-storage/dorado-v3

2.2 客户价值

OceanStor Dorado V3 在软件架构上针对 Flash 介质做了深度优化,同时又集成了华为

存储十几年的技术积累和 OceanStor OS 存储操作系统的丰富特性,如:快照、克隆、

同步/异步复制,双活,3DC、QoS、迁移,Thin,HyperCopy,HyperCDP,

CloudReplication,CloudBackup 等,给客户提供极致性能体验的同时,又提供无与伦

比的数据保护能力。

OceanStor Dorado NAS 在 OceanStor Dorado V3 快、稳、省的基础上提供丰富的文件系

统特性,如:文件快照、文件克隆、文件复制、文件双活、WORM、文件系统配额、

多租户、文件系统智能缓存分区等,给客户提供极致性能体验;

OceanStor Dorado V3 通过技术创新,在以下方面为客户创造价值。

极致性能

在银行、海关、证券等极致性能要求场景,Dorado V3 能够提供小于 0.5ms 的稳定

时延和高吞吐量,极大提高客户的业务处理效率以及减少批处理业务需要的时间窗。

灵活扩展

Dorado V3 支持 Scale-out 和 Scale-up 灵活扩展,以满足客户对极致性能和大容量

的诉求。

针对极致性能场景,可以采用 Scale-out 方式增加控制器,IOPS 和带宽能够随

控制器增加线性增加,低时延保持不变。

针对大容量需求,可以通过扩展磁盘框的方式进行 Scale-up。

稳定可靠

通过部件、系统、解决方案三级可靠性设计和实现,保证系统的可靠性。

作为核心部件的华为自研 SSD(HSSD)盘片内部实现了闪存颗粒内部

(LDPC 纠错算法)、闪存颗粒间(闪存颗粒间 RAID)的两级可靠性方案,实

现芯片级的失效数据保护;

智能矩阵式多控架构、创新的 RAID2.0+及 RAID-TP 技术和针对闪存设计的

FlashLink

®

等技术,使得系统无单点故障、能够容忍 3 盘同时失效和提升闪存

寿命;

华为 OceanStor Dorado V3 全闪存存储系统

品技术白皮书(中国区企业版本)

2 简介

无网关双活,实现站点发生事故或者灾难情况下业务 RTO=0 和 RPO=0,业务

连续性不受影响。

融合高效

采用在线全局重删和压缩技术,同等可用容量,全闪存节省 75% CAPEX;支持与

华为 OceanStor V3 融合存储通过远程复制组成容灾网络,实现全闪存阵列与传统存

储的融合;通过异构虚拟化和远程复制,实现与华为传统存储以及第三方阵列的融

合。

快速低成本的云容灾

采用 CloudReplication,CloudBackup 特性,无需外部网关,实现生产中心数

据上云,免维护,快速低成本的构建云上灾备中心。

华为 OceanStor Dorado V3 全闪存存储系统

品技术白皮书(中国区企业版本)

3 系统架构

3

3.1 相关概念

3.2 硬件架构

3.3 软件架构

系统架构

3.1 相关概念

3.1.1 控制框

OceanStor Dorado V3 的控制框(Controller Enclosure,简称 CTE)是指包含存储控制器

在内的硬件框,负责所有存储业务逻辑的处理,提供主机访问、设备管理、数据服务等

核心功能。包括:系统插框、控制器、接口模块、电源、BBU、管理模块等。Dorado

V3 系列支持 2U、3U、6U 三种控制框形态,分别支持盘控一体和盘控分离设计。

图3-1 OceanStor Dorado 2U 控制框

华为 OceanStor Dorado V3 全闪存存储系统

品技术白皮书(中国区企业版本)

3 系统架构

1

3

系统插框

电源-BBU 模块

2

4

硬盘模块

控制器(含接口板)

图3-2 OceanStor Dorado V3 3U 控制框

1

3

5

系统插框

控制器

管理模块

2

4

6

BBU 模块

电源模块

接口模块

3.1.2 控制器

OceanStor Dorado V3 控制器是包含 CPU、内存、主板等硬件的计算模块,主要负责处

理存储业务、接收用户的配置管理命令、保存配置信息、接入硬盘和保存关键信息到保

险箱硬盘。保险箱盘分为内置和外置两种保险箱盘,用于保存存储系统的数据和系统掉

电后 Cache 中的数据。每个控制器内置一个或多个硬盘,称为内置保险箱盘。外置保险

箱盘位于控制器外,对于 Dorado5000 V3 系列,控制框自带硬盘模块中的前 4 块硬盘作

为保险箱盘;对于 Dorado6000 V3 系列,存储系统中第一个硬盘框的前 4 块硬盘规划

为保险箱盘。(具体各型号保险箱盘规格及分区参考:《OceanStor Dorado5000 V3,

Dorado6000 V3 产品文档》)一个控制框支持 2 个控制器,两两配对成一个高可用控制

器对。在单控制器故障的时候,可以由其配对的另一个控制器接管存储处理业

务,保证系统的高可用性。控制器前端通过 IO 模块提供主机业务接入的访问接口,支

持 8Gb/16Gb/32Gb FC、100Gb/40Gb/25Gb/10Gb ETH 主机接口。

华为 OceanStor Dorado V3 全闪存存储系统

品技术白皮书(中国区企业版本)

3 系统架构

3.1.3 硬盘框

OceanStor Dorado V3 硬盘框支持 25 盘位的 2.5 英寸 SSD,包括:系统插框、级联模

块、电源模块和硬盘模块,SAS 硬盘框提供 4 个 SAS3.0 级联接口,NVMe 硬盘框提供

2 个 PCIe 3.0 * 8 级联接口,硬盘框是系统容量 Scale-up 的基本单位。

图3-3 硬盘框硬件架构

3.1.4 硬盘域

1

3

系统插框

电源模块

2

4

硬盘模块

级联模块

硬盘域是由多块硬盘组合而成,RAID 组在硬盘域的范围内选择成员盘。OceanStor

Dorado V3 支持创建一个或者多个硬盘域,支持跨控制框创建硬盘域(硬盘域最大只能

跨 2 个控制框创建)。双控控制框最大支持创建 4 个硬盘域,四控控制框最大支持创建

8 个硬盘域。每个硬盘域允许配置 2 种不同容量点的 SSD。

华为 OceanStor Dorado V3 全闪存存储系统

品技术白皮书(中国区企业版本)

3 系统架构

图3-4 硬盘域跨控制框

上图示例为一个 Dorado V3 双控制框系统,可以对系统的所有硬盘创建一个硬盘域,

也可以对每个控制框分别创建一个硬盘域。

硬盘域有热备策略和加密类型两个属性。热备策略提供高、低、无三种策略,热备策

略可以在线修改。

高:高热备空间比例,硬盘域会预留更多的热备空间用于硬盘故障时存储系统重

构数据。热备空间的容量随着硬盘数量的增加呈非线性增长。

低(默认值):低热备空间比例,硬盘域会预留较少(至少保障重构一块硬盘的空

间)的热备空间用于硬盘故障时存储系统重构数据。热备空间的容量呈非线性增加。

无:系统不提供热备空间。

表3-1 硬盘域热备空间容量随硬盘数量的变化情况(表中列出了 200 盘以内的情况)

硬盘数

8~12

13~25

26~50

51~75

76~125

126~175

176~200

高热备策略热备空间(块)

1

2

3

4

5

6

7

低热备策略热备空间(块)

1

2

3

4

硬盘域支持普通硬盘域和加密硬盘域两个选项,此属性在创建硬盘域时配置,一旦配

置无法更改。

普通硬盘域:非加密的普通硬盘可以创建普通硬盘域,加密硬盘也可以创建普通

硬盘域作为非加密硬盘,但无法启用加密功能;

加密硬盘域:只能使用加密硬盘创建,并需要配置密管服务。

华为 OceanStor Dorado V3 全闪存存储系统

品技术白皮书(中国区企业版本)

3 系统架构

图3-5 硬盘域创建示例

3.1.5 存储池

存储池创建于硬盘域中,是存放存储空间资源的容器,所有应用服务器使用的存储空

间都来自于存储池。一个硬盘域中包含一个存储池。

创建存储池的时候,需要指定 RAID 级别。存储池的容量会默认包括选定的硬盘域的

所有可用容量。

存储池默认 RAID 策略配置为 RAID 6, RAID 6 可以满足绝大部分场景的可靠性要求,

同时可以提供较好的性能和容量利用率。在单盘容量较大的场景下(如 8T 盘),单盘

重构时间很长会降低可靠性,此时使用 RAID-TP 可以弥补可靠性的降低。

华为 OceanStor Dorado V3 全闪存存储系统

品技术白皮书(中国区企业版本)

3 系统架构

图3-6 创建存储池

3.1.6 RAID 技术

OceanStor Dorado V3 RAID 技术采用华为专利 EC(Erase-Code)算法,能够同时支持

RAID 5,RAID 6,RAID-TP,RAID10*。RAID-TP 能够容忍三盘失效,提供更高的可

靠性。

如有*号标注处规格要求,请联系华为销售人员。

OceanStor Dorado V3 数据冗余机制 RAID 采用 RAID2.0+块级虚拟化技术:

多个 SSD 组成一个硬盘域;

每个 SSD 盘被切分成固定大小的 Chunk(简称 CK,大小为 4MB)进行逻辑空间

管理;

来自不同 SSD 盘的 CK 按照客户配置 RAID 冗余级别组成 Chunk 组(CKG)。

CKG 冗余算法支持 3 种冗余度配置:

RAID 5,采用 EC-1 算法,每个校验条带生成 1 个校验数据;

RAID 6,采用 EC-2 算法,每个校验条带生成 2 个校验数据;

RAID-TP,采用 EC-3 算法,每个校验条带生成 3 个校验数据;

CKG 再被划分为更细粒度的 Grain,通常为 8K,为满分条写盘的最小粒度,OceanStor

Dorado V3 写盘采用满分条写,避免传统 RAID 的大小写导致系统额外开销。RAID 映

射流程如下所示:

华为 OceanStor Dorado V3 全闪存存储系统

品技术白皮书(中国区企业版本)

3 系统架构

图3-7 OceanStor Dorado V3 RAID 冗余映射图

OceanStor Dorado V3 通过 EC 算法,RAID 组能够支持更多的成员盘数,能够获取更

高的空间利用率。

表3-2 EC 算法支持的 RAID 利用率

RAID 级别

RAID 5

RAID 6

RAID-TP

EC 算法推荐

的成员盘数

22+1

21+2

20+3

RAID 利用率

95.6%

91.3%

86.9%

传统算法推荐

成员盘数

7+1

14+2

不支持

RAID 利用率

87.5%

87.5%

NA

当发生硬盘故障或者长时间拔出时,该硬盘上的 Chunk 将通过所在的 CKG 进行 RAID

重构。具体描述如下:

1. 硬盘故障,导致该硬盘上的 Chunk 不可用;

2. 故障 Chunk 所在的 CKG 处于 RAID 降级状态;

3. 系统从存储池中分配空余的 CK 用于数据修复;

4. 系统根据存储池的 RAID 级别,利用校验列和未损坏的数据列,计算出损坏的数

据块写到空闲的 CK 中;

由于故障硬盘导致多个 Chunk 不可用,多个 chuck 又分布在多个 CKG 中,多个 CKG

将同时启动重构,而新分配的 Chunk 也是分布在多个硬盘中,所以重构过程是故障硬盘

所在的硬盘域内所有硬盘都可能参与重构,充分利用了系统所有硬盘的 IO 能力,可以

极大的提升数据重构速度,缩短数据恢复时间。

Dorado V3 RAID 重构采用动态 RAID 重构,并支持两种重构方式:普通重构和缩列重

构,系统自动选择重构方式,保证各种场景下 RAID 冗余度不降低,维持高可靠。

普通重构

通过将恢复数据写入新分配 CK 的重构称为普通重构,重构前后 RAID 成员列数

保持不变。

华为 OceanStor Dorado V3 全闪存存储系统

品技术白皮书(中国区企业版本)

3 系统架构

RAID 成员列数为 M+N(M 为数据列数,N 为校验列数),如果硬盘域中状态正常

的成员盘数大于等于 M+N,则执行普通重构。重构过程中,对故障的 CKG,系统

选择空闲的 CK 替换故障的 CK,然后进行数据重构。

如下图所示,D0、D1、D2、P、Q 组成 CKG,当 disk2 发生故障,那么从 disk5

中选择一个 CK(D2_new)替换 disk2 中的 D2,把 D0、D1、D2_new、P、Q 一起

组成 CKG,把 D2 中的数据重构到 D2_new 中;

普通重构完成后,所有的数据保持 RAID 成员盘数不变,冗余级别不变。

图3-8 普通重构示意图

缩列重构

当硬盘域可用成员盘数小于 RAID 成员盘数时,系统将采用缩列重构。缩列重构

和普通重构不同的地方是,由于硬盘域总的可用硬盘小于 RAID 成员盘数,缩列

重构时保持 N(校验列)不变,减少 M(数据列)的方式进行重构,重构前后

RAID 校验列数不变,数据列数变少。

发生缩列重构时候,故障 CK 的数据,会重新写入到新的 CKG 上,RAID 列数将

减少(如果系统只有 M+N-1 块盘,那么新的 CKG 就是 M-1+N)。未故障的数据

列(M-1),加上新选择的 P、Q 列,组成新的 CKG,数据列保持不变,重新计算

P、Q。如下图所示,以 6 块可用盘(4+2)为例,disk2 发生故障,那么 CKG0 中

的数据 D2 会当做新数据写到新的 CKG1 上(图中 D2’),RAID 列数则为 3+2;

原 CKG0 上的数据 D0、D1、D3 则重新计算 P’、Q’组成 3+2 的新 CKG0。

缩列重构完成后,RAID 组成员盘数减少,但是 RAID 冗余级别不变。

华为 OceanStor Dorado V3 全闪存存储系统

品技术白皮书(中国区企业版本)

3 系统架构

图3-9 缩列重构示意图

RAID 列数是根据硬盘域的硬盘数由系统自动调整。OceanStor Dorado V3 在选择 RAID

列数时是综合考虑了容量的利用率,RAID 可靠性和重构速率等因素。硬盘域中硬盘数

与 RAID 列数的对应关系如下表:

表3-3 RAID 列数与硬盘域硬盘数对应表

硬盘域硬盘数

X(8~12)

X(13~25)

X(26~27)

X(X>27)

RAID 列数

X-1

X-2

X-3

25

高热备策略热备空间

1

2

3

大于等于 3

RAID 列数 M+N 遵循如下原则:

1. 当硬盘域内故障的硬盘数小于等于高热备策略热备空间内的盘数,系统均不应引

起缩列重构。

2. 尽量保证较高的容量利用率。

3. M+N 不大于 25。

当盘数小于 13 盘时,热备空间为 1 个盘的容量,RAID 列数 M+N 为 X-1,优先保证了

系统容量利用率。

当盘数大于等于 13 盘小于 25 盘时,高热备空间 2 个盘的容量,RAID 列数 M+N 为 X-

2,优先保证系统在损坏多块硬盘时尽量避免产生缩列重构。

当盘数在 26~27 盘之间时,此时参照表 3-1,高热备策略的情况下,系统是有 3 块盘的

空间作为热备空间。由于热备空间是系统设计的允许的坏盘数,在这个范围内的坏盘

(这里指的不是同时损坏的情况)均应视为正常故障场景。此时 RAID 列数选择为 X-

3,是为了保证客户当系统先后故障达 3 块盘时,系统不启动缩列重构。

当盘数大于 27 盘后,系统采用最大 M+N 为 25,既保证了较好的容量利用率又避免

M+N 数值太大时 RAID 重构而引起的读放大过程。比如采用 30+2 的 RAID 算法,那

华为 OceanStor Dorado V3 全闪存存储系统

品技术白皮书(中国区企业版本)

3 系统架构

么损坏一块盘时,故障 CKG 中每重构一个 CK 都需要读取另外 30 个盘的 CK,产生了

较大的读放大,因此系统设计最大 M+N 为 25。

系统扩容时,RAID 策略中的 M+N 将随着盘数的增加而增加。所有新写入的数据(包

括垃圾回收产生的写入数据),都将采用新的 M+N 的方式来写入。原有数据保持原来

的 RAID 列数不变。比如,系统硬盘域内原有 15 块硬盘,采用的 RAID 策略为RAID6,

对照表 3-3 那么 M+N 为 11+2,如果客户扩容至 25 块盘,那么新数据写入为

21+2,而原来的数据保持 11+2 不变。当系统启动垃圾回收时,会把 11+2 中的有效 CK

写入到 21+2 中,原先 11+2 的 CKG 将会被存储池回收。

OceanStor Dorado V3 数据冗余和恢复机制优势如下:

快速重构:硬盘域所有盘参与重构。根据实测数据 OceanStor Dorado V3 1TB 数据

不带业务重构只需要 30min 可以完成,而传统 RAID 重构 1TB 数据的时间超过 2

小时。

RAID 保护机制灵活,可靠性高:OceanStor Dorado V3 支持 3 种不同级别的 RAID

冗余机制,用户可以根据不同业务场景灵活选择,对于可靠性要求高场景, RAID-

TP 可以提供同时故障 3 盘可靠性保障。

支持智能选择 RAID 成员盘策略:在系统发生单盘持续故障场景,通过智能缩减

RAID 成员盘机制以及缩列重构,保证新写入的数据还是可以保持原来的冗余度级

别,不会因此导致数据降级写,降低数据数据保护可靠性。

避免传统 RAID 的 Write Hole 导致数据不一致:OceanStor Dorado V3 采用满分条

追加写的方式,避免传统 RAID 由于 Write Hole 问题而引入的数据不一致问题。

3.2 硬件架构

OceanStor Dorado V3 系列存储系统采用智能矩阵式多控架构,以控制框为单位横向扩

扩展,达到性能和容量的线性增长。单个控制框采用双控冗余架构,双控间采用板载

PCIE3.0 实现双控缓存镜像通道,多控制框之间通过 PCIe3.0 交换机实现 Scale-out。后

端硬盘框扩展采用 SAS3.0 实现硬盘框的 Scale-up。控制框内硬盘通过双端口连接到两

个控制器,支持 SAS 接口的 SSD 和 NVMe 接口的 SSD 两种类型硬盘。通过 BBU

(Backup Battery Unit),在系统掉电时把 cache 中的缓存数据持久化到保险箱盘上实现

缓存数据的保护和系统掉电后的数据一致性。主机接口采用华为自主研发的 SmartIO 卡

支持 8Gb/16Gb/32Gb FC、25Gb/10Gb ETH 接口的融合,同时支持 40Gb/100Gb ETH

接口。

华为 OceanStor Dorado V3 全闪存存储系统

品技术白皮书(中国区企业版本)

3 系统架构

图3-10 存储智能矩阵式多控架构

3.2.1 设备形态

OceanStor Dorado V3 系列包含 OceanStor Dorado5000 V3、OceanStor Dorado6000 V3 两

种产品形态。

表3-4 OceanStor Dorado V3 产品形态

产品型号

Dorado5000 V3

Dorado6000 V3

Dorado NAS

控制框形态

盘控一体(2U)

控制框和硬盘框独立架

构(3U)

盘控一体(2U)

控制器数/控制框 硬盘类型

2

2

2

NVMe/SAS

NVMe/SAS

NA

OceanStor Dorado5000 V3 采用盘控一体,实现高密度的性能和容量。

控制框为 2U 背板互联的双控架构,硬盘有 NVMe 接口和 SAS 接口两种类型。

NVMe 版本后端通过 PCIe 交换芯片扩展,连接到 25 个 2.5 英寸双端口 NVMe SSD;

SAS 版本后端通过 SAS 交换芯片扩展,连接到 25 个 2.5 英寸双端口 SAS SSD。

华为 OceanStor Dorado V3 全闪存存储系统

品技术白皮书(中国区企业版本)

3 系统架构

图3-11 OceanStor Dorado5000 V3 NVMe 设备架构图

图3-12 OceanStor Dorado5000 V3 SAS 设备架构图

OceanStor Dorado6000 V3 采用控制框和硬盘框分离的架构,可实现灵活的 Scale-out 和

Scale-up 的扩展。所不同的是 Dorado 6000V3 控制框为 3U 背板互联的双控架构。控制

框内的控制器通过背板上的 PCIE3.0 通道互联,跨控制框通过 PCIE3.0 交换机实现

Scale-out。通过 SAS3.0 支持硬盘框的扩展以实现容量的 Scale-up。

3.2.2 自研 HSSD

OceanStor Dorado V3 采用自主研发的 SSD(HSSD),通过存储软件和 HSSD 盘的深度

配合,可以发挥 Dorado V3 全闪存系统的极致性能。SSD 主要由控制单元和存储单元

(当前主要是 FLASH 闪存颗粒)组成,控制单元包括 SSD 控制器、主机接口、DRAM

等,存储单元主要是 NAND FLASH 颗粒。

NAND FLASH 内部存储读写的基本单元为 Block 和 Page。

Block:能够执行擦除操作的最小单元,通常由多个 Page 组成;

Page:能够执行编程和读操作的最小单元,通常大小为 4KB/8KB/16KB 等。

对 NAND FLASH 读写数据的操作主要涉及擦除(Erase)、编程(Program)和读(Read),其

中编程和读的基本操作单位是 Page,擦除的基本操作单位是 Block。在写入一个 Page

之前,必须要擦除这个 Page 所在的整个 Block。因此在写入某个 Page 时,需要把

Block 中其他有效的数据拷贝到新的存储空间,从而把原先的整个 Block 擦除,这一过

华为 OceanStor Dorado V3 全闪存存储系统

品技术白皮书(中国区企业版本)

3 系统架构

程称为垃圾回收(Garbage Collection,简称 GC)。每一次对 Block 的编程写入和擦除称

为一次 P/E(Program/Erase)。不同于机械硬盘 HDD,SSD 盘中对每个 Block 的擦写次

数是有限制的。如果某些 Block 的擦写次数太多,将会导致该 Block 不可用。针对

SSD 的这些特点,华为自研的 HSSD 盘采用了多项关键技术来保证 SSD 的可靠性和性

能。

3.2.2.1 盘内磨损均衡

磨损均衡是指 SSD 控制器通过对 NAND Flash 中 Block 的 P/E 次数进行监控,通过一定

的软件算法使所有 Block 的 P/E 次数比较平均,防止单个 Block 因过度擦写而导致失效,

延长 NAND FLASH 整体的使用寿命。

华为 HSSD 采用的磨损均衡分为动态磨损均衡和静态磨损均衡。动态磨损均衡是指在

主机数据写入的时候,优先挑选磨损较小的 Block 使用,这样保证 P/E 消耗平均分 布;

静态磨损均衡是指盘片定期在整个盘片的范围内寻找 P/E 消耗较少的 Block 并回

收其上的有效数据,从而使得保存冷数据的 Block 也参与到磨损均衡的循环中。HSSD

通过这 2 种方案的结合来保证全盘磨损均衡。

3.2.2.2 坏块管理

NAND FLASH 芯片在制造和使用过程中会逐渐出现一些不符合要求的存储单元,此类

Block 将被标志为坏块。HSSD 根据大量的实验数据和应用场景确定了坏块的判断标准,

该标准会根据 NAND FLASH 的擦写次数,错误类型,发生的频率等因素来判断Block

是否为坏块。如果出现坏块,则通过 NAND FLASH 间 XOR 冗余校验数据来计算出坏

块上的数据,并将数据恢复到新的可用 Block 上。在一个 SSD 生命周期内,盘片大概会

出现 1.5%左右的坏块,HSSD 在盘片内部预留了空间用作坏块替换,确保在生命周期内

可能出现的坏块可以及时被替换,保障 SSD 上的数据安全可靠。

3.2.2.3 数据冗余保护

由于 SSD 在使用过程中可能会出现数据位翻转和跳变,HSSD 采用冗余校验对用户数据

进行多维度的保护。数据在 SSD 的 DRAM 中使用了 ECC 和 CRC 校验来防止数据跳变

和篡改;数据在 NAND FLASH 中使用了 LDPC 和 CRC 校验来保护 Page 上的数

据;而在不同的 NAND FLASH 之间则采用了 XOR 冗余进行保护以防止颗粒失效导致

的数据丢失。

华为 OceanStor Dorado V3 全闪存存储系统

品技术白皮书(中国区企业版本)

3 系统架构

图3-13 多维度数据冗余保护

LDPC 即低密度奇偶校验码(Low Density Parity Check Code),是通过校验矩阵定义的一

类线性码,主要用于数据校验和纠错,广泛应用于无线通信、卫星数字传输等领域。在

数据写入 NAND FLASH 的 Page 时,计算出数据的 LDPC 校验信息一起写入到 Page 中;

在从 Page 中读取数据的时候通过 LDPC 进行校验和纠错。

HSSD 盘片还通过闪存颗粒间内置 XOR 异或引擎对用户数据进行冗余保护,当 Flash

颗粒出现物理故障(页失效、块失效、DIE 失效甚至颗粒失效)时,采用校验数据块

对故障块上的用户数据进行恢复,确保用户数据不丢失。

3.2.2.3.1 后台巡检

NAND FLASH 上的数据会由于存放时间过长,读干扰、写干扰、随机失效等原因导致

数据发生错误。HSSD 会周期性的读取 NAND FLASH 上的数据,识别数据跳变情况,

对于出现高比特位跳变的数据及时读取并写入到新的 Page。通过这一后台巡检过程可以

提前识别出现的风险并进行处理,能有效防止这些错误导致的数据丢失,提高数据的安

全性和可靠性。

3.2.2.3.2 支持 SAS 和 NVMe 协议

华为自主研发的 HSSD 支持 SAS 和 NVMe(Non-Volatile Memory Express)接口。

NVMe 协议相对传统的 SAS 协议更为简洁高效:从软件栈来看,去掉了 SCSI 层,协

议交互次数减少;从硬件传输路径来看,无需 SAS 控制器、SAS Expander,直接与

CPU 通过 PCIe 总线连接,实现更低的时延。同时 NVMe 可以支持更大的并发和队列

深度(64K 个队列,每队列深度可达 64K),充分发掘 SSD 的性能。华为自研的

NVMe 接口的 SSD 通过多年在闪存技术方面的积累,能够支持双端口,热插拔能力,

有效的提升了系统的性能、可靠性和可维护性。

华为 OceanStor Dorado V3 全闪存存储系统

品技术白皮书(中国区企业版本)

3 系统架构

图3-14 NVMe 盘片与 SAS 盘片传输路径对比

NVMe SSD 写请求数据间通信次数相比 SAS SSD 从 4 次减少到 2 次。如下图所示:

SAS:在 SCSI(SAS 后端)协议会通过 4 次协议交互的步骤才能完成一次写操作;

NVMe:在 NVMe 协议只需要 2 次协议交互就能完成一次写操作。

图3-15 NVMe 协议与 SAS 协议交互流程对比

3.2.3 自研芯片

华为通过在芯片领域不断的积累和持续投入,自主开发了 SSD 盘片控制器芯片、前端

接口芯片(SmartIO 芯片)、板级管理 BMC 芯片等存储系统的一些关键芯片,并应用在

OceanStor Dorado V3 上。

SSD 控制器芯片:

HSSD 使用华为自研的新一代控制器,该控制器是一款面向企业级应用,提供目前业界

标准 SAS 3.0X2 和 PCIe 3.0X4 接口,该控制器具备高性能、低功耗特点。针对介质磨

损寿命下降的问题,通过增强 ECC、内置 RAID 等技术延长 SSD 寿命,满足企业级可

靠性应用要求;该控制器使用 28nm 工艺并支持最新的 DDR4、SAS 12Gb/s、PCIe

8Gb/s 接口速率以及硬件加速 FTL 等技术,为企业级应用提供稳定、低时延的性能。

华为 OceanStor Dorado V3 全闪存存储系统

品技术白皮书(中国区企业版本)

3 系统架构

SmartIO 芯片:

Hi182x(IOC)芯片是华为公司在存储接口芯片领域的第一颗独立开发的芯片,自研并

集成 100Gb/40Gb/25Gb/10Gb ETH、32Gb/16Gb/8Gb FC 多种协议接口,性能卓越、接

口密度高,协议种类多、端口灵活可变,为存储量身打造,构建独特的不可替代的价值。

BMC 芯片:

Hi1710 是一款针对 X86 CPU 平台的板级管理 BMC 芯片,包括 A9 CPU,协处理

8051、传感器电路、控制电路、接口电路等组件。支持 IPMI(Intelligent Platform

Management Interface)即智能平台管理接口标准,实现了对存储系统硬件部件的监测和

控制,包括:系统上下电控制,控制板监控,接口卡监控,电源/BBU 管理,风扇监控

等主要功能。

3.2.4 硬件扩展能力

OceanStor Dorado V3 架构设计同时支持 Scale-up 和 Scale-out 两种能力,给用户提供灵

活的扩展方式。

图3-16 Dorado V3 支持 Scale-out 和 Scale-up

Scale-up

OceanStor Dorado V3 Scale-up 能力,控制框和硬盘框之间通过冗余 SAS3.0 链路直

连。Dorado6000 V3 硬盘框级联采用双上行组网,Dorado5000 V3 SAS 级联的硬盘

框采用单上行组网方式。

双上行是指硬盘框的两个级联口都作为上行口与控制器连接,每个硬盘框与控制

框通过 4 条 SAS 线缆进行连接。

华为 OceanStor Dorado V3 全闪存存储系统

品技术白皮书(中国区企业版本)

3 系统架构

图3-17 OceanStor Dorado V3 双上行组网

SSD 盘片相比传统磁盘,单盘性能大幅提升。相比传统的磁盘存储系统,全 SSD 存储系

统的性能瓶颈点从盘转移到了 SAS 级联链路及控制器 CPU 处理能力等方面。通过采用

双上行组网,消除链路瓶颈,提升系统后端带宽,降低时延。

单上行组网,是指硬盘框的一个级联口作为上行口与控制器连接,每个硬盘框与控制

框通过 2 条 SAS 线缆进行连接。

NVMe 硬盘框采用 8*8Gb PCIe3.0 级联端口,传输能力相比 SAS 大幅提升,采用 PCIe

单上行组网可以系统要求。

华为 OceanStor Dorado V3 全闪存存储系统

品技术白皮书(中国区企业版本)

3 系统架构

图3-18 OceanStor Dorado V3 NVMe 硬盘框单上行组网

Dorado5000 V3 SAS 是盘控一体架构,控制框中的 25 盘采用双上行方式,外接的硬盘

框采用单上行级联组网实现容量的扩展。

图3-19 OceanStor Dorado V3 单上行组网

华为 OceanStor Dorado V3 全闪存存储系统

品技术白皮书(中国区企业版本)

3 系统架构

Dorado5000 V3 SAS 是盘控一体架构,控制框中的 25 盘采用双上行方式,外接的硬盘

框采用单上行级联组网实现容量的扩展。

在首次部署的时候,推荐使用相同容量的硬盘。在后续扩容时,新扩的硬盘可以是相同

容量的盘,也可以扩展为更大容量的盘。SSD 盘容量会越来越大,通过支持扩展更大

容量的盘,客户后期扩容时可以选择当时最主流的盘片,降低 TCO。

Scale-out

OceanStor Dorado V3 支持 Scale-out 能力,一个控制框内部的 2 个或者 4 个控制

器,采用控制框背板上的镜像通道互联;控制框之间采用 PCIe3.0 交换机进行互

联。每个控制器通过双端口的 PCIe 接口卡,分别接到两台 PCIe 交换机上,形成

冗余链路。任何一个交换机、控制器、接口卡、链路故障,系统都有冗余能力,

保证系统的高可用性。详细的组网如下图所示:

图3-20 OceanStor Dorado V3 Scale-out 数据网络互联组网示意图

Scale-out 互联的管理网络采用菊花链的方式连接。菊花链把控制器和 PCIe 交换机一起

纳入管理,节省管理网络的交换机端口,为客户节省网络资源。

华为 OceanStor Dorado V3 全闪存存储系统

品技术白皮书(中国区企业版本)

3 系统架构

图3-21 Scale-out 管理网络互联组网示意图

3.2.5 硬件架构特征

极致性能:端到端高速架构,PCIe 3.0 总线;SAS 3.0 硬盘接口/PCIe 3.0 * 4 硬盘

接口;32Gb/16Gb/8Gb FC、100Gb/40Gb/25Gb/10Gb ETH 主机接口;高性能自研

硬盘 NVMe SSD 的应用,实现更高的性能,更低的时延;

稳定可靠:采用成熟硬件,全冗余硬件架构经过现网上万套系统验证,稳定可 靠。

稳定可靠的 PCIe 暴力热拔插技术,确保系统支持 NVMe SSD 在线维护和更换;

极致高效:同时支持 Scale-out 和 Scale-up,控制器和硬盘均可在线扩展。模块化

设计,IO 模块采用可热插拔设计,前端、后端接口支持灵活按需配置。

3.3 软件架构

OceanStor DoradoV3 采用华为自研的面向 SSD 设计的 OceanStor OS 存储软件,通过特

有的 FlashLink

®

技术和丰富的特性为用户提供高性能、高可靠、高效率的存储产品。

华为 OceanStor Dorado V3 全闪存存储系统

品技术白皮书(中国区企业版本)

3 系统架构

图3-22 OceanStor Dorado V3 软件架构框图

存储控制器软件架构整体分为管控面(Cluster & Management)和业务面。管控面提供系

统运行的基本环境,多控 Scale-out 的管理控制逻辑,以及告警、性能监控和用户操作管

理。业务面负责存储业务 IO 调度,实现数据 Scale-out 能力以及 FlashLink

®

技术中控制

器软件相关的功能,诸如重删压缩、ROW 满分条写、冷热数据分流、垃圾回收、全局

磨损均衡与反磨损均衡等功能。

华为 OceanStor Dorado V3 全闪存存储系统

品技术白皮书(中国区企业版本)

3 系统架构

图3-23 Dorado V3 + Dorado NAS 系统逻辑框架图

Dorado NAS 模块基于 Dorado V3 提供的 LUN 空间对外提供丰富的 NAS 业务。提供端

到端的高可靠,高性能的文件系统服务;

图3-24 Dorado NAS 数据重删压缩示意图

Dorado NAS 模块的文件系统数据缩减能力构建于 Dorado V3 的强大的数据缩减能力之

上,在 NAS 服务中提供低时延,高重删压缩比的在线数据缩减服务;

3.3.1 FlashLink

FlashLink

®

技术的核心是通过一系列针对闪存介质的优化技术,实现了存储控制器和

SSD 之间的的协同和联动,在保证可靠性的同时,最大限度的发挥闪存的性能。

FlashLink

®

针对闪存介质特点设计的关键技术主要有:冷热数据分流技术、端到端 IO

华为 OceanStor Dorado V3 全闪存存储系统

品技术白皮书(中国区企业版本)

3 系统架构

优先级、ROW 满分条写,全局垃圾回收以及全局磨损均衡/反均衡等有效的解决了闪

存系统中写放大、垃圾回收给系统带来的性能抖动等问题,保障了 OceanStor Dorado

V3 稳定的低时延和高 IOPS。

3.3.1.1 冷热数据分流

在 SSD 的垃圾回收过程中,对于每次擦除的 Block,SSD 硬盘期望该 Block 中所有数据

都是无效数据,这样就可以直接擦除整个 Block,而不用搬移有效数据,可以减少系统

的写放大。

而存储系统中不同数据具备不同的冷热程度。比如:系统的元数据更新频繁,属于热数

据,产生垃圾的概率更高;而用户数据一般修改的频率要低,属于冷数据,产生垃圾的

概率要低。FlashLink

®

技术通过硬盘驱动和控制器软件配合,在控制器软件中将修改频

率不同的数据(元数据、用户数据)带上不同的标示发给 SSD,使得冷热数据存放在不

同的 Block 中,从而增加 Block 中数据同时无效的概率,达到减少 GC 过程中搬移有效

数据的数据量,提升 SSD 的性能及可靠性。

图3-25 冷热数据分流技术示意图

下图中红色代表元数据,灰色代表用户数据。使用冷热数据分流技术前,用户数据和

元数据混合分布在 SSD 盘片的相同 Block 上。由于元数据变化快,很快成为垃圾数

据,盘片进行 Block 擦除的时候,就需要把有效的用户数据搬移到新的 Block 上。使用

冷热数据分流技术后,元数据和数据分布到不同的 Block 上。对元数据所在的 Block,

该 Block 上的数据很快都会成为垃圾,Block 擦除需要搬移的有效数据就很少。

图3-26 冷热数据分流技术效果示意图

3.3.1.2 端到端 IO 优先级

OceanStor Dorado V3 为保证稳定时延,控制器对各类 IO 进行了优先级标识。根据这些

标识,系统在 CPU 调度、资源调度、排队等方面进行控制,实现端到端的优先级保障。

如 SSD 在接收 IO 时,会检查 IO 的优先级标识,并优先处理高优先级 IO,实现SSD 盘

对高优先级 IO 的快速响应。

华为 OceanStor Dorado V3 全闪存存储系统

品技术白皮书(中国区企业版本)

3 系统架构

OceanStor Dorado V3 系统把 IO 分为 5 类:数据读写 IO,高级特性 IO,重构 IO,

Cache 刷盘写 IO,垃圾回收 IO,并为这 5 类 IO 分别赋予从高到低的优先级(如下图

所示)。通过对这些 IO 的优先级控制,从整体上获得最均衡的内外部 IO 响应能力。

图3-27 端到端 IO 优先级

图中左侧为没有优先级控制的情况,各种类型的 IO 会争抢资源。图中右侧是加入 IO

优先级控制后,系统内部的资源按照 IO 类型的优先级进行分配。

3.3.1.3 ROW 满分条写

OceanStor Dorado V3 采用的是 ROW 满分条写入的设计。ROW 满分条写对所有数据都

采用新写模式,这样不需要因为传统 RAID 写流程所需的数据读和校验修改写而产生

RAID 写惩罚,有效降低了写入过程阵列控制器的 CPU 开销与对 SSD 盘的读写压力。

相比传统的 RAID 覆盖写(Write In Place)的方式,ROW 满分条写方式使得各种

RAID 级别都能实现高性能。

图3-28 Dorado V3 ROW 满分条写入

上图以 RAID6(4+2)为例,对已有数据进行改写,改写写入的数据为 1、2、3、4。

采用传统的覆盖写方式,对每个数据所在的 CKG 均需要进行修改写。以 CKG2 为例,

写入新数据 3 时,需要读取校验列 P、Q 和原始数据 d,通过冗余算法计算出新的校验

华为 OceanStor Dorado V3 全闪存存储系统

品技术白皮书(中国区企业版本)

3 系统架构

位 P’、Q’,再把 P’、Q’和数据 3 写入 CKG2 中。而采用 ROW 满分条写设计,写入

数据 1、2、3、4 时,直接使用数据 1、2、3、4 计算出 P、Q 作为一个新的 RAID 分条

写入硬盘,再修改 LBA 的指针指向新的 CKG,整个过程无需额外的预读。

Dorado V3 在典型场景下 RAID5 采用 22D+1P(D 为数据列,P 为校验列),RAID 6 采

用 21D+2P(P、Q 校验列),RAID-TP 为 20D+3P(P、Q、R 校验列),下图展示了

Dorado V3 在典型场景下的写放大比较。

表3-5 ROW 满分条写放大率

随机小 IO 写产生

的写放大

RAID 5(22D+1P)

RAID 6(21D+2P)

RAID-TP (20D+3P)

1.05(23/22)

1.10(23/21)

1.15(23/20)

随机小 IO 写产生

的读放大

0

0

0

顺序写 IO 写放

1.05

1.10

1.15

OceanStor Dorado V3 实现的 RAID5 与 RAID6 性能相差 5%左右,RAID6 与 RAID-TP

性能相差 5%左右,基本做到了性能无损。

3.3.1.4 全局垃圾回收

Dorado V3 对所有新写入数据均采用 ROW 满分条写的方式,各个 CKG 会因为修改后

数据被重定向到新的 CKG 而产生垃圾数据(如图中 3-27 所示),系统需要进行垃圾回

收操作以回收被占用的空间。OceanStor Dorado V3 采用全局垃圾回收方式,当系统内

垃圾量达到一定水位时会启动垃圾回收机制。垃圾回收会判断每个 CKG 中垃圾量占比,

将垃圾量较多的 CKG(垃圾回收的目标 CKG)中的有效数据搬移到新分配的CKG 上;

有效数据全部搬走后,释放目标 CKG 中所有 CK 并进行回收空间至存储

池。同时通过 unmap 或者 deallocate 命令告知 SSD,SSD 将对应的 LBA 区域的数据标

记为无效数据,SSD 启动盘内垃圾回收时就可以回收这部分空间。这一存储空间的回收

过程,发生在存储控制器上,作用于全部 SSD 盘片,因此称为全局垃圾回收。

图3-29 全局垃圾回收示意图

3.3.1.5 全局磨损均衡/反磨损均衡

SSD 相比于 HDD 有个最大的不同在于每个 SSD 均有一定的写入数据量约束,其寿命与

其写入的数据量呈反比。因此全闪存系统需要保持多块硬盘之间的数据负载均衡, 防止

个别盘因频繁写入而提前报废。FlashLink

®

技术利用控制器软件与硬盘驱动配合,

华为 OceanStor Dorado V3 全闪存存储系统

品技术白皮书(中国区企业版本)

3 系统架构

定期向 SSD 控制器查询盘片磨损程度,并将磨损程度高低作为分配空间的判断依据之

一,从而实现了全局的磨损均衡。

图3-30 全局磨损均衡

但是当 SSD 盘片进入寿命末期时,如盘片磨损度已达到 80%以上,如果继续均衡磨损

那么可能会导致多块硬盘同时故障导致数据丢失。为防止 SSD 出现批量故障,系统会

进入全局反磨损均衡状态,选择一块磨损度最高的 SSD 作为反磨损对象,只要该 SSD

有空闲空间,立即将其分配出来用于新数据写入,确保该 SSD 比其它盘片更快达到寿

命上限,引导用户提前进行更换,从而避免了大批 SSD 同时故障造成业务中断。

图3-31 全局反磨损均衡

华为 OceanStor Dorado V3 全闪存存储系统

品技术白皮书(中国区企业版本)

3 系统架构

3.3.2 读缓存

OceanStor Dorado V3R2 版本新增读缓存加速系统读访问。通过分配内存中一部分资源

对热点数据缓存在内存中,再次读取同一数据时就不必从 SSD 盘片上读取,从而实现

对主机 IO 的读加速。读缓存结合读预取、缓存淘汰等算法,大大提升系统的性能。

由于 SSD 盘片上的读取时延与内存的时延相比并没有数量级的差异。因此,在一般场

景中,Dorado 全闪存系统并不需要打开读缓存。而针对有明显 IO 特征(比如一定的顺

序 IO 流)的场景,读缓存的性能提升比较明显。因此。用户可以根据自己的业务类型

自行配置读缓存的打开关闭策略。数据库场景如 Oracle,SQL Server 的 OLTP 等业务下,

打开读缓存会有比较明显的效果。系统默认配置策略为 Dorado 6000 V3 单控内存达

1TB 的全闪存阵列为默认打开,其他设备形态为默认关闭。在没有写业务时,系统所有

缓存都可以用作读缓存,系统对读缓存有最小容量预留,以保证在写业务压力很大时,

仍能保证读业务有一定的缓存资源可以使用。

读预取算法

OceanStor Dorado V3 系列存储实现了自适应的顺序流识别算法,即在大量乱序和随

机的 IO 中识别出顺序 IO 流,对顺序的读写 IO 流采用预取算法,能优化多种应用

场景的系统性能。同时,OceanStor Dorado V3 系列存储的预取算法实现了智能预取、

固定预取、倍数预取等算法。智能预取能自动识别 IO 特征,根据 IO 特征决定是否

预取、预取多大长度,同时采集预取算法的执行效果如读缓存命中率以及预取数据

浪费率等参数,作为系统算法的反馈,来适时的调整预取阈值以及预取长度,来确

保产品性能满足不同应用场景。系统默认采用不预取,在某些 I/O 模型非常明确的

应用场景,用户可以自行配置为智能预取算法。用户也可以根据自身需求,将预取

算法配置为固定预取或倍数预取算法。

缓存淘汰算法

当系统缓存占用率达到阈值时,淘汰算法可根据历史访问频率和当前的访问频率,计

算数据的热度,通过 LRU 算法选择合适的数据进行淘汰。

3.3.3 IO 流程

3.3.3.1 写流程

OceanStor Dorado V3 的写流程如下图:

华为 OceanStor Dorado V3 全闪存存储系统

品技术白皮书(中国区企业版本)

3 系统架构

图3-32 写 IO 流程

1. 控制器收到写 IO。

2. 写 IO 经过协议层进入存储系统后,判断 IO 是否归属该控制器,如果不是则转发

到对应控制器处理。

3. IO 归属本控制器,IO 数据写入本地 Cache(缓存模块),并镜像到对端 Cache。

4. IO 成功返回主机。

5. Cache 将数据刷入 Pool 子系统进行重删,压缩(如果不开启重删压缩则直接到步

骤 6)。

a.

c.

Pool 将传入的数据分割为固定长度(4KB/8KB/16KB/32KB)的数据块;

对应控制器的 Pool 对发到本控制器的数据块查询指纹表;

b. Pool 计算每个数据块的指纹值,根据指纹值将数据块转发到对应的控制器;

d. 如果指纹表中存在相同的指纹,获取指纹关联的数据存储地址,读取该数据与

新写入数据块做逐字节对比,如果相同,递增指纹引用计数,新写数据块无需

写入 SSD;如果不同,则说明该数据存在 hash 冲突,系统不会新写入数据进

行重删,直接将数据压缩以后写盘。

e.

f.

如果指纹表中不存在相同的指纹,说明新写入数据是非重复数据,此时需要

新增一条指纹映射表,并把该数据压缩后写盘。

压缩算法是 LZ-4 或 ZSTD,粒度 4KB/8KB/16KB/32KB,压缩后数据按字节

对齐。

对压缩后的 IO,合并为 8K 整数倍的写条带;

6. Pool 合并为满条带数据写入后端各 SSD。

a.

b. 如果合并为满写条带,则计算校验,将数据和校验一起下盘;

华为 OceanStor Dorado V3 全闪存存储系统

品技术白皮书(中国区企业版本)

3 系统架构

c. 如果合并为不满写条带,则在尾部补零后写入硬盘(补零数据会在随后的垃

圾回收中清除);

当 IO 写盘返回之后, Cache 删除对应数据页面。

d. 每次写入都写到一个新的地址,并更新元数据映射关系;

e.

图3-33 跨控制框硬盘域数据流向图

3.3.3.2 读流程

在硬盘域跨控制框的场景下,主机写数据会均衡的分布到硬盘域内的所有硬盘上。如图

中橙色线条所示,存储系统收到主机写请求,在系统内对接收到的数据进行 hash 计算,

根据 hash 的结果把数据均衡的分发到硬盘域内所有的硬盘上。

OceanStor Dorado V3 的读流程如下图:

华为 OceanStor Dorado V3 全闪存存储系统

品技术白皮书(中国区企业版本)

3 系统架构

图3-34 读 IO 流程

1. 控制器接收读 IO 请求。

2. 读请求发送到系统 Space 模块(空间管理模块),Space 模块判断 IO 是否归属该控

制器。

3. 如果是在归属控制器上,则转步骤 4;如果不是则转发到对应控制器处理。

4. 归属控制器在缓存中查找对应读请求;如果数据在缓存中命中, 获取数据直接返

回主机。

5. 如果缓存中不存在所请求数据,交由 Pool 模块进一步处理

6. Pool 从硬盘上读取数据返回给主机。如开启重删压缩,则按如下步骤从硬盘上读

取数据:

7. 对读 IO 请求查找 LBA 到指纹的映射表,取得对应的指纹;

a. 根据指纹路由规则,将读请求转发到指纹对应的处理控制器;

b. 在指纹对应的控制器中查找指纹到存储地址映射表,根据存储地址读取数

据。将数据解压后返回给主机。

3.3.4 丰富软件特性

OceanStor Dorado V3 提供了用于系统效率提升的 Smart 软件系列和用于数据保护的

Hyper 系列软件:

效率提升系列(Smart 系列):在线重删(SmartDedupe)、在线压缩

(SmartCompression)、智能精简配置(SmartThin)、异构虚拟化

(SmartVirtualization)、智能数据迁移(SmartMigration),主要为用户提供存储效

率提升方面的功能,降低用户的 TCO。

华为 OceanStor Dorado V3 全闪存存储系统

品技术白皮书(中国区企业版本)

3 系统架构

数据保护系列(Hyper 系列):快照(HyperSnap)、克隆(HyperClone)、远程复制

(HyperReplication)、双活(HyperMetro)、一体化备份(HyperVault)、WORM

(HyperLock),主要为用户提供数据容灾备份相关的功能。

云灾备系列(Cloud 系列):云复制(CloudReplication)、云备份(CloudBackup),

主要为用户快速构建低成本,免运维的容灾中心,降低用户的 OPEX。

3.3.5 软件架构特征

极致性能:基于 FlashLink

®

技术实现高效的 IO 调度,满足业务系统稳定低时延情

况下的高性能。

稳定可靠:创新的 RAID 算法、丰富的软件特性、解决方案多级可靠性能力,为

用户提供高达 6 个 9 的可靠性,确保业务系统 7x24 小时稳定运行。

极致高效:多种效率提升特性,诸如在线重删压缩、异构虚拟化等,充分保护用

户的投资。

华为 OceanStor Dorado V3 全闪存存储系统

品技术白皮书(中国区企业版本)

4 精简高效 Smart 系列特性

4

4.1 在线重删(SmartDedupe)

精简高效 Smart 系列特性

4.2 在线压缩(SmartCompression)

4.3 智能精简配置(SmartThin)

4.4 智能服务质量控制(SmartQoS)

4.5 异构虚拟化(SmartVirtualization)

4.6 智能数据迁移(SmartMigration)

4.7 多租户(SmartMulti-Tenant for File)

4.8 智能配额(SmartQuota for File)

4.1 在线重删(SmartDedupe)

OceanStor Dorado V3 在线重复数据删除是指在将数据写入闪存介质之前进行重复数据

删除。在线重删的过程如下所述:

存储系统会对新写入的数据按照重删粒度进行分块,并对分块计算指纹,与系统中已存

在的指纹进行对比(进行查重)。如果找到相同指纹,再读取指纹对应的数据块与新写

入数据块进行逐字节对比,如果对比通过,则仅增加指纹索引,不再重复写入数据块。

如果未找到相同的指纹或逐字节对比不通过,则写入新数据块,并记录指纹与新数据块

地址的映射关系。

华为 OceanStor Dorado V3 全闪存存储系统

品技术白皮书(中国区企业版本)

4 精简高效 Smart 系列特性

图4-1 重删原理示意图

OceanStor Dorado V3 支持按 LUN 配置重删功能,重删粒度 4KB、8KB 可调。

重删率同用户数据内容强相关,不同应用场景,重删效果也不一样。OceanStor

Dorado V3 提供了基于 LUN 的重删配置(重删功能开关、重删粒度),针对不同的

业务类型,可以选择不同的重删配置。比如高重删率的 VDI 场景,推荐开启重删并

配置 8KB 重删粒度,以达到更好的空间节省效果。在数据重删率很低的场景, 比

如数据库,也可通过关闭重删(但是可以通过压缩来获得数据缩减)来获得更好的

性能。

OceanStor Dorado V3 支持对重删数据逐字节比较,解决指纹 Hash 碰撞问题,保证

客户数据可靠。

OceanStor Dorado V3 支持零页面识别,全零数据页面不占用存储空间,提升空间

利用率。

其实现原理是在读取数据时,如果没有 LBA 到指纹的映射关系,那么数据返回零;写

数据中存在零数据块时,则采用内部零页面替换,不需要做空间分配和存储,节省存储

空间和提升性能。

4.2 在线压缩(SmartCompression)

OceanStor Dorado V3 在线数据压缩是指在数据写入闪存介质之前进行压缩。采用先重

删后压缩方式确保仅针对唯一的数据块执行压缩。经过压缩的数据块随后会存储在阵列

中。压缩减少了需要写入 SSD 的物理数据总量,可进一步减小 SSD 的写放大

(Write Amplification),从而提高闪存阵列的耐用性。

压缩算法是计算密集型程序,在线数据压缩会消耗大量的 CPU 资源,从而影响系统端

到端的性能。业界友商普遍采用高性能、低压缩率的开源压缩算法,例如:LZ4, LZO,

Snappy 等。Dorado V3 采用改进型的快速 LZX、LZ4、ZTSD 算法,基于开源 LZX、

LZ4、ZTSD 压缩算法,结合现有系统特征,压缩效率提升 1 倍的同时,不损失压缩

率。

华为 OceanStor Dorado V3 全闪存存储系统

品技术白皮书(中国区企业版本)

4 精简高效 Smart 系列特性

图4-2 不同压缩算法压缩效率对比图

压缩的数据块支持 4KB/8KB/16KB/32KB 混合粒度,压缩后的数据的存放单元按照字

节对齐,能够有效提升压缩效率的同时,又能节省压缩后数据存储的空间,如下图所

示,8K 数据块压缩后聚合为满条带写盘:

图4-3 压缩原理示意图

OceanStor Dorado V3 的压缩率同用户数据内容相关,比如 Oracle 的 OLTP 场景就能够

到达 1.5 到 7.9 倍的压缩率,VDI 场景可以做到 2.8 到 4 倍的压缩率,考虑到不同客户

应用场景诉求,压缩功能提供了基于 LUN 的开关,在需要更高性能的场景中,可关闭

压缩。

华为 OceanStor Dorado V3 全闪存存储系统

品技术白皮书(中国区企业版本)

4 精简高效 Smart 系列特性

4.3 智能精简配置(SmartThin)

智能精简配置以一种按需分配的方式来管理存储设备。智能精简配置不会预先分配所

有的空间,而是将大于物理存储空间的容量形态呈现给用户,使用户看到的存储空间

远远大于系统实际分配的空间。用户对这部分空间的使用实行按需分配的原则。如果

用户的存储空间不足,可通过扩充后端存储资源池的方式来进行系统扩容,整个扩容

过程无需业务系统停机,对用户完全透明。

应用场景:

对业务连续性要求较高的系统核心业务,使用智能精简配置,可以在线对系统进

行扩容,不会中断业务。例如:银行票据交易系统。

应用系统数据增长速度无法准确评估的业务,使用智能精简配置,可以按需分配

物理存储空间,避免浪费,例如:E-mail 邮箱服务、网盘服务等。

多种业务系统混杂并且对存储需求不一的业务,使用智能精简配置,可以让不同

业务去竞争物理存储空间,实现物理存储空间的优化配置,例如:运营商服务 等。

4.4 智能服务质量控制(SmartQoS)

SmartQoS 特性又叫智能服务质量控制特性,可以通过动态地分配存储系统的资源来满

足某些应用程序的特定性能目标。SmartQoS 特性允许用户根据应用程序数据的一系列

特征(IOPS、占用带宽)对特定应用程序设置特定的上限目标。存储系统根据设定的上

限目标,准确限制应用程序的性能,避免非关键应用程序抢占过多存储系统资源, 影

响关键应用程序的性能。

SmartQoS 采用基于 LUN 或快照的 I/O 优先级调度技术和 I/O 流量控制技术两种方式来

保证数据业务的服务质量:

I/O 优先级调度技术:通过为业务设置优先级来区分不同业务的重要性。在存储系

统为不同业务分配存储系统资源时,优先保证高优先级业务的资源分配请求。在存

储系统资源紧张的情况下,为高优先级的业务分配较多的资源,以此尽可能保证高

优先级业务的服务质量。当前用户可以配置的优先级分为高、中、低三个等级;

华为 OceanStor Dorado V3 全闪存存储系统

品技术白皮书(中国区企业版本)

4 精简高效 Smart 系列特性

图4-4 基于 I/O 优先级调度技术

I/O 流量控制技术:基于策略分层管理、策略分配及流控管理三部分实现,针对用

户设置的性能控制目标(IOPS、带宽)进行流量限制,通过 I/O 流控机制,限制某

些业务由于流量过大而影响其它业务;

华为 OceanStor Dorado V3 全闪存存储系统

品技术白皮书(中国区企业版本)

4 精简高效 Smart 系列特性

图4-5 基于 LUN 或快照的 I/O 流量控制队列管理

4.5 异构虚拟化(SmartVirtualization)

OceanStor Dorado V3 提供异构虚拟化特性 SmartVirtualization 来接管异构存储系统(包

括其他华为存储系统和第三方厂商的存储系统),保护现有投资。使用

SmartVirtualization 后,本端存储系统能够将异构存储系统提供的存储资源当作本地存

储资源进行使用并对其进行集中管理,无需关注存储系统间软件架构和硬件架构的差异。

同时,结合 SmartMigration 特性还可以实现对异构存储系统中的数据进行在线迁移,

帮助客户完成新老设备的更新换代和数据搬迁。

异构虚拟化的工作原理:通过把异构阵列映射到本端阵列,把异构阵列的存储空间通过

eDevLUN(External Device LUN)的方式管理和利用起来。eDevLUN 包括元数据卷

(Meta Volume)和数据卷(Data Volume)。元数据卷用于对 eDevLUN 的数据存储位置

进行管理,其所需要的物理空间由本端存储系统提供。数据卷是对外部 LUN 数据的逻

辑抽象,其所需的物理空间由异构存储系统提供,不占用本端存储系统空间。本端存储

系统上创建的 eDevLUN 与异构存储系统上的外部 LUN 是一一对应的关系。应用服务

器可以通过对 eDevLUN 的读写操作实现对外部 LUN 的数据访问。

华为 OceanStor Dorado V3 全闪存存储系统

品技术白皮书(中国区企业版本)

4 精简高效 Smart 系列特性

图4-6 异构虚拟化技术示意图

SmartVirtualization 通过 LUN 伪装技术,将 Dorado V3 的 eDevLUN 的 WWN 和 Host

LUN ID 设置成与异构存储系统上的 LUN 的信息一致,在数据迁移完成后,通过主机

多路径软件实现在线 LUN 的无缝切换,从而在主机不中断业务的情况下完成数据迁移。

异构虚拟化化可以满足以下场景的需求:

异构阵列接管

用户的数据中心通过长期的建设,数据中心可能存在来自不同异构厂商的存储阵

列。存储管理员可通过异构虚拟化接管功能,对现有设备进行管理、配置,达到

保护原有投资的目的。

异构数据迁移

对于数据中心中有些设备过保或者性能容量等不能再满足业务需求时,客户需要对

存储更新换代。采用 Dorado V3 SmartVirtulization 技术和 SmartMigration 技术,

可以实现将客户原有数据在线迁移到 Dorado V3 上,从而在不中断主机业务的前

提先实现数据的平滑迁移,助力数据中心向闪存时代轻松演进。

更多信息可参考《OceanStor Dorado V3 系列 V300R002 SmartVirtualization 特性指

南》

4.6 智能数据迁移(SmartMigration)

OceanStor Dorado V3 系列存储系统通过 LUN 迁移(SmartMigration)提供了智能化的

数据迁移手段。可以在不中断原有业务的情况下实现将源 LUN 上的数据完整地迁移到

目标 LUN 上。LUN 迁移不仅支持存储系统内部的数据迁移,还支持华为存储系统和与

其兼容的异构存储系统之间的数据迁移。

SmartMigration 特性通过把源 LUN 的数据完整的复制到目标 LUN,在复制过程中采用

源 LUN 和目标 LUN 双写、差异日志记录等技术,复制完成后采用 LUN 信息交换由目

标 LUN 接管源 LUN 业务,实现数据的在线迁移。。

华为 OceanStor Dorado V3 全闪存存储系统

品技术白皮书(中国区企业版本)

4 精简高效 Smart 系列特性

SmartMigration 的实现过程分为两个阶段:

1. 数据同步

a.

c.

迁移前,客户需要配置迁移的源 LUN 和目标 LUN。

主机此时可以继续访问源 LUN。主机写入源 LUN 数据时,系统首先在 DCL

(Data Change Log)中记录差异日志。

如果双写成功,系统清除 DCL 上此次写入 LBA 的记录。

如果目标 LUN 写失败,存储侧将 DCL 上记录的未同步成功的数据拷贝

至目标 LUN,拷贝结束后返回主机写 I/O 完成;

如果源 LUN 写失败,返回主机写 I/O 失败,主机重新下发数据至源

LUN,但不写入目标 LUN。

b. 迁移开始时,数据由源 LUN 复制到目标 LUN。

d. 写入的数据同时向源 LUN 和目标 LUN 双写。

e. 在数据完全复制到目标 LUN 之前,保持上述双写和记录 DCL 机制,直到数

据复制完成。

2. LUN 信息交换

数据复制完成后,主机 IO 将暂时悬挂,源 LUN 和目标 LUN 进行信息交换,具体

原理如下图所示:

a. LUN 信息交换前,主机通过源 LUN ID 识别到源 LUN。由于源 LUN ID 和用

以识别物理空间的源数据卷 ID 间存在映射关系,主机读取到源 LUN 的物理

空间信息。目标 LUN ID 和目标数据卷 ID 此时也存在映射关系。

b. LUN 信息交换中,LUN ID 均保持不变,交换源 LUN 和目标 LUN 的数据卷

ID,使得源 LUN ID 和目标数据卷 ID 形成新的映射关系。

c. LUN 信息交换后,主机仍然通过源 LUN ID 识别到源 LUN,但由于源 LUN

ID 和目标数据卷 ID 形成了新的映射关系,实际读取的物理空间信息由源

LUN 变为目标 LUN。

由于 LUN 信息交换是瞬时完成的,因此主机无需中断业务,实现了用户无感知情

况下的业务迁移。

华为 OceanStor Dorado V3 全闪存存储系统

品技术白皮书(中国区企业版本)

4 精简高效 Smart 系列特性

图4-7 LUN 信息交换示意图

SmartMigration 可以满足以下场景的需求:

结合 SmartVirtualization 特性实现存储系统升级换代

结合异构虚拟化技术,现有老旧设备上数据迁移到华为新阵列上,提升业务的性

能和数据的可靠性;老旧设备可以是华为设备,也可以是其他存储厂商的设备。

由于容量、性能、可靠性调整等原因所需要的数据迁移。比如,把一个 LUN 从一

个存储池迁移到另一个存储池。

更多配置规划信息请参考《OceanStor Dorado V3 系列 V300R002 SmartMigration 特性

指南》。

4.7 多租户(SmartMulti-Tenant for File)

OceanStor Dorado V3 系列的多租户特性又称 SmartMulti-Tenant,实现了在一套物理存

储系统中创建多个虚拟存储系统,让租户在多协议架构中既能共享相同的存储硬件资源,

又不影响相互的数据安全性和隐私。

多租户特性主要解决租户之间的隔离问题,包括管理隔离、业务隔离、网络隔离。租

户之间不能相互访问数据,以此来达到安全隔离的效果。多租户特性逻辑架构如下 图。

华为 OceanStor Dorado V3 全闪存存储系统

品技术白皮书(中国区企业版本)

4 精简高效 Smart 系列特性

图4-8 多租户逻辑架构

管理隔离:每个租户都有自己的租户管理员。租户管理员只能通过 GUI 或

RESTful API 来配置和管理自己的存储资源。

租户管理用户支持基于角色的权限控制,创建租户管理用户时,必须选择需要的

权限的对应的角色。

业务隔离:每个租户都有自己的文件系统,用户/用户组和共享/导出。用户只能通

过租户 LIF 访问租户本身文件系统。

多租户的业务隔离,主要体现为用户的业务数据(主要是文件系统以及配额和快

照等)、业务访问和业务配置(NAS 协议配置)隔离。

业务数据隔离

系统管理员分配不同的文件系统给不同的租户,以此达到租户文件系统的隔

离. 同理基于文件系统的配额、快照也是隔离的。

业务访问隔离

每个租户都具有独立的 NAS 协议实例,包括 SMB 服务、NFS 服务、NDMP

服务。

业务配置隔离

每个租户可以有自己独立的用户、用户组、用户映射规则、安全策略、SMB

共享、NFS 共享、AD 域、DNS 服务、LDAP 服务以及 NIS 服务。

华为 OceanStor Dorado V3 全闪存存储系统

品技术白皮书(中国区企业版本)

4 精简高效 Smart 系列特性

网络隔离:租户的网络由 VLAN 和 LIF 隔离,以防止非法主机访问租户的存储资

源。

租户使用逻辑端口 LIF 配置业务,一个 LIF 只能归属一个租户,做到逻辑上的端

口隔离。可以选择从 GE/10GE、绑定口、VLAN 口创建 LIF。

4.8 智能配额(SmartQuota for File)

在 NAS 文件服务环境中,通常以共享目录的方式将资源提供给使用的部门、组织或个

人。而每个部门或个人,都有其独特的资源需求或限制。因此,系统需要基于共享目录,

因地制宜地对各个使用者,进行资源分配和限制。

OceanStor Dorado V3 的文件系统配额特性称为 SmartQuota,正是用于满足此需求的技

术,该技术可以针对目录、用户、用户组这三类资源的使用者分别进行资源控制。

SmartQuota 可配置的配额选项有容量软配额、容量硬配额、文件软配额、文件硬配额。

容量软配额(space soft quota):配额对象上用于空间容量告警的配置值。当配额

对象已用空间超过所设置的容量软配额时,向系统告警提示空间资源紧张,提醒

用户删除不用的文件或扩大配额。此时用户仍然可以继续写入数据。

容量硬配额(space hard quota):配额对象上用于限制最大可用容量的配置值。当配

额对象已用空间到达所设置的硬配额时,如果用户继续写入新数据, 向用户返回空

间不足的错误。

文件软配额(file soft quota):配额对象上用于文件数告警的配置值。当配额对象

已用文件数超过所设置的文件软配额时,向系统告警提示文件资源紧张,提醒用

户删除不用的文件或扩大配额。

文件硬配额(file hard quota):配额对象上用于限制最大可用文件数的配置值。与

容量硬配额一样,当配额对象的已用文件数到达所设置的硬配额时,向用户返回空

间不足的错误,保证使用文件数不得超出该值。

SmartQuota 使用硬配额(包括容量硬配额和文件数硬配额)来限制每个使用者最多可

以使用的资源。关键流程如下:

1. 在每次写 I/O 操作时,将配额的已用容量和文件数,累加本次操作增加的容量和

文件数,检查其和值是否超出硬配额。

若和值未超出硬配额,则允许操作向下执行;

否则,写 I/O 操作失败。

2. 在检查到写 I/O 操作被允许之后,需将增量的容量和文件数,累加到之前的容量

和文件数上。

3. 然后,将配额更新(即容量和文件数的最新和值)和 I/O 数据一起写入文件系

统。

整个 I/O 操作及配额更新,要么全部成功,要么完全失败。这样保证了已用容量在每

次写 I/O 检查时,都是准确无误的。

若用户所操作的共享目录上,同时配置了目录配额、用户配额和组配额,那么每个写 I/O 会同时受

三种配额的限制。检查硬配额时,每一种配额都需要进行检查,只要有一种配额的硬配额检查不通

过,该 I/O 就会被拒绝。

华为 OceanStor Dorado V3 全闪存存储系统

品技术白皮书(中国区企业版本)

4 精简高效 Smart 系列特性

在消除告警时,SmartQuota 的处理策略是:用户的已用资源低于软配额的百分之九十,

此时才发起消除先前的告警,而不是低于软配额立即消除告警。使用这样的处理策略,

是为了避免已用资源在软配额附近来回摇摆,从而导致频繁的告警和消除告 警。

华为 OceanStor Dorado V3 全闪存存储系统

品技术白皮书(中国区企业版本)

5 数据保护 Hyper 特性

5

5.1 快照(HyperSnap)

5.2 HyperCDP

5.3 HyperCopy

5.4 克隆(HyperClone)

5.5 远程复制(HyperReplication)

5.6 阵列双活(HyperMetro)

5.7 两地三中心(3DC)

5.8 一体化备份(HyperVault for File)

5.9 WORM(HyperLock for File)

数据保护 Hyper 特性

5.1 快照(HyperSnap)

5.1.1 LUN 快照(HyperSnap For Block)

快照的主流实现机制包括 COW(Copy-On-Write)即写时拷贝技术和 ROW 即写时重定

向技术。COW 机制需要预留快照的写入空间,在打了快照的数据被第一次修改时,需要

把原有数据拷贝到快照预留空间,数据拷贝过程会影响主机写性能。Dorado V3 实现了

基于 ROW 的无损快照,对打了快照的数据进行修改时将被重定向写到新位置,系统不

需要拷贝原数据,不会增加系统读写开销,解决了 COW 快照机制带来的性能抖动问题。

48

华为 OceanStor Dorado V3 全闪存存储系统

品技术白皮书(中国区企业版本)

5 数据保护 Hyper 特性

图5-1 快照 ROW 技术基本原理图

在上图中,假设 origin volume(源卷)和 snapshot 都使用映射表访问物理空间,origin

volume 的初始数据为“ABCDE”,且“ABCDE”在物理空间上也是顺序存放的。

snapshot 的映射元数据一开始是空的,所有对 snapshot 的读访问都会重定向到 origin

volume。

当 origin volume 接收到一个把“C”修改为“F”的写操作时,并不会覆盖写入物

理空间 P2,而是直接写入一个新分配的物理空间 P5,即图中的❶步骤。

接着,将 origin volume 映射元数据中的“L2->P2”修改为“L2->P5”。

如果快照需要改写数据,比如将 L0 的数据 A 修改成 G,如步骤 2,首先会将新写

的数据 L0 写入 P6,然后修改快照的映射表 L0->P0 修改成 L0->P6;此时 origin

volume 的数据变为“ABFDE”,而 snapshot 的数据就变成了“GBCDE”;

HyperSnap 默认实现了可写快照。每个快照都是可读写的,可以支持快照副本和级联快

照。快照副本是指对某个快照创建一个快照的副本,通过设置快照只读的方式来实现 数

据在某一时刻的只读备份。而级联快照是指对快照再打快照,级联快照可以跨级回 滚。

跨级回滚是指相同源卷的快照之间包括源卷,可以进行回滚没有层级约束。如下 图所示,

Snapshot1 为源卷在 9 点时刻的快照,ot0 为 Snapshot1 在 10:00 创建的

快照。系统支持将源卷直接回滚至 ot0,也支持源卷回滚至

Snapshot1。同时,还支持 Snapshot1 回滚至 ot0。

华为 OceanStor Dorado V3 全闪存存储系统

品技术白皮书(中国区企业版本)

5 数据保护 Hyper 特性

图5-2 级联快照和跨级回滚原理图

HyperSnap 支持定时快照功能。系统支持支持两种定时策略:按照固定时间间隔和每周、

每天、固定时刻打快照,定时快照的最小间隔周期 30s。系统支持多个定时计划, 每个

定时计划中支持配置多个源 LUN,同一个定时计划中的源 LUN 定时创建一致性快照组。

具体的定时策略配置方式如下:

图5-3 定时策略配置界面

HyperSnap 支持快照一致性组功能。对有数据依赖关系的多个 LUN,通过创建一致性快

照组的方式对快照中的多个 LUN 同时打快照能保证多个 LUN 之间数据的一致性。比如

Oracle 数据库应用中,数据文件、配置文件、日志文件通常会分布在不同的 LUN 中,在

进行快照时,必然要对这些文件所在的 LUN 在同一时间打快照,才能实现在数据恢复

时应用数据的一致性。

华为 OceanStor Dorado V3 全闪存存储系统

品技术白皮书(中国区企业版本)

5 数据保护 Hyper 特性

图5-4 快照一致性组原理

5.1.2 FS 快照(HyperSnap For File)

Dorado NAS 提供的文件系统快照,支持生成源文件系统在某个时间点上的一致性映像,

在不中断正常业务的前提下,快速得到一份与源文件系统一致的数据副本。副本生成

之后立即可用,并且对副本数据的读写操作不再影响源文件系统中的数据。因此通过

文件系统快照技术就可以解决如在线备份、数据分析、应用测试等难题。用户可以通

过多种方法使用文件系统快照。例如,它们可用于:

创建文件系统快照并将快照数据备份到其他环境。

创建文件系统快照之后,在意外删除或破坏情况下,最终用户可以从快照恢复自

己的文件。

远程复制、一体化备份等特性需要使用到文件系统快照,能将快照数据复制或备

份到远端。

Dorado NAS 的文件系统快照是基于本产品的 ROW 型(Redirect On Write,写时重定向)

文件系统来实现的。所谓 ROW 型文件系统,是指向文件系统新写入或者修改写入数据

时,新数据不会覆盖掉原来的旧数据,而是在存储介质上新分配空间来写入数据,此种

方式保证了数据的高可靠性和文件系统的高扩展性。基于 ROW 技术的文件系统快照,

可实现快速创建(秒级),并且除非原始文件被删除或者更改,快照数据并不占用额外

的磁盘空间。

FS 快照(HyperSnap For File)有如下技术特点:

零备份窗口

备份窗口是指应用所能容忍的完成数据备份的作业时间,实际上就是应用所能容

许的停机时间。而传统的备份会导致文件系统的性能下降,甚至导致用户业务中

断,所以传统的备份作业必须在应用停机或业务量较小的时候进行。而采用文件

系统快照从事备份业务时,可以在线进行,备份窗口基本为零,无需业务停机。

秒级快照

文件系统快照创建就是树根的拷贝,创建时间短,实现秒级快照。

低性能损耗

Dorado NAS 文件系统的快照创建实现原理简单,下盘数据量极少,几乎不会对系

统的性能产生影响。快照创建以后,文件系统的 IO 流程仅需在数据空间被释放之

前,加入是否受快照保护的检查,并记录被快照保护而被文件系统删除的数据块空

间,对文件系统性能影响几乎可以忽略。仅当快照删除后,数据的后台回收会跟文

件系统业务竞争一些 CPU 和内存资源,但性能损耗也同样在一个低水位上。

华为 OceanStor Dorado V3 全闪存存储系统

品技术白皮书(中国区企业版本)

5 数据保护 Hyper 特性

节省磁盘空间

采用文件系统快照获取源文件系统在快照时间点的一致性副本时,快照独占的文

件系统空间由快照时间点后源文件系统的数据变化量决定,并且永远不会超过快

照创建时间点时的文件系统大小。在源文件系统数据量变化不大的情况下,文件

系统快照通过很少的存储空间获得了源文件系统的一致性副本,非常节省硬盘空

间。

快照数据快速访问

文件系统的快照作为一个单独的目录呈现在文件系统的根目录中,用户可以通过

访问快照对应的目录,快速读取访问快照的数据。在不需要快照回滚的场景下,

可以方便的访问到快照时间点的数据,并且在当前文件系统的文件数据被破坏的

情况下,通过文件/目录拷贝的方式进行数据修复。

在 windows 客户端下访问通过 CIFS 共享的文件系统,还支持针对某个文件或者目

录进行还原,可以将某个文件或目录还原到某个时间点下快照的内容。只需要对要还

原的目录或文件点击右键,选择以前的版本,可以看到包含此文件或目录的快照的

所有时间点,可以选择其中一个时间点的数据进行还原。

文件系统快速回滚

对于传统的离线备份,备份数据无法直接在线读取,必须经过较长时间的数据恢

复过程才能够获得原数据在备份时间点的可用副本,从而实现数据的还原。而统

一存储的文件系统快照可以直接将文件系统的树根替换成指定快照的树根,并清

掉缓存数据,以实现文件系统快速回滚到指定的快照时间点。

用户需要小心使用回滚命令,因为在完成文件系统回滚之后,会自动删除回滚时

间点之后的快照。

定时快照实现持续数据保护

文件系统快照支持用户配置策略定时的自动进行快照创建操作,包括支持用户指

定时间点创建快照和指定时间间隔创建快照。

文件系统支持的最大定时快照的个数视具体的产品型号而定,超过规格后,自动

删除时间点最早的快照,而不需要用户进行介入。文件系统也支持用户主动删除

定时创建的快照。

这样通过时间轴向前推进的多个时间点快照,就非常方便且低成本的实现了近似持续数

据保护的功能。需要注意的是,采用快照实现的持续数据保护不能做到真正意义上CDP

(Continuous data protection),两个快照点之间的最小时间间隔决定了数据持续保护的

粒度。

5.2 HyperCDP

OceanStor Dorado V3 的 HyperCDP 提供对 LUN 的高密快照功能,通过 HyperCDP 生成

的快照称为 HyperCDP 快照。HyperCDP 的快照最小间隔支持 10 秒,对数据提供持续

保护,降低 RPO。HyperCDP 基于无损快照技术(多时间点、ROW 技术),每个

HyperCDP 对应源 LUN 的一个时间点。Dorado V3 系统内置 HyperCDP 定时计划,通

过配置不同的策略满足客户不同的备份诉求。

华为 OceanStor Dorado V3 全闪存存储系统

品技术白皮书(中国区企业版本)

5 数据保护 Hyper 特性

图5-5 HyperCDP 快照原理

技术特点:

秒级保护,性能无损,占用存储空间少

支持定时计划功能

系统内置定时计划功能,支持间隔、天、周、月 4 种定时策略,满足用户远疏近

密的备份诉求。

图5-6 HyperCDP 定时策略配置

数据保护密集、持久

单 LUN 支持 6 万个 HyperCDP 快照,最短定时间隔支持 10 秒。在 10 秒周期下,

可持续保护大约一周。

支持一致性组

数据库应用中,数据文件、配置文件、日志文件通常会分布在不同的 LUN 中,通

过 HyperCDP 一致性组功能,可实现在数据恢复时应用数据的一致性。

HyperCDP 读写

华为 OceanStor Dorado V3 全闪存存储系统

品技术白皮书(中国区企业版本)

5 数据保护 Hyper 特性

HyperCDP 快照不能直接映射主机读写。当用户需要读取某个 HyperCDP 快照的数

据时,可以对 HyperCDP 快照创建快照副本(创建出来的快照副本与 HyperCDP 快

照数据相同,支持读写),再将快照副本映射给主机。快照副本可以基于任意时刻的

HyperCDP 快照进行重建,由此可获得任意时刻 HyperCDP 的快照副本。

HyperCDP 特性和 OceanStor DoradoV3 的其他功能之间存在一定的约束关系,具

体的特性间约束如下表所示:

表5-1 HyperCDP 与其他特性约束表

特性名称

快照(HyperSnap)

与 HyperCDP 特性配合的约束

快照源 LUN 可以作为 HyperCDP 源 LUN,但是快

照 LUN 不能作为 HyperCDP 源 LUN;HyperCDP

不能作为快照源 LUN。

双活成员 LUN 可以作为 HyperCDP 的源 LUN,但

是 HyperCDP 不能作为双活成员 LUN;双活同步中

不能执行 HyperCDP 回滚操作;

双活(HyperMetro)

远程复制(HyperReplication) 远程复制的主从 LUN 可以作为 HyperCDP 的源

LUN,但是 HyperCDP 不能作为远程复制的主从

LUN;远程复制同步中不能执行 HyperCDP 回滚操

作;

LUN 迁移(smartMigration)

LUN 克隆(HyperClone)

异构虚拟化

(SmartVirtualiztion)

HyperCDP 源 LUN 和 HyperCDP 不能作为 LUN 迁

移的源 LUN 和目标 LUN;

克隆源 LUN 可以作为 HyperCDP 源 LUN,未分裂

的克隆 LUN 不能作为 HyperCDP 源 LUN;

异构 LUN 不能作为 HyperCDP 源 LUN;

5.3 HyperCopy

OceanStor Dorado V3R2 版本新增 HyperCopy 功能,通过创建源 LUN 和目标 LUN 的

HyperCopy 关系,可以为目标 LUN 同步源 LUN 完整的数据拷贝。创建 HyperCopy 关

系时,需要源 LUN 和目标 LUN 的容量相等。目标 LUN 可以是空的,也可以是已有数

据的 LUN。如果目标 LUN 已有数据,则数据将被 HyperCopy 覆盖。创建完成后,用

户可以进行数据同步。数据同步过程中,目标 LUN 可以立即读写,无需等待后台拷贝

完成。HyperCopy 也支持 LUN 的一致性组,数据同步支持增量同步和反向增量同步,

为源 LUN 数据提供保护和完整备份。HyperCopy 是阵列内的数据拷贝特性,可以跨控

制器,但不支持不同阵列间的数据拷贝。

HyperCopy 特性的典型应用场景有:

数据备份与恢复

数据分析

华为 OceanStor Dorado V3 全闪存存储系统

品技术白皮书(中国区企业版本)

5 数据保护 Hyper 特性

数据繁殖

创建 HyperCopy 后的数据同步

反向数据同步

数据同步开始时,系统将对源 LUN 生成一个即时的快照,将源 LUN 该时刻的快照数

据全量同步到目标 LUN,并对后续的写操作都记录到差异表中。后续用户再执行数据

同步时,通过对比目标 LUN 和源 LUN 的差异数据增量同步到目标 LUN,目标 LUN

两次同步间修改的数据将被覆盖。用户可以在数据同步操作前通过对 HyperCopy 关系

中的目标 LUN 创建快照的方式,保留对目标 LUN 数据的修改。

同步过程的原理如下图所示:

图5-7 源 LUN 向目的 LUN 数据同步原理

当源 LUN 损坏时,可以通过把目标 LUN 数据反向同步到源 LUN 实现对源 LUN 的保

护。反向同步支持全量同步和增量同步两种。反向数据同步启动时系统对目标 LUN 生

成快照,将目标 LUN 该时刻的快照数据全量同步到源 LUN;对于增量同步,通过对比

目标 LUN 和源 LUN 的差异数据,进行增量数据同步。

反向同步过程的原理如下图所示:

华为 OceanStor Dorado V3 全闪存存储系统

品技术白皮书(中国区企业版本)

5 数据保护 Hyper 特性

图5-8 目的 LUN 向源 LUN 数据反向同步原理

HyperCopy 数据同步状态分为同步中和非同步中两个状态。不同的状态对源 LUN 和目

标 LUN 的读写 IO 处理不同。

1、非同步中状态时的读写原理如下图所示:

对源 LUN 或目标 LUN 的读写,直接读写(含修改)源 LUN 或目标 LUN。

图5-9 同步完成状态 IO 读写原理

2、同步中状态的读写原理如下:

对源 LUN 的读写,直接读写(含修改)源 LUN。

对目标 LUN 的读操作,如果读数据在目标 LUN 命中则直接读取(数据已同步);如果

读数据在目标 LUN 未命中(数据尚未同步),则到源 LUN 的快照中读取。

支持立即读写

华为 OceanStor Dorado V3 全闪存存储系统

品技术白皮书(中国区企业版本)

5 数据保护 Hyper 特性

对目标 LUN 的写操作,如果数据已经同步,则进行覆盖写;未同步数据进行新写,待

数据同步到目标 LUN 时,如果发现该地址主机已经写入数据则放弃同步。这样保证了

目标 LUN 在同步未完成时也可以读写。

图5-10 同步中状态 IO 读写原理

一致性组

HyperCopy 支持多个 HyperCopy 关系对的一致性组。用户创建 HyperCopy 一致性组后,

可以将多个 HyperCopy 关系对添加到一致性组中。一致性组可以进行数据同步、反向

同步等操作,在进行这些操作时,一致性组的成员 LUN 数据始终保持在一个一致性点

上,从而保证数据的完整性和可用性。

5.4 克隆(HyperClone)

5.4.1 LUN 克隆(HyperClone For Block)

OceanStor Dorado V3 的克隆技术是指对源 LUN 或者快照 LUN 产生一份完整的物理数

据副本,可以应用于开发、测试场景而不影响源 LUN。

HyperClone 支持对普通 LUN 或快照 LUN 创建克隆。创建克隆时,Clone LUN 立即具

备源 LUN 相同的数据映像,克隆 LUN 和源 LUN 数据共享,克隆 LUN 创建后可以立

华为 OceanStor Dorado V3 全闪存存储系统

品技术白皮书(中国区企业版本)

5 数据保护 Hyper 特性

即映射给主机使用。HyperClone 支持克隆分裂操作。克隆分裂是指把克隆 LUN 从源

LUN 分裂出去,产生一份独立完整的物理数据副本,克隆 LUN 和源 LUN 间数据不再

共享。在分裂过程中和分裂完成后,主机都可以不中断的读写 Clone LUN。

HyperClone 支持在克隆分裂完成前取消克隆分裂操作,取消分裂操作可以回收分裂过程

中已经拷贝的数据,同时保留原有克隆 LUN 与源 LUN 数据的共享关系。HyperClone 基

于 LUN 的快照技术,在克隆创建时,克隆调用快照创建一份即时可读写的快照数据,源

LUN 与克隆 LUN 数据共享,如下图所示。克隆 LUN 映射给应用服务器进行读写,此

时读出的数据是源 LUN 的数据。

图5-11 修改数据前克隆 LUN 的数据状态

当应用服务器对源 LUN 或者克隆 LUN 写入新数据时,由于快照 ROW 技术的保护,

会将新数据写入新分配的存储空间,不会覆盖原有数据。如下图所示,修改源 LUN A 数

据块时,存储池会新分配一个 A1 数据块用于存储新数据,A 数据块不释放;同样,

修改克隆 LUN D 数据块时,存储池也会新分配一个 D1 数据块用于存储新数据,D 数据

块不释放。

图5-12 修改数据后克隆 LUN 的数据状态

华为 OceanStor Dorado V3 全闪存存储系统

品技术白皮书(中国区企业版本)

5 数据保护 Hyper 特性

克隆 LUN 分裂,会将与源 LUN 共享的源数据拷贝至新分配的数据块,同时保留克隆

LUN 新写入的数据;分裂完成后,断开克隆 LUN 与快照之间的关联,与源 LUN 分开,

成为独立完整的物理数据副本,如下图所示。

图5-13 LUN 分裂后的数据状态

Dorado V3 Clone 支持 LUN 的一致性操作。当多个 LUN 之间的数据有相互依赖关系

时,比如数据库的数据文件和日志文件,可以通过对一致性激活的 LUN 快照创建克隆

的方式来保证多个 LUN 之间数据的一致性。

HyperClone 和 HyperCopy 都是创建数据完整拷贝的方式,其异同点如下表:

表5-2 HyperClone 与 HyperCopy 对比表

对比项

副本类型

是否立即可用

同步方式

一致性组

支持范围

HyperClone

创建一个 Clone LUN

在线,立即可用

HyperCopy

源和目的 LUN 拷贝关系

在线,立即可用

支持增量同步和反向同步

只能通过对一致性激活的 LUN

支持一致性组的创建

快照创建克隆的方式保证一致性

不能跨控制对、不能跨存储池 支持跨控制对和跨存储池

5.4.2 FS 克隆(HyperClone For File)

Dorado NAS 系统支持克隆文件系统特性。克隆文件系统是父文件系统某个时间点的副

本,可以独立共享给客户端读写,从而满足快速部署、应用测试、容灾演练等场景。

技术原理:

文件系统克隆是基于 ROW 技术的文件系统快照基础上实现的某个时间点的可读可写

副本。

华为 OceanStor Dorado V3 全闪存存储系统

品技术白皮书(中国区企业版本)

5 数据保护 Hyper 特性

图5-14 文件系统克隆原理示意图

如图 a 所示,文件系统是 ROW 方式,数据写入不会覆盖原有数据,而是分配新

磁盘空间写入;数据每次写入都会记录一个时间点信息,表明写入的时序。时间

点实际是一个依次递增的序列号。

如图 b 所示,创建克隆文件系统步骤:

a.

c.

基于新建快照方式会在父文件系统中创建只读快照;

在克隆文件系统中创建初始快照。

与创建只读快照类似,整个过程中不需要拷贝任何用户数据,因此整个过程

耗时极少,通常在一两秒内完成。并且在数据被修改之前,克隆文件系统与

父文件系统共享数据。

b. 拷贝快照的根节点生成克隆文件系统的根节点;

如图 c 所示,从父文件系统修改 A 数据块时,会新分配一个 A1 数据块,并且由

于有快照保护,A 数据块不会释放,因此修改父文件系统数据不会影响克隆文件

系统;从克隆文件系统修改 D 数据块时,也会分配一个 D1 数据块,D 数据块写

入时间点小于克隆文件系统初始时间点,D 数据块也不会释放,因此修改克隆文

件系统数据也不会影响父文件系统;

如图 d 所示,分裂克隆文件系统步骤:

a. 删除克隆文件系统中所有只读快照;

b. 遍历克隆文件系统中所有对象的数据块,通过覆盖写触发共享数据在克隆文

件系统中新分配数据块,从而达到共享数据分裂的目的;

c. 删除父文件系统中关联快照。

分裂完成后克隆文件系统和父文件系统完全独立,没有依赖。分裂克隆文件系统

时间根据共享数据大小而定。

技术特点:

华为 OceanStor Dorado V3 全闪存存储系统

品技术白皮书(中国区企业版本)

5 数据保护 Hyper 特性

快速创建

对于绝大部分场景,创建克隆文件系统秒级完成,克隆完成后克隆文件系统就可

以独立共享给客户端读写;

节省存储空间

克隆文件系统与父文件系统共享数据,在克隆文件系统对共享数据修改之前,这些

共享数据不会占用额外的存储空间,因此创建克隆文件系统只会从 POOL 中消耗

较少的空间。

低性能损耗

克隆文件系统是基于父文件系统的快照生成的,因此创建克隆文件系统对父文件

系统的性能影响几乎可以忽略。

克隆文件系统分裂

克隆分裂将共享数据分开,分裂完成后克隆文件系统和父文件系统完全独立,没

有依赖。

5.5 远程复制(HyperReplication)

5.5.1 LUN 同步远程复制 (HyperReplication/S For Block)

OceanStor Dorado V3 全闪存系统支持阵列间的同步远程复制功能,对于每个主机的写

IO,都会同时写到主 LUN 和从 LUN,直到主 LUN 和从 LUN 都返回处理结果后,才

会返回主机处理结果,做到数据零丢失。主 LUN 和从 LUN 组成一个远程复制对。

HyperReplication LUN 同步远程复制的工作原理如下:

生产中心的主 LUN 和灾备中心的从 LUN 建立同步远程复制关系以后,系统会启

动初始同步,也就是将主 LUN 数据全量拷贝到从 LUN;

初始同步中主 LUN 收到主机写请求,将主机写请求同时写主端和从端;

初始同步完成以后,主、从 LUN 数据完全一致。同步远程复制按照下面的流程进

行 I/O 处理:

a. 生产存储收到主机写请求。HyperReplication 将该请求记录日志。日志中只记

录地址信息,不记录数据内容。

b. 将该请求写入主 LUN 和从 LUN。通常情况下 LUN 是回写状态,数据会写入

Cache。

c. HyperReplication 等待主 LUN 和从 LUN 的写处理结果都返回。如果都写成

功,清除日志;否则保留日志,进入异常断开状态,后续启动同步时重新复

制该日志地址对应的数据块。

d. 返回主机写请求处理结果,以写主 LUN 的处理结果为准。

华为 OceanStor Dorado V3 全闪存存储系统

品技术白皮书(中国区企业版本)

5 数据保护 Hyper 特性

图5-15 同步远程复制 IO 流程示意图

技术特点:

数据零丢失

OceanStor Dorado V3 存储系统同步远程复制对主、从 LUN 同时进行数据更新,能

够保证 RPO 为 0。

支持分裂模式

OceanStor Dorado V3 存储系统同步远程复制支持分裂模式,在分裂状态下,生产主

机的写请求只会写到主 LUN,并通过差异日志来记录主、从 LUN 数据之间的数据

差异。当用户希望重新保持主、从 LUN 数据一致时,可以进行一次手动启动同步

操作,同步过程就是将差异日志中标为“有差异”的数据块从主 LUN 增量拷贝到

从 LUN 的过程,其 I/O 处理原理与初始同步的原理类似。分裂模式可以灵活地满

足用户的一些需求:如暂时性的链路维修、网络带宽扩容、需要从 LUN 保存某一

个时间点的数据等等。

快速响应故障和故障恢复

OceanStor Dorado V3 存储系统同步远程复制检测到系统故障(包括链路断开、主

LUN 或从 LUN 故障导致的 IO 错误等等)时能够立即进入断开状态。在断开状态

下,同步远程复制的 I/O 处理原理与分裂时类似,只将 I/O 写入主 LUN 并记录差

异(注意:若故障为主 LUN 故障,那么在故障排除之前主 LUN 无法接收生产主

机的 I/O 请求)。当这些故障排除时,同步远程复制可以在极短的时间内根据恢复

策略进行相应的操作:如果恢复策略为自动恢复,同步远程复制会自动进入“同步”

状态,将有差异的数据增量同步到从 LUN;如果恢复策略为手动恢复,同步远程

复制会进入“待恢复”状态,等待用户手动启动同步。由于断开后的同步采用的是

增量数据同步,可以减少同步远程复制恢复过程的数据传输量。

华为 OceanStor Dorado V3 全闪存存储系统

品技术白皮书(中国区企业版本)

5 数据保护 Hyper 特性

支持从 LUN 拉起功能

从 LUN 拉起功能是指从 LUN 在分裂或断开情况下可以设置取消从 LUN 写保护,

从而使从 LUN 可以接收来自主机的数据。

同步远程复制取消从 LUN 写保护有以下两个条件:

远程复制处于分裂或异常断开状态;

远程复制从 LUN 数据必须是完整的(当从 LUN 数据不完整时,从 LUN 数据

此时不可用,不能设置为从 LUN 可写)。

OceanStor Dorado V3 存储系统同步远程复制支持从 LUN 拉起功能,使备用生产主

机能够直接读写从 LUN 数据,该功能主要有两类应用场景:

用户需要在不影响主 LUN 业务的情况下使用从 LUN 进行数据分析、挖掘;

当主站点生产阵列故障,从站点的灾备阵列需要接管业务,但无法进行正常

的主从切换或无法与生产阵列正常通信。

OceanStor Dorado V3 存储系统支持对从 LUN 的写记录差异,当主站点生产阵列恢

复后,可通过比较主从差异,进行增量同步来使得灾难恢复后业务快速回切至主站

点。

支持复制的主从切换

主从切换是指远程复制对中成员 LUN 的主从关系转换。OceanStor Dorado V3 存储

系统同步远程复制支持用户进行主从切换操作。

主从切换取决于从 LUN 数据状态,从 LUN 数据状态标识了从 LUN 当前数据的可

用情况,分“完整”和“不完整”两种。

完整:从 LUN 上的数据是主 LUN 之前一个时间点的副本,此时从 LUN 的数

据是可用的,但不一定与当前的主 LUN 数据完全一致;

不完整:从 LUN 上的数据不是主 LUN 之前一个时间点的副本,从 LUN 的数

据不可用。

如上图所示,主站点的主 LUN 在切换后变成了新的从 LUN,而从站点的从 LUN

在切换后变成了新的主 LUN。经过一些在主机侧的简单操作以后(主要是将新主

LUN 映射给备用生产主机,也可提前映射),从站点的备用生产主机接管业务并对

新的主 LUN 下发读写请求。进行主从切换时,从 LUN 数据状态必须为“完整”,

主从切换完成后进行的同步为增量同步,即只拷贝差异数据。

同步远程复制进行主从切换的条件如下:

华为 OceanStor Dorado V3 全闪存存储系统

品技术白皮书(中国区企业版本)

5 数据保护 Hyper 特性

同步远程复制在正常状态下可以进行主从切换;

分裂状态下,需要设置从 LUN 可写才能进行主从切换。

一致性组

在大中型数据库应用中,数据、日志、修改信息等存储在磁盘阵列的不同 LUN

中,缺少其中一个 LUN 的数据,都将导致其他 LUN 中的数据失效,无法继续使

用。如果需要同时对这些 LUN 进行远程容灾,那么就要考虑如何保持多个远程复

制对的数据一致性。OceanStor Dorado V3 存储系统同步远程复制提供一致性组功

能来保证多个远程复制对之间复制数据的一致性。

一致性组是多个远程复制对的集合,可以确保单个存储系统内,主机在跨多个

LUN 进行写操作时数据的一致性。主站点生产阵列一致性组内的数据完成写操作

后,再通过一致性组的同步功能将所有组内数据同时复制到从 LUN,从而保证容

灾备份数据的完整性和可用性。

用户创建一致性组以后,可以将多个远程复制对添加到一致性组中。一致性组可以

进行分裂、同步、主从切换、设置从 LUN 可写等操作,在进行这些操作时,一致

性组的所有成员对保持步调一致。当遇到链路故障时,一致性组的所有成员对会一

起进入异常断开状态。当远程复制故障排除后恢复正常状态时再重新进行数据的同

步,从而保证从站点灾备阵列数据的可用性。

5.5.2 LUN 异步远程复制 (HyperReplication/A For Block)

OceanStor Dorado V3 支持异步远程复制,当主站点的主 LUN 和远端复制站点的从

LUN 建立异步远程复制关系后,会启动一个初始同步,初始同步完成后,从 LUN 数

据状态变为已同步或一致,然后按照下面流程处理(见下图):

主 LUN 接收生产主机的写请求;

写请求数据写入主 LUN 后,立即响应主机写完成;

每当间隔一个同步周期(由用户设定,范围为 3 秒-1440 分钟)以后,会自动启动

一个将主 LUN 数据增量同步到从 LUN 的同步过程(如果同步类型为手动,则需

要用户来触发同步)。在同步开始以前,先对主 LUN 和从 LUN 分别生成快照:主

LUN 的快照可以保证同步过程中读取到的主 LUN 数据是具备一致性的;从 LUN

的快照用于备份从 LUN 在同步开始前的数据,避免同步过程发生异常导致从

LUN 的数据不可用;

主 LUN 向从 LUN 同步数据时,读取主 LUN 快照的数据,复制到从 LUN。同步

数据完成后,分别删除主 LUN 和从 LUN 的快照,然后等待下一个同步的到来。

华为 OceanStor Dorado V3 全闪存存储系统

品技术白皮书(中国区企业版本)

5 数据保护 Hyper 特性

图5-16 异步复制技术原理示意图

技术特点:

支持数据压缩

FC 链路和 IP 链路都支持数据压缩,采用 LZ4 算法,链路压缩功能支持打开关闭,

在客户带宽条件有限的情况下,极大的降低异步复制对带宽的要求,按照实际测试

数据,带宽为 100Mbps 的 Oracle 的 OLTP 场景,压缩以后,带宽可以节省50%。

快速响应主机请求

主机对主 LUN 的写请求在主站点完成后即可响应主机写完成,不必等待数据写到

从 LUN。并且,数据由主 LUN 到从 LUN 同步过程是在后台进行的,不会影响主

机对主 LUN 的正常访问。由于异步远程复制主 LUN 上的数据更新不是立即同步到

从 LUN 的,所以数据遗失量取决于用户设置的同步周期,用户可以根据应用场景

设置不同的同步周期(范围是 3 秒钟-1440 分钟,默认 30 秒钟)。

支持分裂、主从切换和故障快速恢复

异步远程复制拥有分裂、同步、主从切换和断开后恢复的功能。

支持一致性组

支持一致性组,用于数据库场景下,多个 LUN,如日志 LUN 和数据 LUN 构建在

一个一致性组中,保证一个一致性组在周期同步以及故障场景下数据保持在一个一

致性时间点上,便于应用层的快速恢复;

与融合存储复制互通

OceanStor Dorado V3 系列存储系统,基于华为 OceanStor OS 统一存储软件平台开

发,与华为高中低端融合存储产品的复制协议完全兼容,支持在不同型号产品间创

建远程复制,构建高度灵活的容灾解决方案。

支持 FAN-IN

OceanStor Dorado V3 存储系统的容灾复制技术支持高达 64:1 的容灾复制模式,

是业界其他友商的 4~8 倍,可以支持 64 台存储设备到一台存储设备的数据集中

容灾,实现了容灾资源共享,极大地减少了容灾设备的部署和投资。

支持云远程复制

华为 OceanStor Dorado V3 全闪存存储系统

品技术白皮书(中国区企业版本)

5 数据保护 Hyper 特性

OceanStor Dorado V3 存储系统的云复制特性,支持与华为云 DESS 专属企业存储

服务配合建立混合云容灾方案。通过在华为云上按需购买相关云资源,无需自建机

房和运维团队,快速构建容灾中心,降低成本提升效率。

更多信息可同时参考《OceanStor Dorado V3 系列 V300R002 HyperReplication 特性指

南》

5.5.3 FS 异步远程复制(HyperReplication/A For File)

HyperReplication 文件系统异步远程复制提供对文件系统的远距离数据容灾功能。它将

生产端的文件系统的全部内容复制到灾备端的文件系统中,适用于需要在跨异地的数据

中心间进行容灾,同时降低对生产业务的性能影响的场景。它也支持阵列内两个文件系

统进行异步复制,适用于本地数据容灾、数据备份、数据迁移等应用场景。

HyperReplication 文件系统异步远程复制基于文件系统对象层,周期性的同步主、从 FS

的数据,上一次同步以来主 FS 上发生的所有变化会在下一次同步时写到从 FS 上。

技术原理:

基于对象层的复制

HyperReplication 文件系统异步远程复制采用基于对象层的方式进行数据复制。文

件系统的所有内容,比如文件、目录、文件属性,都是由对象构成。基于对象层的

复制直接将对象从主文件系统复制到从文件系统,不需要关心复杂的文件层的信息,

比如文件与目录间的依赖关系、各种文件操作,从而使复制变得更加简单高效。

基于 ROW 快照的周期性复制

HyperReplication 文件系统异步远程复制采用基于 ROW 快照的周期性的方式进行

数据复制。

周期性复制可以提高复制效率和带宽利用效率。在一个周期中,如果主机重复

写入相同地址的数据(比如对同一文件相同地址的重复修改),只需要将最后

一次写入的数据进行复制。

文件系统及其快照都是采用 ROW 方式处理数据写入,不管文件系统是否带

有快照,数据都是写入新分配的地址空间,创建快照后几乎不会带来性能影

响。因此,文件系统异步远程复制对生产业务的性能影响也很小。

写入的数据在后台周期性地复制到从 FS。复制周期由用户设定,每个周期内

数据的变化会记录增量信息,增量信息记录数据变化的地址,不会记录数据内

容。每次周期复制过程中,当增量数据没有传输完成时,从 FS 还不能构成完

整的文件系统,因此每次周期复制完成时,从 FS 形成数据一致性点后,会创

建从 FS 的快照,如果下一次周期复制过程中断(生产端发生故障、链路发生

故障等原因),当用户需要使用从 FS 时,文件系统异步远程复制可以将从 FS

回滚到上个周期完成时的快照点,获得一致性数据。

华为 OceanStor Dorado V3 全闪存存储系统

品技术白皮书(中国区企业版本)

5 数据保护 Hyper 特性

图5-17 文件系统异步远程复制原理

1. 主机下发写 I/O;

2. 主机数据写入主 FS 即可返回;

3. 每个同步周期开始时,文件系统异步远程复制创建主 FS(主文件系统)的快照;

4. 根据上一周期复制完成到本周期开始这段时间内的增量信息,读取快照的数据复

制到从 FS;

5. 增量复制完成后,从 FS 的内容与主 FS 的快照内容相同,从 FS 形成数据一致性

点。

技术特点:

分裂和增量重同步

当用户希望暂停复制时,可以对远程复制进行分裂。分裂将停止从主 FS 到从 FS

的数据复制。

分裂后主机写入的数据会记录增量信息。分裂后可以再次重同步,在重同步时,

已经复制过的数据不会再复制,会根据增量信息只复制主从之间有差异的数据。

分裂常用于计划性的设备维护的场景,比如存储阵列升级、复制链路变更。在这

类维护场景下,通常降低各类并发处理的任务会使系统更加可靠,等到维护结束

后,再重启或继续任务。

故障断开和自动恢复

当因为某种故障(比如链路断开)而导致远程复制无法再继续从主 FS 到从 FS 的

数据复制时,远程复制会进入异常断开状态。在异常断开状态下,主机写入的数据

会记录增量信息。当故障排除后,远程复制会自动恢复,进行增量重同步,不需要

人为干预。

从 FS 可读写和增量 failback

通常情况下,从 FS 可读、不可写。从 FS 可读时,读的是上一次复制完成时的快

照上的数据,当下一次复制完成时,会自动切换到读最新快照上的数据。

华为 OceanStor Dorado V3 全闪存存储系统

品技术白皮书(中国区企业版本)

5 数据保护 Hyper 特性

从 FS 可读常用于在复制过程中需要读取从端数据的场景。

在满足下列条件时,可以将从 FS 设置为可读写:

已初始同步完成。对于异步远程复制,完成初始同步后从端数据状态为完

整。

远程复制处于分裂、或异常断开状态。

设置从 FS 可读写时,如果从 FS 处于复制过程未完成的阶段,数据不一致,

远程复制会将从 FS 回滚到上一次复制完成时的快照点。

设置为可读写后,主机对从 FS 写入数据时,远程复制会记录增量信息,后续

用于增量重同步。恢复复制时,可以选择由主到从复制,也可以选择由从到主

复制(需做主从切换,然后再启动同步)。复制启动前,远程复制会先将目标

端回滚到一个快照点上,该快照点与源端的过去的某个快照点数据相同, 然

后根据源端的从该快照点到当前的增量信息进行增量重同步。

设置从 FS 可读写常用于灾备场景。

主从切换

FS 异步复制支持在分裂和异常断开状态下将主 FS 与从 FS 的角色互换,原来的主

FS 成为从 FS,原来的从 FS 成为主 FS。主、从角色决定了数据复制方向,数据会

由主 FS 向从 FS 同步。

主从切换常用于灾备场景中 failback 过程。

快速响应主机 IO

文件系统异步远程复制的所有复制增加的 IO 处理都是在后台进行。主机数据写入

Cache 后,即可返回,没有额外的处理。Cache 在下刷数据时,才会记录增量信

息,以及进行快照处理。因此,可以快速响应主机 IO。

5.6 阵列双活(HyperMetro)

5.6.1 LUN 双活(HyperMetro For Block)

HyperMetro 是 OceanStor Dorado V3 存储系统实现的阵列级的 Active/Active 双活技术。

部署双活的两套存储系统可以放在同一个机房、同一个城市或者相距 100Km 以内的两

地,支持 FC 或者 IP 部署(10GE)。HyperMetro 实现了 LUN Active/Active 双活,来自

两套存储阵列的两个 LUN 数据实时同步,且都能提供主机读写访问。当任何一端阵列

整体故障的情况下主机将切换访问路径到正常的一端继续业务访问;当阵列间链路故障

时只有一端继续提供主机读写访问,具体由哪端提供服务将取决于仲裁的结果。仲裁服

务器部署在第三方站点,用于两套存储阵列间链路中断时,提供仲裁服务。

图5-18 阵列双活示意图

HyperMetro 主要技术特点:

免网关双活方案:组网简单,容易部署;减少一个故障点,可靠性更好;避免了

网关设备额外引入的约 0.5ms 的时延,性能更好。

Active-Active 双活:真正 Active/Active 双活,两个数据中心的存储同一个 LUN 支

持业务同时读写,正常情况下提供业务负载分担部署,实现跨数据中心的业务负载

均衡。

华为 OceanStor Dorado V3 全闪存存储系统

品技术白皮书(中国区企业版本)

5 数据保护 Hyper 特性

地域访问优化:华为自研多路径软件,针对双活场景做了优化,能够识别地域位

置信息,减少跨站点访问,从而减少时延提供性能。主机多路径虽然能够从本地

或异地存储读取数据,但在本地磁盘阵列正常运行的情况下,多路径软件优先读

写本地磁盘阵列,避免主机跨数据中心读写数据。

FastWrite 特性:正常的 SCSI 写流程中,写请求有“写分配(Write Alloc)”和

“写数据(Write Data)”这两次交互,一个写请求需要在站点间往返两次才能完

成。FastWrite 特性优化存储传输协议,提前在目标端预留接收写请求的缓存空间,

省掉“写分配”环节,从原来 2 次网络往返交互优化成只要 1 次,将阵列之间数

据同步时延缩短一半,提升了整体双活方案性能。

按业务粒度仲裁:HyperMetro 可以实现按业务为粒度仲裁,即站点间链路故障后,

可以按照配置,有些业务运行在优先站点 A 数据中心,有些业务优先站点运行在

B 数据中心。相比传统仲裁只有单边设备运行的方案,可以减少主机和存储资源预

留,使业务负载更均衡。业务粒度仲裁通过 LUN 或一致性组仲裁来实现的,通常

情况下,同一业务对应一个 LUN 或者一个一致性组。

链路质量自适应:如果两个数据中心间存在多条链路,HyperMetro 特性会根据各

条链路质量,自动在链路之间均衡负载。系统会动态监控链路质量,动态调整两条

链路的负载分担比例,以尽量降低重传率,提升网络性能表现。

现有特性兼容:HyperMetro 支持与 HyperSnap、SmartThin、SmartDedupe、

SmartCompression 等现有特性同时使用。

仲裁服务器支持主备模式双仲裁(仲裁服务器可以是物理服务器,也可以是虚拟

机),有效防止仲裁服务器单点故障,保障双活业务连续性。

双活可以在线叠加异步复制,形成 3 站点容灾方案。

5.6.2 FS 双活(HyperMetro For File)

HyperMetro 使主机能够将两个存储系统的文件系统视为单个存储系统上的单个文件系

统,并且使两个文件系统上的数据相同。NAS 双活由主端提供数据读写服务,数据实

时同步至从端;当主站点发生故障时,以租户为粒度进行双活切换,从站点将自动接管

服务,而不会对应用程序造成任何数据丢失或中断。

NAS 双活为客户提供以下的收益:

跨站点的高可用持续保护

简易的管理

避免数据丢失的风险,减少系统宕机时间以及快速的灾难恢复

对应用和用户不感知故障处理

NAS 双活既支持 FC 组网,也支持 IP 组网。

华为 OceanStor Dorado V3 全闪存存储系统

品技术白皮书(中国区企业版本)

5 数据保护 Hyper 特性

图5-19 NAS 双活逻辑组网图

NAS 双活主要技术特点:

免网关双活方案:免网关设计使主机 I/O 请求,无需经过存储网关转发,避免了

网关转发引起 I/O 时延;同时减少网关故障点,提高方案可靠性;显著降低双活

组网复杂度,便于维护。

组网简单:整合双活数据复制链路、配置同步链路和心跳链路到一个物理网络,

简化了两个数据中心的组网,两套存储系统间的复制链路可以使用 IP 或 FC 链 路。

考虑到前端业务链路一定是 IP 网络,所以 HyperMetro 能工作在全 IP 网络环境下,

以降低构建成本。

基于 vStore 的 NAS 双活:传统的 NAS 双活,主要是通过将集群的节点分别部署

在两个数据中心,从而实现数据中心间的双活,不能进行灵活资源配置和调优。而

华为 NAS 双活是通过将部署在两个数据中心的 vStore 来实现双活关系,实现了

vStore 粒度的数据和配置的实时镜像,每个 vStore 双活都有自己独立的仲裁结果,

提供了真正的 vStore 层面的跨站点高可用能力,这使得客户可以更灵活的部署业

务,实现更好的负载均衡,上层应用更高效。一个 vStore Pair 包括两个互为主备

的 vStore,它们组成了跨站点的高可靠关系。当一个存储系统发生故障时, 或两

个存储系统间的连接断开时,双活仲裁以 vStore Pair 为单位发起仲裁申请。两个

vStore 中的资源互为冗余,为客户提供服务,从而实现故障时,业务不中断。

华为 OceanStor Dorado V3 全闪存存储系统

品技术白皮书(中国区企业版本)

5 数据保护 Hyper 特性

图5-20 基于 vStore 的 HyperMetro 架构

自动恢复 :如果站点 A 发生故障导致 vStore Pair 工作站点切换到站点 B,在 A 故

障恢复后,可以自动发起重同步,而无需人工接入。在重同步完成后,双活变为正

常状态,该状态下站点 B 再发生故障,双活可以继续切换到站点 A,业务不中断。

易于升级扩展:当用户需要为原有业务配置双活时,只需要购买双活 license 并升级

到最新的软件版本,就可以和另一台阵列配置双活,而不需要额外的数据迁移过程。

所以用户可以选择购买设备时就初始配置双活还是后续扩展到双活。

FastWrite 特性:正常的 SCSI 写流程中,写请求有“写分配(Write Alloc)”和

“写数据(Write Data)”这两次交互,一个写请求需要在站点间往返两次才能完

成。Fastwrite 特性优化存储传输协议,提前在目标端预留接收写请求的缓存空间,

省掉“写分配”环节,变为只要 1 次交互。该特性将阵列之间数据同步时延缩短

一半,提升了整体双活方案性能。

链路质量自适应:如果两个数据中心间存在多条链路,HyperMetro 特性会根据各

条链路质量,自动在链路之间均衡负载。系统会动态监控链路质量,动态调整两条

链路的负载分担比例,以尽量降低重传率,提升网络性能表现。

现有特性兼容:HyperMetro 支持与 SmartThin、SmartQoS、SmartCache 等现有特

性同时使用,可以与 HyperSnap、HyperReplication、HyperVault 等特性一起组合成

更复杂的高级数据保护方案(如本地双活+异地复制的两地三中心容灾方案)。

支持双仲裁:HyperMetro 支持两个仲裁服务器,其中一个故障之后,无缝切换到

另外一个仲裁服务器,降低单点故障风险,提升双活可靠性。

华为 OceanStor Dorado V3 全闪存存储系统

品技术白皮书(中国区企业版本)

5 数据保护 Hyper 特性

5.7 两地三中心(3DC)

支持丰富的 3DC(Data Center)组网方式,可以用同步复制和异步复制组成 3DC,也

可以是双活和异步复制组成 3DC,包括以下四种组网方式:

同步+异步 级联组网

同步+异步 并联组网

异步+异步 级联组网

异步+异步 并联组网

同步+异步 环形组网

双活+异步 环形组网

图5-21 3DC 组网图

技术特点:

1、支持同步/双活两站点保护,不需要外部网关,平滑扩展到三站点保护。

2、环形组网任意站点故障可做到增量备份数据。

3、环形组网支持单站点集中配置和管理。

5.8 一体化备份(HyperVault for File)

OceanStor Dorado V3 存储系统支持一体化备份(HyperVault)特性,可以实现系统内或

系统间的文件系统数据备份和恢复。

华为 OceanStor Dorado V3 全闪存存储系统

品技术白皮书(中国区企业版本)

5 数据保护 Hyper 特性

HyperVault 可以工作在以下两种模式:

本地备份:

存储系统内部的备份,基于文件系统的快照机制,对需要备份的文件系统按照一

定的定时策略进行备份,生成备份副本,同时对生成的备份副本按照策略保留一

定的数量,默认保留 5 份。

异地备份:

存储系统之间的备份,基于文件系统的远程复制技术,对需要备份的文件系统按

照定时策略进行备份:在主存储端创建一个备份快照,然后获得和上一次异地备

份时的备份快照的之间的差异数据,将差异数据拷贝到备份存储端文件系统,备

份完成后,在备份存储端文件系统创建一个快照,并对生成的备份快照按照策略

保留一定的数量,默认保留 35 份。

技术特点:

成本更节约

一体化备份功能完美融入主存储,用户通过主存储自带管理软件(Oceanstor

DeviceManager),配置灵活的备份策略,完成备份功能,不依赖于商业的备份软

件。

备份效率更高

一体化备份的本地备份采用快照技术进行备份,可以实现秒级备份;异地备份除

初始备份为全备外,后续只对增量数据块进行备份,相比以文件单位的备份软件

效率更高。

恢复效率更高

一体化备份本地恢复利用阵列的快照回滚技术,不需要额外的数据解析,实现秒

级恢复;本地恢复不能满足恢复要求时,可采用异地恢复,异地备份采用增量的

方式进行恢复。每一份备份数据从逻辑上来看都为业务数据的一次全备,备份数

据以原有格式存放,可以被立即访问。

管理更简单

采用两台设备融合主存和备份的功能,不需要采用主存+备份软件+备份介质的复杂

组合,只需使用存储自带管理软件(Oceanstor DeviceManager)即可,管理简单易

懂。

5.9 WORM(HyperLock for File)

随着科学技术的进步和社会发展,信息呈爆炸式增长,数据的安全访问和应用的问题逐

渐受到人们的重视,例如法院案件、医疗病例、金融证券等,这些重要的数据按照法律

规定在指定的时间周期内只能读不能写。因此需要对此类数据进行防纂改保护。WORM

(Write Once Read Many)特性提供一次写入多次读取技术,是存储业界常用的数据安全

访问和归档的方法,旨在防止数据被纂改,实现数据的备案和归档。

OceanStor Dorado V3 存储系统的 WORM 特性又叫 HyperLock 特性,是指文件被写入

完成后即可通过去掉文件的写权限,使其进入只读状态。在该状态下文件只能被读

取,无法被删除、修改或重命名。通过配置 WORM 特性对存储数据进行保护后,可以

防止其被意外纂改,满足企业或组织对重要业务数据安全存储的需求。

华为 OceanStor Dorado V3 全闪存存储系统

品技术白皮书(中国区企业版本)

5 数据保护 Hyper 特性

具有 WORM 特性的文件系统(以下简称 WORM 文件系统)只能由管理员进行设置。

根据管理员权限不同,WORM 文件系统可分为法规遵从模式(Regulatory Compliance

WORM,简称 WORM-C)和企业遵从模式(Enterprise WORM,简称 WORM-E)。法

规遵从模式主要应用于遵从法规施行数据保护机制的归档场景,而企业遵从模式主要应

用于企业内部管理。

WORM 原理

WORM 技术使文件只能写入一次数据,不能重复写入且不允许被修改、删除或重命名。

WORM 特性是在普通文件系统的基础上增加了 WORM 属性,使 WORM 文件系统内的

文件在保护期内只能被读取。创建 WORM 文件系统后,通过 NFS 或者 CIFS 协议映射

给应用服务器。

通过使用 WORM 特性,存在于 WORM 文件系统中的文件可以在初始状态、锁定状态、

追加状态以及过期状态之间进行转换,从而防止重要数据在指定周期内被意外或恶意

纂改。各状态间的转换关系如图 5-22 所示。

图5-22 文件状态的转换

1. 初始状态 –> 锁定状态:文件可以通过两种方式从初始状态转换至锁定状态。

在自动锁定模式打开的情况下,文件结束修改后超过“锁定等待时长”自动

进入锁定状态。

手动将文件设置成锁定状态,在设置锁定状态前可以明确给出文件的保护

期,也可以使用系统默认的保护期。

2. 锁定状态 –> 锁定状态:当文件处于锁定状态时,可以手动延长文件的保护期。

保护时间只能延长不能缩短。

3. 锁定状态 –> 过期状态:在 WORM 文件系统的法规时钟超过文件过期时间之

后,文件就会由锁定状态转换至过期状态。

4. 过期状态 –> 锁定状态:通过延长文件的保护期,可以实现文件从过期状态转换

至锁定状态。

5. 锁定状态 –> 追加状态:通过去掉文件的只读权限,将处于锁定状态的文件设置

成追加状态。

6. 追加状态 –> 锁定状态:通过设置文件为只读状态,将处于追加状态的文件设置

为锁定状态,以保证文件不再被修改。

7. 过期状态 –> 追加状态:可手动将处于过期状态的文件设置成追加状态。

华为 OceanStor Dorado V3 全闪存存储系统

品技术白皮书(中国区企业版本)

5 数据保护 Hyper 特性

用户根据业务需求将需要保存的文件放入 WORM 文件系统中,并设置文件的 WORM

属性使其进入保护状态。WORM 文件系统中文件在各状态的读写过程如图 5-23 所示。

图5-23 WORM 文件系统中文件的读写

华为 OceanStor Dorado V3 全闪存存储系统

品技术白皮书(中国区企业版本)

6 云灾备 Cloud 特性

6

6.1 云复制(CloudReplication)

6.2 云备份(CloudBackup)

云灾备 Cloud 特性

6.1 云复制(CloudReplication)

OceanStor Dorado V3 存储系统的云复制(CloudReplication)特性,支持与华为云

DESS(Dedicated Enterprise Storage Service)专属企业存储服务配合建立混合云容灾方

案。通过在华为云上按需购买 DESS 相关资源,无需自建机房和运维团队,快速构建

容灾中心,降低成本提升效率。

云上 DESS 专属阵列:支持 Dorado5000 V3,需要安装 CloudReplication 的许可和

DESS 认证许可。云下阵列:支持 Dorado5000 V3、Dorado6000 V3,需要安装

CloudReplication 的许可。同时,CloudReplication 也支持 OceanStor V5 融合存储系列。

图6-1 DESS 云复制(CloudReplication)组网图

技术特点:

采用异步远程复制技术将数据复制上云,继承异步远程复制的所有功能。

华为 OceanStor Dorado V3 全闪存存储系统

品技术白皮书(中国区企业版本)

6 云灾备 Cloud 特性

DESS 支持和融合存储对接。

华为 DESS 解决方案,客户不需要建设和维护容灾中心,可按需购买、扩容容灾资

源。

支持场景:

客户在已有生产中心的基础上,低成本建设远程灾备中心,华为云 DESS 作为远程异

步容灾站点,对生产中心数据进行容灾保护。

客户在已有生产中心和灾备中心的 2DC 基础上,低成本的建设 3DC,华为云 DESS 作

为远程异步容灾站点,对生产中心数据进行容灾保护。

6.2 云备份(CloudBackup)

OceanStor Dorado V3 存储系统的云备份 CloudBackup 特性,支持将存储系统的 LUN 或

LUN 一致性组数据远程备份到公有云或本地 NAS 和对象存储。结合华为云(Huawei

Cloud)的 CSBS(Cloud Server Backup Service),还支持无需云中部署备份服务器直接

云中快速恢复。

无论在云上还是本地数据中心,用户无需构建外置备份服务器,即可实现数据的异地

备份和恢复,简化了备份方案,降低用户的购置和维护成本。

CloudBackup 支持的本地数据中心 NAS 设备包括华为 OceanStor 9000 和 OceanStor

V3/V5 系列的 NAS 设备, FusionStorage 以及 OceanStor 9000 对象存储。备份上云支

持的公有云存储包括华为企业云 HEC 对象存储服务 OBS(Object Storage Service),

AWS 的 S3 等。

图6-2 CloudBackup 云备份特性典型组网图

关键功能点:

1. 支持 LUN 的备份。

2. 支持一致性组的备份。

华为 OceanStor Dorado V3 全闪存存储系统

品技术白皮书(中国区企业版本)

6 云灾备 Cloud 特性

3. 支持恢复到原 LUN 或已经存在的其它 LUN。

4. 支持恢复到原 LUN 一致性组或已经存在的其它 LUN 一致性组。

5. 支持备份数据压缩减少备份到云时的备份带宽要求,减少备份存储消耗。

6. 支持备份断点续传,在备份到云时,网络故障情况下可以避免大量数据的重复传

输。

7. 支持基于 HEC 的 DES(Data Express Service)服务的离线传输备份,将备份数据先

备份至 DES 服务的 Teleport 设备,再线下运输设备到 HEC 离企业最近的数据中心导入

备份数据到指定的 OBS S3 桶,然后继续进行后续的增量备份,提升了首次备份传输效

率。

备份数据流及原理介绍:

步骤 1:对需要备份的 LUN 创建只读快照(如果是 LUN 一致性组,则创建只读快照

一致性组);

步骤 2:CloudBackup 读取只读快照的数据,传输到指定的本地 NAS 共享目录中,或

者传输到远端公有云的对象存储中;对于 LUN 一致性组,则会读取只读快照一致性组

中每个只读快照的数据。

读取数据的过程中,会比对本地备份只读快照与上次备份只读快照之间的差异,

CloudBackup 仅仅会将差异数据备份传输到备份存储。

恢复数据流及原理介绍:

华为 OceanStor Dorado V3 全闪存存储系统

品技术白皮书(中国区企业版本)

6 云灾备 Cloud 特性

步骤 1:选中恢复所需的备份映像(对一个 LUN 或 LUN 一致性组进行一次备份产生

的数据集合成为备份映像,一个 LUN 或 LUN 一致性组会有多个不同时间点的备份映

像),注意该备份映像可以是远端公有云中的备份映像,也可以是本地 NAS 备份存储

中的备份映像;

步骤 2:选中需要恢复的 LUN 或 LUN 一致性组;

步骤 3:执行恢复。恢复的过程中,CloudBackup 会从本地 NAS 备份存储或远端公有云

存储中,将指定备份映像数据读出,并写到 LUN 或 LUN 一致性组的成员 LUN 中。

特性亮点:

1. 无需购置外置备份服务器即可实现数据备份;

2. 支持备份上云,结合 BCManager 以及 CSBS 可以实现数据快速恢复或支持客户对

源 LUN 数据进行云中测试、分析等业务;

3. 支持数据备份到线下的 NAS 和对象存储。

华为 OceanStor Dorado V3 全闪存存储系统

品技术白皮书(中国区企业版本)

7 系统安全和数据加密

7

7.1 系统数据加密(Data Encryption)

7.2 基于角色的访问控制管理

系统安全和数据加密

7.1 系统数据加密(Data Encryption)

华为 OceanStor Dorado V3 全闪存存储系统支持数据加密特性,通过配置 SED 和内置

密管,和存储系统配合完成数据静态加密,从而保证数据的安全性。

内置密管:存储系统自带的密钥管理应用,对密钥进行生命周期管理,包括密钥

分层保护、密钥备份、密钥恢复、密钥产生、密钥更新、密钥销毁。内置密管具

有易部署、易配置、易管理的特点;如果数据中心的密钥管理仅用于存储系统,

且无需通过密码模块安全标准认证,建议选择内置密管。

SED 加密硬盘:SED 具备两层安全保护,分别使用 AK(authentication key)和

DEK(data encryption key)两个安全密钥。

AK:身份认证密钥,初始化硬盘时用于身份认证的密钥。

DEK:数据加密密钥,SED 读写时用户加解密数据的密钥。

AK 认证原理:当在华为 OceanStor Dorado V3 全闪存存储系统上打开硬盘加密特

性时,存储会打开加密硬盘的 AutoLock 功能,并使用由 Key Manager 分配的 AK

控制对加密硬盘的访问。此时访问已由 SED 的 AutoLock 功能进行保护,只能由

存储系统本身访问。硬盘每次接入时,需要存储系统从密管服务器获取硬盘的

AK,如果与硬盘上的 AK 匹配,硬盘就将加密后的 DEK 解密,用于数据加解

密。如果 AK 与硬盘上的 AK 不匹配,则任何读写操作都将失败。

DEK 加密技术原理:当硬盘成功通过 Autolock 认证后,对硬盘进行读写时,硬盘通过

自身的加密芯片和内部的数据密钥(Data Entrypt Key)完成写入数据加密和读取数据解

密的功能。用户下发写操作时,明文数据通过 AES 加密引擎的 DEK 加密,变成加密数

据,然后被写入介质。用户下发读操作时,在介质中的加密数据通过 AES 加密引擎的

DEK 解密,被还原成明文数据取出。DEK 本身无法获取,意味着硬盘被拆除

后,通过直接读取的方式无法还原原始信息。

华为 OceanStor Dorado V3 全闪存存储系统

品技术白皮书(中国区企业版本)

7 系统安全和数据加密

7.2 基于角色的访问控制管理

华为 OceanStor Dorado V3 全闪存存储系统支持基于角色的访问控制管理,对登录的用

户做身份认证和鉴权。角色可以分为系统预置的默认角色和用户自定义角色两种。

默认角色

表7-1 系统默认角色权限

默认角色

超级管理员

管理员

安全管理员

网络管理员

SAN 资源管理员

数据保护管理员

备份管理员

权限

拥有系统的所有权限。

拥有除用户管理和安全配置权限外的其他权限

拥有系统的安全配置权限,包括安全规则管证书管理、

审计管理、KMC 管理。

拥有系统网络管理权限,包括物理端口管理、逻辑端口

管理、VLAN 管理、漂移组管理。

拥有系统 SAN 资源管理权限,包括存储池管理、LUN

管理、映射视图管理、主机管理、端口管理。

拥有数据保护管理权限,包括本地数据保护管理、远端

数据保护管理、双活管理。

拥有数据备份管理权限,包括本地数据保护管理、映射

视图管理。

自定义角色:系统支持用户依据自己的要求,进行权限的自定义。用户选择创建

角色,选择角色需要的功能权限和对象权限。

华为 OceanStor Dorado V3 全闪存存储系统

品技术白皮书(中国区企业版本)

8 系统管理及兼容性

8

8.1 系统管理

8.2 生态集成及兼容性

系统管理及兼容性

8.1 系统管理

Dorado V3 提供设备管理接口和北向集成管理接口。设备管理包括:图形界面管理Device

Manager 和字符界面 CLI;北向接口以 Restful 为主,支持 SMI-S、SNMP、配套评估工

具以及一系列的第三方网管系统插件,详细参考产品的兼容性清单。

8.1.1 Device Manager

Device Manager 是华为 OceanStor 系统存储通用的图形化管理系统,是通过一个 Web页

面来实施的。GUI 客户端使用标准的 http 协议与 Dorado V3 系统进行通信。 GUI 可提

供易于使用的工具,用以执行大部分系统操作(特定的管理操作必须使用 CLI 来执行)。

8.1.2 CLI

系统的命令行界面 (CLI) 允许管理员和其他系统用户执行受支持的管理操作。为了便

于从远程主机编写脚本,也可以定义基于密钥的 SSH 用户访问权限,不需要将密码存

储在脚本中,并允许远程 CLI 访问。

8.1.3 Call Home 服务

传统的服务支持方式为全人工本地服务,在故障发现环节,技术服务人员面临着问题

发现不及时、信息传递不到位的挑战。Call Home,是华为 IT 产品的远程维护专家系

统,通过在设备与华为技术支持中心之间建立安全、可控的网络连接,使得华为能够

7*24 小时全天候监控客户的设备健康状态。当设备出现故障时,可以将故障信息及时

自动回传到华为技术支持中心,缩短了故障发现和处理的时间,满足了企业当前的迫切

需求。

在 Device Manager 上开启 Call Home 服务后,设备内预装的 eService Agent 将定期自动

进行信息采集并回传华为技术支持中心,用户需确保设备可通过网络连接到华为技术支

持中心(支持 HTTP 代理)。

华为 OceanStor Dorado V3 全闪存存储系统

品技术白皮书(中国区企业版本)

8 系统管理及兼容性

采集信息范围包括:

设备性能统计数据

设备运行数据

设备告警数据

所有数据均以文本方式通过 HTTPS 协议消息回传华为技术支持中心,回传记录支

持发送到 Syslog 服务器以备安全审计。因网络连接断开,导致数据无法及时回传时,

设备会保存最近一天的未上传数据文件(单控制器最大 5M),待网络恢复时再回传。

未上传文件支持通过 CLI 命令导出,作为故障定位等用途。

通过主动采集信息并回传华为技术支持中心后,可为用户提供以下能力:

告警主动监控。7*24 小时全天候监控客户的设备告警,设备发生告警后 1 分

钟内自动通知华为技术支持中心,并自动进行建单,分派给相应的工程师进行

处理。从而,及时帮助客户发现和解决问题。

通过大数据分析技术,结合全球设备故障库,可实现问题预防,故障快速定

位和恢复。

通过总结行业和应用的 Workload 模型,给出设备最优配置及性能调优建议。

8.1.4 Restful API

Dorado V3 的 Restful API 允许基于 HTTPS 的接口用于系统的自动化、编制、查询和调

配。借助 API,可以使用第三方应用程序来控制和完全管理阵列。因此,它使我们可以

开发灵活的管理解决方案用于 Dorado V3 阵列。

8.1.5 SNMP

SNMP 接口提供告警事件等上报,对接北向的设备管理。

8.1.6 SMI-S

SMI-S 接口提供硬件和业务配置能力,对接北向的设备管理。

8.1.7 配套工具

Dorado V3 提供了丰富的工具用于售前评估和售后简化交付,这些工具通过如下界面展

示:WEB、SmartKit、DeviceManager、SystemReporter、eService。这些工具有效、快

捷地支撑了用户部署、监控、分析、维护 OceanStor Dorado V3 系统。

8.2 生态集成及兼容性

8.2.1 VVol(Virtual Volumes)

OceanStor Dorado V3 支持 VVol 1.0。新增 PE(Protocol Endpoint) LUN、VVol LUN、

VVOL SNAP 等对象,其中,Vvol 对象支持级联快照、差异位图、LUN 数据拷贝等功

能。虚拟机快速部署时,需要先对模板创建 VVol 快照,然后对 VVol 快照继续创建快照,

达到快速生成多份相同数据映像的虚拟机,从而达到虚拟机的快速部署。

华为 OceanStor Dorado V3 全闪存存储系统

品技术白皮书(中国区企业版本)

8 系统管理及兼容性

虚拟机带快照进行克隆时,可以由主机或者阵列来完成数据的拷贝。在主机进行虚拟机

数据拷贝时,通过查询出 VVol 对象存放有数据的区域,进行全量拷贝。之后查询出快

照和虚拟机之间的差异进行差异拷贝。由阵列进行 VVol 对象数据拷贝时,通过使用阵

列提供的全量拷贝和差异拷贝能力,由阵列直接查询需要拷贝的数据后,将虚拟机的数

据拷贝到另外一个虚拟机上,数据拷贝可以在不同控制器,不同控制框,不同Pool 之间

进行。

VMware 通过 VASA Provider 插件感知并使用这些能力,达到虚拟机快速部署,迁移或

者克隆的目的,解决传统阵列必须多个虚拟机存放在一个大 LUN 中,不能对单个虚拟机

进行精细话管理的难题。

一个虚拟机存放在多个 VVol LUN 中,VMware 可以对单个虚拟机进行流控策略配置、

克隆、迁移等操作,并由存储阵列直接完成这些数据迁移操作,不占用主机带宽,极大

的提升虚拟机的管理效率。

8.2.2 OpenStack 集成

OceanStor DoradoV3 系列存储系统会随着 Openstack 社区的更新,同步发布 OceanStor

DoradoV3 系列存储系统对应的 Openstack Cinder Driver 到社区。OpenStack 的商业版本

厂家,可以到 OpenStack 的社区获取 OceanStor DoradoV3 系列存储系统对应的

Openstack Cinder Driver 集成到 OpenStack 产品产品中,实现其 OpenStack 相关产品对

OceanStor DoradoV3 系列存储系统的支持。

OceanStor DoradoV3 系列存储系统提供了 OpenStack Juno、Kilo、Liberty 和 Mitaka 共

4 个版本的 OpenStack Cinder Driver。 此外,OceanStor DoradoV3 系列存储系统除提供

了 4 个版本的 OpenStack Cinder Driver 外,还支持商业版本的 OpenStack 产品,主要支

持 Huawei FusionSphere OpenStack、Red Hat OpenStack Platform、Mirantis OpenStack

等。

8.2.3 虚拟机环境插件

OceanStor Dorado V3 系列存储系统支持,详细虚拟平台支持的版本兼容性网站

/ready/pages/user/compatibility/:

8.2.4 主机兼容性

OceanStor DoradoV3 系列存储系统支持主流的主机组件,包括操作系统、虚拟化、

HBA、卷管理、集群软件等。针对于主流数据库软件所支持的操作系统以及虚拟机环

境均进行了范围加强支持,详细虚拟平台支持的版本兼容性网站 support-

/ready/pages/user/compatibility/。

此处仅列出了主要的主机兼容性信息,详细 OceanStor DoradoV3 系列存储系统的兼容性信息请

在如下网站查询:/ready/。

华为 OceanStor Dorado V3 全闪存存储系统

品技术白皮书(中国区企业版本)

9 最佳实践

9

应用最佳实践一览表

最佳实践

通过对重点行业重点客户的长期关注及需求收集整理,华为总结出重点行业客户的典

型高性能存储业务应用场景以及客户当前面临的问题与挑战,并和对应的应用提供商

提供联合认证测试的最佳实践案例。

产品更多的最佳实践信息,请查看 /cn/products/cloud-computing-

dc/storage/unified-storage/dorado-v3 中应用领域的最佳实践材料信息

华为 OceanStor Dorado V3 全闪存存储系统

品技术白皮书(中国区企业版本)

10 更多参考信息

10

更多参考信息

/cn/products/cloud-computing-dc/storage

售后问题请登录我们技术支持网站:

/enterprise/ 售

前问题请登录以下网站:

/cn/how-to-buy/contact-us

您也可以联系当地华为办事处:

更多参考信息

您可以在我们的全闪存存储系统 Dorado V3 主页上获取更多关于 Dorado V3 的信息:

/cn/products/cloud-computing-dc/storage/unified-storage/dorado-v3

您也可以访问我们存储官方网站来获取更多关于华为存储的信息:

当地办事处联系方式请查阅:/cn/branch-office

华为 OceanStor Dorado V3 全闪存存储系统

品技术白皮书(中国区企业版本)

11 如何反馈意见

11

如何反馈意见

我们欢迎您帮助改进我们的技术文档。

storagedoc@

如何反馈意见

您可以通过发送电子邮件到以下邮箱来反馈您的改进意见。

您的意见将被技术白皮书写作团队认真审视和考虑,我们将把必要的改动和更新发布

到下一版本的技术文档中。

华为 OceanStor Dorado V3 全闪存存储系统

品技术白皮书(中国区企业版本)

12 缩略语

12

缩略语

缩略表

英文缩写

FlashLink

®

CK

CKG

DIF

FC

FTL

GC

SSD

LUN

OLAP

OLTP

OP

RAID

RAID-TP

SAS

SCSI

SSD

T10 PI

英文全称

FlashLink

®

Chunk

Chunk Group

Data Integrity Field

Fiber Channel

FLASH Translation Layer

Garbage Collection

Solid State Disk

Logical Unit Number

On-Line Analytical Processing

On-Line Transaction Processing

Over-Provisioning

Redundant Array of Independent Disks

Redundant Array of Independent Disks-

Triple Parity

Serial Attached SCSI

Small Computer System Interface

Solid State Disk

T10 Protection Information

中文全称

数据块

数据块组

缩略语

盘控配合技术

数据完整性字段

光纤通道

FLASH 转换层

垃圾回收

固态硬盘

逻辑单元号

联机分析处理系统

联机事务处理系统

预留空间

独立磁盘冗余阵列

独立磁盘冗余阵列-3 盘冗

串行 SCSI

小型计算机系统接口

固态硬盘

T10 数据保护信息

华为 OceanStor Dorado V3 全闪存存储系统

品技术白皮书(中国区企业版本)

12 缩略语

英文缩写

VDI

VSI

WA

Wear Leveling

TCO

DC

英文全称

Virtual Desktop Infrastructure

Virtual Server Infrastructure

Write amplification

Wear Leveling

Total Cost of Ownership

Data Center

中文全称

虚拟桌面架构

服务器虚拟化架构

写入放大

磨损均衡

总体拥有成本

数据中心


本文标签: 数据 系统 快照