admin 管理员组

文章数量: 887018


2024年3月26日发(作者:linux操作系统心得体会)

ParaStor300S

并行分布式云存储系统

新一代自主研发的海量非结构化数据存储

EB

级共享空间

3~4096节点

单一命名空间

按需分配,在线扩容

多种访问协议

Linux POSIX

NFS/CIFS/FTP

S3

多款硬件平台

2U12、4U24、4U36

SATA/SAS/SSD混插

智能存储策略

SSD读缓存加速

细粒度配额管理

多重数据保护

2~4副本

N+M:b纠删码

快照

全冗余设计,无单点故障

简易运维管理

多套集群统一管理

资源、状态实时监控

邮件、短信、SNMP告警

页码:1 版本V1.6 2019-7

信息技术的发展带来数据的爆炸性增长,毋庸置疑,我们已经全面跨入大

数据时代,PB规模的非结构化数据越来越常见,如何有效地管理这些数据,并

进一步发掘数据价值,已成为IT管理者所必须重视的问题。同时大数据4V特

性也对存储系统的大容量、高性能、易扩展、易用性等提出了更高要求。传统

SAN

NAS

存储架构已经难以满足海量数据的密集型

I/O并发访问需求。

ParaStor300S并行分布式云存储系统,是在曙光公司近10年来海量数据

存储与处理的基础之上,针对大数据时代的特点,全新设计并全面优化的高端

存储系统。

产品定位

集群文件/对象统一存储

基于曙光完全自主研发的并行分布式软件ParaStor构建的集群存储系统,对外

统一提供多种存储协议:

提供文件存储服务,包括Linux POSIX、NFS、SMB、FTP等,满足Windows、

Linux、Unix等异构平台的不同访问需求;

提供对象存储服务,兼容Amazon S3接口,满足云生态的应用需求。

特别地,同一集群可以同时提供文件/对象接口,访问方式更为灵活。

Scale-Out横向扩展的并行架构

基于服务器构建的并行分布式存储系统,对外提供单一的命名空间。支持

3~4096节点的弹性无缝扩展,单一存储空间容量可扩展至EB级。

具备超强的横向扩展能力,只需简单地增加存储节点,即可获得更大的存储容

量和更多的数据通道,从而获得更高的系统聚合带宽和I/O性能。

面向海量非结构化数据存储场景

ParaStor300S并行分布式云存储系统适用于存在数据共享需求的多种应用领

域,如高性能计算、生物信息、气象预报、环境监测分析、地震监测、能源勘

探、卫星遥感、视频监控、媒资管理、视频编辑处理等,可以广泛应用于政府、

教育、科研、医疗、石油、广电、企业等行业。

ParaStor300S 并行分布式云存储系统

系统架构

应用协议层

NFS

Windows

ParaStor300S并行分布式云存储系统(下文简称为ParaStor300S)的整体逻辑架构如图 1所示:

UNIX/LINUX

CIFSFTPPOSIXS3

协议管理

数据处理层

数据管理数据保护

磁盘管理子系统

存储策略

WebUI

管理

ParaStor 分布式文件系统

硬件节点层

NodeNode

NodeNode

…...…...

NodeNode

NodeNode

NodeNode

…...…...

NodeNode

存储节点池存储节点池

图 1 系统架构

ParaStor300S基于服务器构建,多个节点构成硬件资源池;数据处理层将硬件资源池统一管理,对外提供单一

的命名空间;通过POSIX、集群NAS(NFS、CIFS、FTP)、S3等协议供上层应用访问。

ParaStor 分布式文件系统是数据处理层的核心软件,自下而上包含多个子模块,分别包括:

⚫ 磁盘管理:全新设计的本地对象管理系统,负责管理物理介质并通过抽象简化向上层调用者提供通用的访问

接口;

数据管理:有效管理元数据、数据,整合存储资源,对外提供统一的存储空间;

数据保护:对数据提供跨磁盘、跨节点、不同级别、不同维度的冗余保护,保障系统的高可用性;

存储策略:SSD读缓存加速、配额管理等;

协议管理:并行处理所有客户端的数据访问请求;

WebUI管理:提供统一的控制管理界面,用以管理整个存储系统。

ParaStor300S默认采用全对称架构,存储节点角色相同,最小3个节点起配,最大支持4096个节点。多个存

储节点构成节点池,同一节点池中的OStor配置相同。

(ParaStor300S也可以部署成非对称架构,元数据节点和数据节点相互分离)

技术特点

单一命名空间,多协议并发访问

全局单一命名空间可以为用户构建EB级容量的虚拟存储池,所有客户端可以在同一个命名空间下共享访问所有

的数据,可以简化海量数据管理的复杂性。

ParaStor300S架构中,存储节点构成节点池,同一节点池划分为多个存储池,将物理资源进行统一管理和池化,

页码:2 版本V1.6 2019-7

ParaStor300S 并行分布式云存储系统

在存储池的基础上再次划分为不同存储卷(文件系统),实现多层级细粒度的资源管理方式。

ParaStor300S对外支持多种存储访问协议:

⚫ POSIX:提供符合标准POSIX语义的文件系统接口,是ParaStor300S提供的内核态的Linux私有客户端访问

协议,一般适用于高速网络的高性能计算应用领域。

⚫ 集群NAS:通用的网络文件系统接口,支持NFS、CIFS/SMB、FTP;业务客户端无需安装任何代理程序,按

照标准协议挂载后,即可访问;使用简单便捷,适用于绝大多数的非结构化数据共享的场景。

S3:兼容Amazon S3访问接口,适用于对象接口应用场景。

同一集群可以同时提供POSIX、集群NAS、S3对象接口,满足前端不同的业务应用。

性能卓越,线性增长

ParaStor300S是一款基于对象的分布式集群系统,数据切片成固定大小的对象,条带化地分布到多个存储节点

的多个磁盘上,提供并发的传输通道实现并行的I/O访问,有效地提高了存储系统的读写带宽和IOPS。同时系统聚

合性能随着节点规模的增加而线性增长,消除传统的Scale-up纵向扩展存储架构的性能局限性。

除此之外,ParaStor300S通过多项技术进一步提升性能:

内部高速互联:集群内部网络采用高速网络,基于高速传输协议,获得更高的带宽、更低的延迟。

内核态POSIX协议:在高性能应用领域中,可以采用内核态的私有客户端协议,并发访问能力更强。

SSD Cache:存储节点配置一定数量的SSD,作为本地节点的二级读缓存,提升数据随机访问性能。

全冗余架构,稳定可靠

可靠性是存储系统的基本要求,尤其对于中大规模的分布式系统,稳健性更是重中之重。ParaStor300S采用冗

余架构设计,从部件、网络、节点、数据冗余等各个层面保证数据的安全性及系统的稳健性。

⚫ 部件可靠性

ParaStor300S基于曙光服务器构建,选用的是曙光当前阶段最为成熟、稳定且市占率很高的硬件产品,主要部

件均是冗余配置,单个部件的故障不会影响整个节点的正常运行。同时ParaStor300S系统的WebUI管理界面

集成了部件的监控功能,部件发生故障,将给出准确的告警信息,便于用户及时定位维护。

⚫ 系统可靠性

支持4096个节点大规模部署,4个机柜故障情况下不影响存储系统正常运行且数据不丢失。

⚫ 网络可靠性

存储系统采用冗余网络拓扑,任一链路发生故障,均不影响系统的正常服务。

⚫ 节点可靠性

所有节点并行提供服务,在冗余规则之内发生节点故障,不影响存储服务。

⚫ 数据冗余

ParaStor300S支持多副本、EC纠删码两种数据冗余方式,可以针对节点池设置不同的冗余策略,保障数据一

致性。上传对象时支持MD5/SHA256一致性校验,下盘后的数据支持静默数据扫描。具体支持的EC纠删码模

式为N+M:b,其中M表示存储系统允许任意故障的磁盘数,b代表存储系统允许任意故障的节点数。如6个存

储节点,可以配置8+2:1数据冗余方式,空间利用率可达80%。

快照管理

页码:3 版本V1.6 2019-7

ParaStor300S 并行分布式云存储系统

ParaStor300S支持基于文件/目录的快照技术,针对同一文件或目录创建多个时间点的文件映像,实现对快照目

录/文件的内容保留。通过快照回滚,恢复特定时间点的数据。

单一集群内文件快照数量最多支持20000个;支持对于目录的嵌套快照,并具有丰富的快照管理策略,支持按

照每天、每周、每月、每年的粒度设置定期策略;

快照作为一种备份容灾技术,可以进一步保证用户的数据安全。

SSD Cache

SSD相较于机械硬盘,带宽及响应时间有着明显的优势,并且容量远大于普通内存。将SSD作为缓存资源,可

以显著降低存储系统的响应时间,有效提高数据的访问频率。

ParaStor300S系统中,存储节点配置一定数量的SSD,组成介于HDD与内存之间的二级本地缓存池。

当SSD作为读缓存时,利用SSD盘对随机小文件读取速度快的特点,通过智能算法将访问频度高的随机小文

件热点数据存放到SSD上,应用程序再次访问该数据时,可以直接从SSD上获取。由于SSD盘的数据读取速度远

远高于机械硬盘,因此可以显著缩短热点数据的响应时间,从而提升系统的性能。

统一管理,简易运维

提供基于Web的图形化监控管理界面,提供系统配置管理、监控告警等功能,直观易懂的图形化界面方便用户

实时监控系统的状态,简化了安装和维护过程,提高了管理效率。

同一Web界面可以管理多套ParaStor300S,便于多集群的统一运维。

技术规格

产品名称

系统架构

ParaStor300S并行分布式云存储系统

分布式集群架构,Scale-Out横向扩展

单一集群支持3~4096个节点;支持节点、硬盘在线动态添加和安全移除;数

动态扩展

据自动迁移,保证各存储节点容量和性能的负载均衡

支持Linux POSIX文件系统接口,Linux(2.6.32以上内核版本的Linux) x86_64

支持NFS协议

访问接口 存储协议 支持CIFS协议

支持FTP协议

兼容Amazon S3访问接口

系统功能 配额 支持对文件系统/目录的配额

系统架构

页码:4 版本V1.6 2019-7

ParaStor300S 并行分布式云存储系统

支持对用户/组的配额

支持针对容量、文件数设置统计配额(仅监控使用情况)、限制配额(可设置

软配额/硬配额)

支持对存储CPU利用率、内存利用率、带宽、IOPS统计;支持性能统计

性能

支持集群、节点、硬盘、网口监控分析、趋势分析,支持集群容量趋势预测

支持NIS,Microsoft Active Directory,LDAP

权限管理

支持ACL高级权限管理

存储节点的NAS连接支持基于连接数、轮询、带宽、CPU使用率等方式的

负载均衡

负载均衡

SSD Cache SSD作为二级读缓存,加速本地存储节点的数据读访问请求,提升系统性能

支持基于文件/目录的快照技术,针对同一文件或目录创建多个时间点的文件

快照

映像,实现对快照目录/文件的内容保留

纠删码:N+M:b,最大支持任意4个数据控制器或者任意4块磁盘同时失效,

空间利用率最高可达94%

数据保护模式

副本:Replication(2X-4X),最大支持任意3个数据控制器或者任意3块磁

盘同时失效,适用于虚拟化、海量小文件等场景

节点分区:允许不同节点分区中同时失效N+M:b或者是Replication规则允

可靠性

许失效的最大节点数和硬盘数

故障域隔离

硬盘分组:对同一个节点分区中的硬盘进行横向分组,允许不同硬盘组中同

时失效N+M:b或者是Replication规则允许失效的硬盘数

支持10GE以太网、IB等网络组网,保障分布式存储高性能。配置独立分布

网络

式存储内部数据交换网。可支持共用交换机简化组网,支持通过VLAN方式

页码:5 版本V1.6 2019-7

ParaStor300S 并行分布式云存储系统

进行逻辑隔离。组网支持全冗余部署,无单点故障

支持磁盘健康管理功能,支持定期检测磁盘SMART信息,判断磁盘健康情

监控检测 况(例:硬盘扇区重映射数超过限制、读错误率统计、慢盘等),支持磁盘损坏

前进行隔离并告警

磁盘巡检 智能感知磁盘的状态,精准预测磁盘故障,并自动纠错或主动处理

硬盘或节点失效可自动触发数据重构,重构过程无需管理员干预,数据恢复

数据重构

优先级可动态调整。数据重构速度快,60分钟内可完成1TB数据重构。

统一管理

安装部署

状态监控

管理运维

性能监控

信息查询 支持对系统及各节点状态、性能、资源信息进行查询

支持对系统软硬件故障和系统服务状态异常进行告警,除界面告警以外,支

告警

持Email、短信、SNMP等方式,支持空间使用率超阈值告警

支持对系统总体性能、资源进行监控,以及各节点的性能、资源进行监控

同一Web界面可以集中管理多套存储系统,最多支持64套

支持集中式配置与部署,在Web界面可实现存储系统的在线升级

支持对系统总体状态进行监控,支持对各节点和服务状态进行监控

页码:6 版本V1.6 2019-7

ParaStor300S 并行分布式云存储系统

产品型号

ParaStor300S型号包含OStor-H30-212、OStor-H30-424、OStor-H30-436,具体描述如下:

高性能X86处理器

≥64GB Cache

提供12个3.5”热插拔硬盘槽位,可以兼容2.5”

OStor-H30-212 建议至少配置1块480GB SSD作为元数据盘,其余为SSD Cache或数据盘

电源:1+1冗余电源

内嵌高性能数据存取引擎,用于并行处理所有客户端的数据访问请求,内嵌高性能数

据恢复引擎,支持节点间纠删码(N+M:b)/副本(Replication)数据冗余方式

高性能X86处理器

≥64GB Cache

ParaStor

300S OStor-H30-424

提供24个3.5”热插拔硬盘槽位,可以兼容2.5”

建议至少配置1块480GB SSD作为元数据盘,其余为SSD Cache或数据盘

电源:1+1冗余电源

内嵌高性能数据存取引擎,用于并行处理所有客户端的数据访问请求,内嵌高性能数

据恢复引擎,支持节点间纠删码(N+M:b)/副本(Replication)数据冗余方式

高性能X86处理器

≥64GB Cache

提供36个3.5”热插拔硬盘槽位,可以兼容2.5”

OStor-H30-436

建议至少配置1块480GB SSD作为元数据盘,其余为SSD Cache或数据盘

电源:1+1冗余电源

内嵌高性能数据存取引擎,用于并行处理所有客户端的数据访问请求,内嵌高性能数

页码:7 版本V1.6 2019-7

ParaStor300S 并行分布式云存储系统

据恢复引擎,支持节点间纠删码(N+M:b)/副本(Replication)数据冗余方式

页码:8 版本V1.6 2019-7


本文标签: 数据 节点 支持 访问