admin 管理员组

文章数量: 887629


2024年3月6日发(作者:accesstoken过期解决方案)

存储基础知识DAS、SAN、NAS详解说明

目前磁盘存储市场上,存储分类(如下表一)根据服务器类型分为:封闭系统的存储和开放系统的存储,封闭系统主要指大型机,AS400等服务器,开放系统指基于包括Windows、UNIX、Linux等操作系统的服务器;开放系统的存储分为:内置存储和外挂存储;开放系统的外挂存储根据连接的方式分为:直连式存储(Direct-Attached Storage,简称DAS)和网络化存储(Fabric-Attached Storage,简称FAS);开放系统的网络化存储根据传输协议又分为:网络接入存储(Network-Attached Storage,简称NAS)和存储区域网络(Storage Area Network,简称SAN)。由于目前绝大部分用户采用的是开放系统,其外挂存储占有目前磁盘存储市场的70%以上,因此本文主要针对开放系统的外挂存储进行论述说明。

表一:

存储入门:图文阐释DAS、NAS、SAN(图一)

今天的存储解决方案主要为:直连式存储(DAS)、存储区域网络(SAN)、网络接入存储(NAS)。如下表二:

1

存储入门:图文阐释DAS、NAS、SAN(图二)

开放系统的直连式存储(Direct-Attached Storage,简称DAS)已经有近四十年的使用历史,随着用户数据的不断增长,尤其是数百GB以上时,其在备份、恢复、扩展、灾备等方面的问题变得日益困扰系统管理员。

主要问题和不足为:

直连式存储依赖服务器主机操作系统进行数据的IO读写和存储维护管理,数据备份和恢复要求占用服务器主机资源(包括CPU、系统IO等),数据流需要回流主机再到服务器连接着的磁带机(库),数据备份通常占用服务器主机资源20-30%,因此许多企业用户的日常数据备份常常在深夜或业务系统不繁忙时进行,以免影响正常业务系统的运行。直连式存储的数据量越大,备份和恢复的时间就越长,对服务器硬件的依赖性和影响就越大。

直连式存储与服务器主机之间的连接通道通常采用SCSI连接,带宽为10MB/s、20MB/s、40MB/s、80MB/s等,随着服务器CPU的处理能力越来越强,存储硬盘空间越来越大,阵列的硬盘数量越来越多,SCSI通道将会成为IO瓶颈;服务器主机SCSI ID资源有限,能够建立的SCSI通道连接有限。

无论直连式存储还是服务器主机的扩展,从一台服务器扩展为多台服务器组成的群集(Cluster),或存储阵列容量的扩展,都会造成业务系统的停机,从而给企业带来经济损失,对于银行、电信、传媒等行业7×24小时服务的关键业务系统,这是不可接受的。并且直连式存储或服务器主机的升级扩展,只能由原设备厂商提供,往往受原设备厂商限制。

存储区域网络(Storage Area Network,简称SAN)采用光纤通道(Fibre Channel)技术,通过光纤通道交换机连接存储阵列和服务器主机,建立专用于数据存储的区域网络。SAN经过十多年历史的发展,已经相当成熟,成为业界的事实标准(但各个厂商的光纤交换技术不

2

完全相同,其服务器和SAN存储有兼容性的要求)。SAN娲⒉捎玫拇?宽??00MB/s、200MB/s,发展到目前的1Gbps、2Gbps。

网络接入存储(Network-Attached Storage,简称NAS)采用网络(TCP/IP、ATM、FDDI)技术,通过网络交换机连接存储系统和服务器主机,建立专用于数据存储的存储私网。随着IP网络技术的发展,网络接入存储(NAS)技术发生质的飞跃。早期80年代末到90年代初的10Mbps带宽,网络接入存储作为文件服务器存储,性能受带宽影响;后来快速以太网(100Mbps)、VLAN虚网、Trunk(Ethernet Channel) 以太网通道的出现,网络接入存储的读写性能得到改善;1998年千兆以太网(1000Mbps)的出现和投入商用,为网络接入存储(NAS)带来质的变化和市场广泛认可。由于网络接入存储采用TCP/IP网络进行数据交换,TCP/IP是IT业界的标准协议,不同厂商的产品(服务器、交换机、NAS存储)只要满足协议标准就能够实现互连互通,无兼容性的要求;并且2002年万兆以太网(10000Mbps)的出现和投入商用,存储网络带宽将大大提高NAS存储的性能。NAS需求旺盛已经成为事实。首先NAS几乎继承了磁盘列阵的所有优点,可以将设备通过标准的网络拓扑结构连接,摆脱了服务器和异构化构架的桎梏;其次,在企业数据量飞速膨胀中,SAN、大型磁带库、磁盘柜等产品虽然都是很好的存储解决方案,但他们那高贵的身份和复杂的操作是资金和技术实力有限的中小企业无论如何也不能接受的。NAS正是满足这种需求的产品,在解决足够的存储和扩展空间的同时,还提供极高的性价比。因此,无论是从适用性还是TCO的角度来说,NAS自然成为多数企业,尤其是大中小企业的最佳选择。

NAS与SAN的分析与比较

针对I/O是整个网络系统效率低下的瓶颈问题,专家们提出了许多种解决办法。其中抓住症结并经过实践检验为最有效的办法是:将数据从通用的应用服务器中分离出来以简化存储管理。

存储入门:图文阐释DAS、NAS、SAN(图三)

由图1可知原来存在的问题:每个新的应用服务器都要有它自己的存储器。这样造成数据处理复杂,随着应用服务器的不断增加,网络系统效率会急剧下降。

3

存储入门:图文阐释DAS、NAS、SAN(图四)

从图2可看出:将存储器从应用服务器中分离出来,进行集中管理。这就是所说的存储网络(Storage Networks)。

使用存储网络的好处:

统一性:形散神不散,在逻辑上是完全一体的。

实现数据集中管理,因为它们才是企业真正的命脉。

容易扩充,即收缩性很强。

具有容错功能,整个网络无单点故障。

专家们针对这一办法又采取了两种不同的实现手段,即NAS(Network Attached Storage)网络接入存储和SAN(Storage Area Networks)存储区域网络。

NAS:用户通过TCP/IP协议访问数据,采用业界标准文件共享协议如:NFS、HTTP、CIFS实现共享。

SAN:通过专用光纤通道交换机访问数据,采用SCSI、FC-AL接口。

什么是NAS和SAN的根本不同点?

NAS和SAN最本质的不同就是文件管理系统在哪里。如图:

存储入门:图文阐释DAS、NAS、SAN(图五)

4

由图3可以看出,SAN结构中,文件管理系统(FS)还是分别在每一个应用服务器上;而NAS则是每个应用服务器通过网络共享协议(如:NFS、CIFS)使用同一个文件管理系统。换句话说:NAS和SAN存储系统的区别是NAS有自己的文件系统管理。

NAS是将目光集中在应用、用户和文件以及它们共享的数据上。SAN是将目光集中在磁盘、磁带以及联接它们的可靠的基础结构。将来从桌面系统到数据集中管理到存储设备的全面解决方案将是NAS加SAN。

存储基础知识一 主要技术DAS、SAN、NAS

2009-10-09 17:31:12

标签:存储 DAS SAN NAS [推送到技术圈]

一、直接附加存储(DAS)

DAS(Direct Attached Storage—直接附加存储)是指将存储设备通过SCSI线缆或光纤通道直接连接到服务器上。一个SCSI环路或称为SCSI通道可以挂载最多16台设备,FC可以在仲裁环的方式下支持126个设备。

DAS方式实现了机内存储到存储子系统的跨越,但是缺点依然有很多:

1、扩展性差,服务器与存储设备直接连接的方式导致出现新的应用需求时,只能为新增的服务器单独配置存储设备,造成重复投资。

2、资源利用率低,DAS方式的存储长期来看存储空间无法充分利用,存在浪费。不同的应用服务器面对的存储数据量是不一致的,同时业务发展的状况也决定这存储数据量的变化。因此,出现了部分应用对应的存储空间不够用,另一些却有大量的存储空间闲置。

3、可管理性差,DAS方式数据依然是分散的,不同的应用各有一套存储设备。管理分散,无法集中。

4、异构化严重,DAS方式使得企业在不同阶段采购了不同型号不同厂商的存储设备,设备之间异构化现象严重,导致维护成本据高不下。

博客温国:DAS,直接连接服务器,每台服务器连接一个存储设备,浪费资源,管理分散,异构化严重。

二、存储区域网络(SAN)

SAN(Storage Aera Network )存储区域网络,是一种通过网络方式连接存储设备和应用服务器的存储构架,这个网络专用于主机和存储设备之间的访问。当有数据的存取需求时,数据可以通过存储区域网络在服务器和后台存储设备之间高速传输。

SAN的发展历程较短,从90年代后期兴起,由于当时以太网的带宽有限,而FC协议在当时就可以支持1Gb的带宽,因此早期的SAN存储系统多数由FC存储设备构成,导致很多用户误以为SAN就是光纤通道设备,其实SAN代表的是一种专用于存储的网络架构,与协议和设备类型无关,随着千兆以太网的普及和万兆以太网的实现,人们对于SAN的理解将更为全面。

5

SAN的组成:SAN由服务器、后端存储系统、SAN连接设备。后端存储系统由SAN控制器和磁盘系统构成,控制器是后端存储系统的关键,它提供存储接入,数据操作及备份,数据共享、数据快照等数据安全管理,及系统管理等一系列功能。后端存储系统为SAN解决方案提供了存储空间。使用磁盘阵列和RAID策略为数据提供存储空间和安全保护措施。连接设备包括交换机,HBA卡和各种介质的连接线。

SAN的优点:

1、设备整合,多台服务器可以通过存储网络同时访问后端存储系统,不必为每台服务器单独购买存储设备,降低存储设备异构化程度,减轻维护工作量,降低维护费用;

2、数据集中,不同应用和服务器的数据实现了物理上的集中,空间调整和数据复制等工作可以在一台设备上完成,大大提高了存储资源利用率;

3、高扩展性,存储网络架构使得服务器可以方便的接入现有SAN环境,较好的适应应用变化的需求;

4、总体拥有成本低,存储设备的整合和数据集中管理,大大降低了重复投资率和长期管理维护成本。

博客温国:这种架构意味着可以服务器共享存储系统,降低异构化,成本降低,数据集中便于维护,提高存储资源利用率。

三、网络附加存储(NAS)

NAS(Network Attached Storage—网络附加存储),是一种文件共享服务。拥有自己的文件系统,通过NFS或CIFS对外提供文件访问服务。

NAS包括存储器件(例如硬盘驱动器阵列、CD或DVD驱动器、磁带驱动器或可移动的存储介质)和专用服务器。专用服务器上装有专门的操作系统,通常是简化的unix/linux操作系统,或者是一个特殊的win2000内核。它为文件系统管理和访问做了专门的优化。专用服务器利用NFS或CIFS,充当远程文件服务器,对外提供文件级的访问。

NAS的优点:

1、NAS可以即插即用。

2、NAS通过TCP/IP网络连接到应用服务器,因此可以基于已有的企业网络方便连接。

3、专用的操作系统支持不同的文件系统,提供不同操作系统的文件共享。

经过优化的文件系统提高了文件的访问效率,也支持相应的网络协议。即使应用服务器不再工作了,仍然可以读出数据。

NAS的缺点:

1、NAS设备与客户机通过企业网进行连接,因此数据备份或存储过程中会占用网络的带宽。这必然会影响企业内部网络上的其他网络应用;共用网络带宽成为限制NAS性能的主要问题。

2、NAS的可扩展性受到设备大小的限制。增加另一台NAS设备非常容易,但是要想将两个NAS设备的存储空间无缝合并并不容易,因为NAS设备通常具有独特的网络标识符,存储空间的扩大上有限。

3、NAS访问需要经过文件系统格式转换,所以是以文件一级来访问。不适和Block级的应用,尤其是要求使用裸设备的数据库系统。

6

博客温国:基于文件系统的共享是存储,结构上并行应用服务器的一台存储服务器,(走以太网,但经过文件系统格式转换。)

四、SAN和NAS

SAN和NAS经常被视为两种竞争技术,实际上,二者能够很好地相互补充,以提供对不同类型数据的访问。SAN针对海量、面向数据块的数据传输,而NAS则提供文件级的数据访问和共享服务。尽管这两种技术类似,但严格意义上讲NAS其实只是一种文件服务。NAS和SAN不仅各有应用场合,也相互结合,许多SAN部署于NAS后台,为NAS设备提供高性能海量存储空间。

NAS和SAN结合中出现了NAS网关这个部件。NAS网关主要由专为提供文件服务而优化的操作系统和相关硬件组成,可以看作是一个专门的文件管理器。NAS网关连接到后端上的SAN上,使的SAN的大容量存储空间可以为NAS所用。因此,NAS网关后面的存储空间可以根据环境的需求扩展到非常大的容量。 “NAS网关”方案主要是在NAS一端增加了可与SAN相连的“接口”,系统对外只有一个用户接口。NAS网关系统虽然在一定程度上解决了NAS与SAN系统的存储设备级的共享问题,但在文件级的共享问题上却与传统的NAS系统遇到了同样的可扩展性问题。当一个文件系统负载很大时,NAS网关很可能成为系统的瓶颈。

博客温国:NAS可以通过NAS网关接到后端的SAN网络,实行结合运用。

存储基础知识二 主要协议SCSI、FC、iSCSI

2009-10-09 17:32:12

标签:存储 SCSI FC iSCSI [推送到技术圈]

一、SCSI

SCSI是小型计算机系统接口(Small Computer System Interface)的简称,于1979首次提出,是为小型机研制的一种接口技术,现在已完全普及到了小型机,高低端服务器以及普通PC上。

SCSI可以划分为SCSI-1、SCSI-2、SCSI-3,最新的为SCSI-3,也是目前应用最广泛的SCSI版本。

1、SCSI-1:1979年提出,支持同步和异步SCSI外围设备;支持7台8位的外围设备,最大数据传输速度为5MB/s。

2、SCSI-2:1992年提出,也称为Fast SCSI,数据传输率提高到20MB/s。

3、SCSI-3:1995年提出,Ultra SCSI(Fast-20)。Ultra 2 SCSI(Fast-40)出现于1997年,最高传输速率可达80MB/s。1998年9月,Ultra 3 SCSI(Utra 160 SCSI)正式发布,最高数据传输率为160MB/s。Ultra 320 SCSI的最高数据传输率已经达到了320MB/s。

二、FC(光纤通道)

7

FC光纤通道:用于计算机设备之间数据传输,传输率达到2G(将来会达到4G)。光纤通道用于服务器共享存储设备的连接,存储控制器和驱动器之间的内部连接。

协议基本架构:

FC-4 Upper Layer Protocol:SCSI,HIPPI,SBCCS,802.2,ATM,VI,IP

FC-3 common service

FC-2 Framing Protocol /Flow Control

FC-1 Encode/Decode

FC-0 Media:Optical or copper,100MB/sec to 1.062GB/sec

协议层说明:

FC-0:物理层,定制了不同介质,传输距离,信号机制标准,也定义了光纤和铜线接口

以及电缆指标

FC-1:定义编码和解码的标准

FC-2:定义了帧、流控制、和服务质量等

FC-3:定义了常用服务,如数据加密和压缩

FC-4:协议映射层,定义了光纤通道和上层应用之间的接口,上层应用比如:串行SCSI 协

议,HBA 的驱动提供了FC-4 的接口函数,FC-4 支持多协议,如:FCP-SCSI, FC-IP,FC-VI

协议简介:

FCP-SCSI:是将SCSI并行接口转化为串行接口方式的协议,应用于存储系统和服务器之间的数据传输。新的ANSI T10 标准,支持SAN 上存储系统之间通过数据迁移应用来直接移动数据。 FCP-SCSI 提供200MB/s(全双工独占带宽)的传输速率,每连接最远达10 公里,最大16000000 个节点。FCP-SCSI 使用帧传输取代块传输。帧传输以大数据流传输方式传输短的小的事务数据。

三、iSCSI

iSCSI(互联网小型计算机系统接口)是一种在TCP/IP上进行数据块传输的标准。它是由Cisco和IBM两家发起的,并且得到了各大存储厂商的大力支持。iSCSI可以实现在IP网络上运行SCSI协议,使其能够在诸如高速千兆以太网上进行快速的数据存取备份操作。

iSCSI标准在2003年2月11日由IETF(互联网工程任务组)认证通过。iSCSI继承了两大最传统技术:SCSI和TCP/IP协议。这为iSCSI的发展奠定了坚实的基础。基于iSCSI的存储系统只需要不多的投资便可实现SAN存储功能,甚至直接利用现有的TCP/IP网络。相对于以往的网络存储技术,它解决了开放性、容量、传输速度、兼容性、安全性等问题,其优越的性能使其备受始关注与青睐。

工作流程:

iSCSI系统由SCSI适配器发送一个SCSI命令。

命令封装到TCP/IP包中并送入到以太网络。

接收方从TCP/IP包中抽取SCSI命令并执行相关操作。

把返回的SCSI命令和数据封装到TCP/IP包中,将它们发回到发送方。

8

系统提取出数据或命令,并把它们传回SCSI子系统。

安全性描述:

iSCSI协议本身提供了QoS及安全特性。

可以限制initiator仅向target列表中的目标发登录请求,再由target确认并返回响应,之后才允许通信。

通过IPSec将数据包加密之后传输,包括数据完整性、确定性及机密性检测等。

iSCSI的优势:

(1)广泛分布的以太网为iSCSI的部署提供了基础。

(2)千兆/万兆以太网的普及为iSCSI提供了更大的运行带宽。

(3)以太网知识的普及为基于iSCSI技术的存储技术提供了大量的管理人才。

(4)由于基于TCP/IP网络,完全解决数据远程复制(Data Replication)及灾难恢复(Disaster Recover)等传输距离上的难题。

(5)得益于以太网设备的价格优势和TCP/IP网络的开放性和便利的管理性,设备扩充和应用调整的成本付出小。

四、iSCSI和FC的比较

从传输层看,光纤通道的传输采用其FC协议,iSCSI采用TCP/IP协议。

FC协议与现有的以太网是完全异构的,两者不能相互接驳。因此光纤通道是具有封闭性的,而且不仅与现有的企业内部网络(以太网)接入,也与其他不同厂商的光纤通道网络接入(由于厂家对FC标准的理解的异样,FC设备的兼容性是一个巨大的难题)。因此,对于以后存储网络的扩展由于兼容性的问题而成为了难题。而且,FC协议由于其协议特性,网络建完后,加入新的存储子网时,必须要重新配置整个网络,这也是FC网络扩展的障碍。

iSCSI基于的TCP/IP协议,它本身就运行于以太网之上,因此可以和现有的企业内部以太网无缝结合。TCP/IP网络设备之间的兼容性已经无需讨论,迅猛发展的internent网上运行着全球无数家网络设备厂商提供的网络设备,这是一个最好的佐证。

从网络管理的角度看,运行FC协议的光网络,其技术难度相当之大。其管理采用了专有的软件,因此需要专门的管理人员,且其培训费用高昂。TCP/IP网络的知识通过这些年的普及,已有大量的网络管理人才,并且,由于支持TCP/IP的设备对协议的支持一致性好,即使是不同厂家的设备,其网络管理方法也是基本一致的。

FC运行于光网络之上,其速度是非常快的,现在已经达到了2G的带宽,这也是它的主要优势所在。下一代的FC标准正在制定当中,其速度可以达到4G,今天的千兆以太网已经在普及当中,这也是基于TCP/IP的iSCSI协议进入实用的保证。得益于优秀的设计,以太网从诞生到现在,遍及了所有有网络的地方,到现在依然表现出非凡的生命力,在全球无数网络厂商的共同努力下,以太网的速度稳步提升,千兆网络已经实际应用,万兆网络呼之欲出,以太网的主要部件交换机路由器均已有万兆级别的产品。随着产品的不断丰富,以及设备厂商间的剧烈竞争,其建设成本在不断下降,万兆网络的普及已日益临近。当iSCSI以10Gb的高速传输数据时,基于iSCSI协议的存储技术将无可争议的成为网络存储的王者。

9

什么是“SCSI”硬盘

2009-10-09 13:09:06

标签:SCSI [推送到技术圈]

为了使硬盘能够适应大数据量、超长工作时间的工作环境,服务器一般采用高速、稳定、安全的SCSI硬盘。

现在的硬盘从接口方面分,可分为IDE硬盘与SCSI硬盘(目前还有一些支持PCMCIA接口、IEEE 1394接口、SATA接口、USB接口和FC-AL(FibreChannel-Arbitrated Loop)光纤通道接口的产品,但相对来说非常少);IDE硬盘即我们日常所用的硬盘,它由于价格便宜而性能也不差,因此在PC上得到了广泛的应用。

目前个人电脑上使用的硬盘绝大多数均为此类型硬盘。另一类硬盘就是SCSI硬盘了(SCSI即Small Computer System Interface小型计算机系统接口),由于其性能好,因此在服务器上普遍均采用此类硬盘产品,但同时它的价格也不菲,所以在普通PC上不常看到SCSI的踪影。

同普通PC机的硬盘相比,服务器上使用的硬盘具有如下四个特点。

1、速度快

服务器使用的硬盘转速快,可以达到每分钟7200或10000转,甚至更高;它还配置了较大(一般为2MB或4MB)的回写式缓存;平均访问时间比较短;外部传输率和内部传输率更高,采用Ultra Wide SCSI、Ultra2 Wide SCSI、Ultra160 SCSI、Ultra320 SCSI等标准的SCSI硬盘,每秒的数据传输率分别可以达到40MB、80MB、160MB、320MB。

2、可靠性高

因为服务器硬盘几乎是24小时不停地运转,承受着巨大的工作量。可以说,硬盘如果出了问题,后果不堪设想。所以,现在的硬盘都采用了S.M.A.R.T技术(自监测、分析和报告技术),同时硬盘厂商都采用了各自独有的先进技术来保证数据的安全。为了避免意外的损失,服务器硬盘一般都能承受300G到1000G的冲击力。

3、多使用SCSI接口

多数服务器采用了数据吞吐量大、CPU占有率极低的SCSI硬盘。SCSI硬盘必须通过SCSI接口才能使用,有的服务器主板集成了SCSI接口,有的安有专用的SCSI接口卡,一块SCSI接口卡可以接7个SCSI设备,这是IDE接口所不能比拟的。

4、可支持热插拔

热插拔(Hot Swap)是一些服务器支持的硬盘安装方式,可以在服务器不停机的情况下,拔出或

10

插入一块硬盘,操作系统自动识别硬盘的改动。这种技术对于24小时不间断运行的服务器来说,是非常必要的。

我们衡量一款服务器硬盘的性能时,主要应该参看以下指标:

主轴转速

主轴转速是一个在硬盘的所有指标中除了容量之外,最应该引人注目的性能参数,也是决定硬盘内部传输速度和持续传输速度的第一决定因素。如今硬盘的转速多为5400rpm、7200rpm、10000rpm和15000rpm。从目前的情况来看,10000rpm的SCSI硬盘具有性价比高的优势,是目前硬盘的主流,而7200rpm及其以下级别的硬盘在逐步淡出硬盘市场。

内部传输率

内部传输率的高低才是评价一个硬盘整体性能的决定性因素。硬盘数据传输率分为内外部传输率;通常称外部传输率也为突发数据传输率(Burstdata Transfer Rate)或接口传输率,指从硬盘的缓存中向外输出数据的速度。

目前采用Ultra 160 SCSI技术的外部传输率已经达到了160MB/s;内部传输率也称最大或最小持续传输率(Sustained Transfer Rate),是指硬盘在盘片上读写数据的速度,现在的主流硬盘大多在30MB/s到60MB/s之间。由于硬盘的内部传输率要小于外部传输率,所以只有内部传输率才可以作为衡量硬盘性能的真正标准。

存储教程:FC SAN存储网络

2009-10-09 12:49:47

标签:FC SAN [推送到技术圈]

Storage Area Network SAN存储区域网是指独立于服务器网络系统之外的高速光纤存储网络,这种网络采用高速光纤通道作为传输体, 以SCSI-3协议作为存储访问协议.将存储系统网络化,实现真正的高速共享存储。

随着Internet和网络技术的飞速发展,现代信息系统的数据呈爆炸式增长,数据的安全性和作业的连续性较之硬件设备本身更加重要,高速数据访问和平滑简单的扩容要求日益迫切。以前的存储技术只是将存储设备作为服务器的一个附属设备,服务器之间的大容量数据交换只能依赖传统的网络,在速度,安全性,跨平台共享,无限扩容等方面都无法适应IT技术发展的要求。SAN技术就是在这种情况下应运而生的。

技术特点

先进:光纤通道(Fibre Channel)SCSI 技术是SAN技术的物理基础。 Fibre Channel采用高频(1GHz)串行位(Bit)传送,单环速度可达100-200Mbyte/s(相当于Gigabit),双环共用可达到200-400Mbyte/s。每个环可挂接126个SCSI设备,不加中继时最远距离可达10Km。而且有很大的继续发展空间。传统的SCSI总线电缆因受制于电子技术和电气物理特性的限制,在速度(20-160MB/s),容量(每条总线8-16个SCSI设备),距离(1.5-25米)等方面都已近极限.

11

高效:Fibre Channel采用FC-AL仲裁环机制,使用Token(令牌)的方式进行仲裁,其效率远较传统Ethernet的CSMA/CD为高;另外,SAN的网络协议为SCSI-3,在数据流的包/桢结构上,其效率远较TCP/IP为高。安全:SAN不仅保留了传统的RAID,HA,Cluster等安全措施 ,而且提供了双环冗余,远程备份等新的安全手段。齐备:基于Fibre Channel的交换及接入设备,如Switch,Hub,Bridge等,以及基于SAN技术的各种管理及应用软件完全成熟并在国内外已有大量实际应用案例 。

巨大优势

1,基于千兆位的存储带宽,更适合大容量数据高速处理的要求

2,完善的存储网络管理机制,对所有存储设备,如磁盘阵列,磁带库等进行灵活管理及在线监测

3,将存储设备与主机的点对点的简单附属关系升华为全局多主机动态共享的模式

4,实现 LANfree, 数据的传输,复制,迁移,备份等在SAN网内高速进行,不需占用 WAN/LAN的网络资源

5,灵活的平滑扩容能力

6,兼容以前的各种SCSI存储设备

SAN全面突破了传统存储技术的局限性,将网络管理的概念引入到存储管理中,将存储技术带入了一片全新的天地。SAN不仅是存储技术简单的升级,而是存储技术发展过程中的一次重大革命,其应用和发展不可限量。 SAN技术面向大容量数据多服务器的高速处理,包括高速访问,安全存储,数据共享,数据备份,数据迁移,容灾恢复等各个层面,对电信,视频,Internet

ICP/ISP,石油,测绘,金融,气象,图书资料管理,军事,电台等行业应用有重要的实用价值。

什么是SAN

2008-05-28 22:36:45

标签:SAN 存储 设备 处理器 [推送到技术圈]

什么是SAN

12

SAN的一个概念是允许存储设备和处理器(服务器)之间建立直接的高速网络(与LAN相比)连接,通过这种连接实现只受光纤线路长度限制的集中式存储。SAN可以被看作是存储总线概念的一个扩展,它使用局域网(LAN)和广域网(WAN)中类似的单元,实现存储设备和服务器之间的互连。这些单元包括:路由器、集线器、交换机和网关。

SAN可在服务器间共享,也可以为某一服务器所专有,既可以是本地的存储设备也可以扩展到地理区域上的其他地方。SAN的接口可以是企业系统连接(ESCON)、小型计算机系统接口(SCSI)、串行存储结构(SSA)、高性能并行接口(HIPPI)、光纤通道(FC)或任何新的物理连接方法。

SAN的另一个定义是:它是一个集中式管理的高速存储网络,由多供应商存储系统、存储管理软件、应用程序服务器和网络硬件组成,能够帮助您充分利用您所拥有的商业信息的价值。

由于SAN的基础是存储接口,所以是与传统网络不同的一种网络,常常被称为服务器后面的网络。SAN可被用来绕过传统网络的瓶颈,它通过以下三种方式支持服务器与存储设备之间的直接高速数据传输:

服务器到存储设备:这是服务器与存储设备之间的传统的相互作用模式,其优点在于多个服务器可以串行或并行地访问同一个存储设备。

服务器到服务器:SAN可用于服务器之间的高速大容量数据通信。

存储设备到存储设备:通过这种外部数据传输能力,可以在不需要服务器参与的情况下传输数据,从而使服务器周期能更多地用于其他活动如应用程序处理等。这样的例子还包括磁盘设备不需服务器参与就可以将数据备份到磁带设备上,以及跨SAN的远程设备镜像操作。

SAN 包括:

SAN服务器:服务器基础结构是所有SAN解决方案的前提,这种基础结构是多种服务器平台的混合体,包括Windows NT、不同风格的UNIX和OS/390。由于服务器整合和电子商务的推动,对SAN的需求将不断增长。

SAN存储:存储基础结构是信息所依赖的基础,因此它必须支持公司的商业目标和商业模式。在这种情况下,仅仅使用更多和更快的存储设备是不够的,需要建立一种新的基础结构。和今天的基础结构相比,这种新的基础结构应该能够提供更好的网络可用性、数据访问性和系统管理性。SAN就是为了迎接这一挑战应运而生的,它解放了存储设备,使其不依赖于特定的服务器总线,而且将其直接接入网络。换句话说,存储被外部化,其功能分散在整个组织内部。SAN还支持存储设备的集中化和服务器群集,使其管理更加容易,费用更加低廉。

SAN互连:实现SAN需要考虑的第一个要素是,通过光纤通道之类的技术实现存储和服务器组件的连通性。以下所列的组件是实现LAN和WAN所使用的典型组件。与LAN一样,SAN通过存储接口的互连形成很多网络配置,并能够跨越很长的距离。

----线缆和连接器

----扩展器: 扩展器用来连接超过理论最大值的超长距离节点。

----集线器: 通过集线器,一个逻辑环路上可以连接多达126个节点。

----路由器: 存储路由是由数据通信领域的路由概念发展而来的一种新技术。存储路由器与网络路由器的不同在于,存储路由器数据的路由选择使用的是FCP(SCSI)之类的存储协议,而不是TCP/IP之类的通信协议。

----网桥: 网桥的作用是使LAN/SAN能够与使用不同协议的其它网络通信。

----网关: 网关是网络上用来连接两个或更多网络或设备的站点,可能执行也可能不执行协议转换。网关产品通常用来实现LAN到WAN的访问,通过网关,SAN可以延伸并越过WAN。

----交换机: 交换机是用于连接大量设备、增加带宽、减少阻塞和提供高吞吐量的一种高性能设备。

SAN管理:为充分利用SAN在性能、可用性、成本、扩展性和互操作性方面的多种优势和功能,

13

SAN的基础结构(交换机、路由器等)和它所连接的存储系统必须得到有效的管理。为简化SAN管理,SAN供应商需要调整简单网络管理协议(SNMP)、Web企业管理(WBEM)和企业存储资源管理(ESRM)标准,用以不间断地通过中央控制台监视和管理所有SAN的组件,另外,从中央控制台管理SAN的分区也是需要的。其中,遇到的最大挑战是确保所有的组件是可以互操作的,并且能够和不同的管理软件包合作。它包括:

----资产管理: 资产管理负责资源发现、资源认可和资源安置,其输出结果是资产的库存列表,包括生产商、型号信息、软件信息和许可证信息等。

----容量管理: 容量管理规划SAN的大小,例如所需交换机的大小和数量。它还负责获取以下信息:未用空间/插槽、未分配卷、已分配卷的自由空间、备份数目、磁带数目、利用率、自由临时设备的百分比等。

----配置管理: 配置管理根据要求提供以下信息:当前逻辑和物理配置数据、端口利用数据,以及设备驱动器数据等,它可以根据高可用性和连接性的商业要求配置SAN。配置管理在需要时会要求将存储资源的配置与服务器中的逻辑视图结合起来。例如,任何人配置了企业存储服务器都会影响该服务器的最终配置。

----性能管理: 性能管理在需要时会要求改进SAN的性能,而且会在所有级别上执行问题解决方案--设备硬件和软件接口级、应用程序级、甚至文件级。这种方式要求所有SAN解决方案都遵守公共的、不依赖于平台的访问标准。

----可用性管理: 可用性管理负责预防故障、在问题发生时对其加以纠正、对重要事件在其发展到致命之前提出告警。例如,如果发生了路径错误,可用性管理功能会确定是一个连接故障还是其它部件故障,然后分配另一条路径,通知工程师修复故障部件,并在整个过程中维持系统的运行。

存储基础知识三 文件系统

2009-10-09 17:32:58

标签:存储 文件系统 [推送到技术圈]

一、概述

文件系统定义了把文件存储于磁盘时所必须的数据结构及磁盘数据的管理方式。我们知道,磁盘是由很多个扇区(Sector)组成的,如果扇区之间不建立任何的关系,写入其中的文件就无法访问,因为无法知道文件从哪个扇区开始,文件占多少个扇区,文件有什么属性。为了访问磁盘中的数据,就必需在扇区之间建立联系,也就是需要一种逻辑上的数据存储结构。建立这种逻辑结构就是文件系统要做的事情,在磁盘上建立文件系统的过程通常称为“格式化”。

以Windows平台下最常见的FAT文件系统为例。FAT文件系统有两个重要的组成部分:FAT表(File Allocation Table)和数据存储区。FAT表是FAT文件系统的名称来源,它定义了存储数据的簇(Cluster,由2的n次方个Sector组成,n值根据分区大小而定,需综合考虑数据存取效率和存储空间的利用率)之间的链接关系,这种链接关系是一个单向链表,指向0xFF表示结束。依据一个簇编号所用bit数的不同,可分为FAT12、FAT16和FAT32文件系统。数据区存储的数据包含文件目录项(Directory Entries)和文件数据。文件目录项存储的是一个文件或目录的属性信息,包括文件名称(把目录也看成是文件)、读写属性、文件大小、创建时间、起始簇编号等,一个目录下的每个子目录和文件都对应一个表项记录。文件目录项以固定3

14

2字节的长度存储,以树型结构管理,其中根目录的位置是确定的。也就是说,根据分区根目录可以找到下级子目录和文件的起始簇编号,根据下级子目录又可以找到更下级目录或文件的起始簇编号。可见,FAT表和文件目录项是为了文件的访问和管理而建立的。应用程序要访问一个文件时,根据文件路径(逻辑分区号+目录,如F:software)和文件名称(如)可从文件目录项中获得存储文件数据的起始簇号,之后从FAT表查询这个簇号对应的链表,就可以获得该文件对应的全部簇编号。从这些簇中读出全部数据,就得到一个完整的文件。

一般来说,文件系统是和操作系统紧密结合在一起的,不同的操作系统使用不同的文件系统,但有时为了兼容,不同操作系统也使用相同的文件系统。

二、主流文件系统特点

在Windows系列操作系统中,MS-DOS和Windows 3.x使用FAT16文件系统,默认情况下Windows 98也使用FAT16,Windows 98和Windows Me可以同时支持FAT16、FAT32两种文件系统,Windows NT则支持FAT16、NTFS两种文件系统,Windows 2000可以支持FAT16、FAT32、NTFS三种文件系统.每一种文件系统提供的功能与特点各不相同。比如FAT32文件系统。,采用32位的文件分配表,磁盘的管理能力大为增强。但由于文件分配表的增大,性能相对来说有所下降。此外,这个版本的文件系统不能向下兼容。

NTFS是随着 Windows NT操作系统而产生的,它的优点和FAT文件系统相比是有更好的安全性和稳定性,在使用中不易产生文件碎片,NTFS分区对用户权限作出了非常严格的限制,同时它还提供了容错结构日志,从而保护了系统的安全。但NTFS分区格式的兼容性不好,Windows 98/ME操作系统均不能直接访问该分区。对于超过4GB以上的硬盘,使用NTFS分区,可以减少磁盘碎片的数量,大大提高硬盘的利用率;NTFS可以支持的文件大小可以达到64GB,远远大于FAT32下的4GB;支持长文件名,支持的最大分区为 2TB。

在Linux系统中,每个分区都是一个文件系统,都有自己的目录层次结构。Linux的最重要特征之一就是支持多种文件系统,并可以和许多其它种操作系统共存。随着Linux的不断发展,它所支持的文件格式系统也在迅速扩充。特别是Linux 2.4内核正式推出后,出现了大量新的文件系统。Linux系统可以支持十多种文件系统类型包括:JFS、 ext、ext2、ext3、ISO9660、XFS、Minx、MSDOS、UMSDOS、VFAT、NTFS、HPFS、NFS、SMB、SysV、PROC等。

操作系统 文件系统 特点

Windows 95、Windows 98、OSR2、Windows 98 SE、Windows Me、Windows 2000和Windows XP Fat文件系统

FAT12/FAT16和FAT32 可以允许多种操作系统访问,如MS-DOS、Windows 3.x、Windows 9x、Windows NT和OS/2等。这一文件系统在使用时遵循8.3命名规则(即文件名最多为8个字符,扩展名为3个字符)。最大的限制在于兼容性方面,Fat32不能保持向下兼容。当分区小于512M时,Fat32不会发生作用。单个文件不能大于4G。

Windows NT/2000 NTFS文件系统 支持文件系统故障恢复,尤其是大存储媒体、长文件名。分区大小可以达到2TB。通过使用标准的事物处理日志和恢复技术来保证分区的一致性。只能被Windows NT/2000所识别,不能被FAT文件系统所存取。

Windows longhorn Winfs 用以组织、搜索和共享多种多样的信息的存储平台。WinFS被设计为在无结构文件和数据库数据之间建立起更好的互操作性,从而提供快捷的文件浏览和搜索功

15

能。

Linux Ext2/ ext3/ XFS等文件系统 是一种日志式文件系统。日志式文件系统的优越性在于:由于文件系统都有快取层参与运作,如不使用时必须将文件系统卸下,以便将快取层的资料写回磁盘中。因此每当系统要关机时,必须将其所有的文件系统全部卸下后才能进行关机。

UNIX 系统 NFS 网络文件系统,允许多台计算机之间共享文件系统,易于从所有这些计算机存放文件。

Windows 系列 CIFS 网络文件系统,允许多台计算机之间共享文件系统,易于从所有这些计算机存放文件。

AIX JFS 具有可伸缩性和健壮性,与非日志文件系统相比,它的优点是其快速重启能力:Jfs

能够在几秒或几分钟内就把文件系统恢复到一致状态。为满足服务器(从单处理器系统到高级多处理器和群集系统)的高吞吐量和可靠性需求而设计的。使用数据库日志处理技术,jsf 能在几秒或几分钟之内把文件系统恢复到一致状态。

Solaris Vxfs 日志式文件系统.建立文件的索引区,将操作记录在事件日志中,当系统发生意外时,能让系统迅速、完全地得到恢复。提供文件系统的照相功能,保证了数据的在线备份,提供文件系统的在线扩展,并提高了I/O吞吐率。

三、NFS和CIFS网络文件系统

NFS (Network File System,网络文件系统)是当前主流异构平台共享文件系统之一.主要应用在UNIX环境下。 最早是由SUN microsystem开发,现在能够支持在不同类型的系统之间通过网络进行文件共享,广泛应用在FreeBSD、SCO、Solaris等等异构操作系统平台,

允许一个系统在网络上与它人共享目录和文件。通过使用NFS,用户和程序可以象访问本地文件一样访问远端系统上的文件,使得每个计算机的节点能够像使用本地资源一样方便地使用网上资源。换言之,NFS 可用于不同类型计算机、操作系统、网络架构和传输协议运行环境中的网络文件远程访问和共享。

NFS的工作原理是使用客户端/服务器架构,由一个客户端程序和服务器程序组成。服务器程序向其它计算机提供对文件系统的访问,其过程就叫做“输出”。NFS 客户端程序对共享文件系统进行访问时,把它们从 NFS 服务器中“输送”出来。文件通常以“块” 为单位进行传输. 其尺寸是

8K (虽然它可能会将操作分成更小尺寸的分片).NFS 传输协议用于服务器和客户机之间文件访问和共享的通信,从而使客户机远程地访问保存在存储设备上的数据。

CIFS(Common Internet File Syste,公共互联网文件系统)是当前主流异构平台共享文件系统之一。主要应用在NT/Windows环境下,是由Microsoft公司开发。其工作原理是让CIFS协议运行于TCP/IP通信协议之上,让Unix计算机可以在网络邻居上被Windows计算机看到。

共享文件系统特点:

1、异构平台下的文件共享:不同平台下的多个客户端可以很容易的共享NAS中的同一个文件。

2、充分利用现有的LAN网络结构,保护现有投资。

3、容易安装,使用和管理都很方便,实现即插即用。

4、广泛的连接性:由于基于IP/Ethernet以及标准的NFS和CIFS,可以适应复杂的网络环境。

16

5、内部资源的整合:可以将内部的磁盘整合成一个统一的存储池,以卷的方式提供给不同的用户,每一个卷可以格式化成不同的文件系统。

6、允许应用进程打开一个远地文件,并能够在该文件的某一个特定的位置上开始读写数据。NFS 可使用户只复制一个大文件中的一个很小的片段,而不需复制整个大文件,在网络上传送的只是少量的修改数据。

需要注意的是,CIFS和NFS虽然同样也是文件系统(File System),但它并不能用于在磁盘中存储和管理数据,它定义的是通过TCP/IP网络传输文件时的文件组织格式和数据传输方式。利用CIFS和NFS共享文件实际涉及到两次的文件系统转换。客户端从服务器端申请一个文件时,服务器端首先从本地读出文件(本地文件系统格式),并以NFS/CIFS的格式封装成IP报文并发送给客户端。客户端收到IP报文以后,把文件存储与本地磁盘中(本地文件系统格式)。

四、存储系统与文件系统

提到NAS,通常会想到传统的NAS设备,它具有自己的文件系统,具有较大的存储容量,具有一定的文件管理和服务功能。NAS设备和客户端之间通过IP网络连接,基于NFS/CIFS协议在不同平台之间共享文件,数据的传输以文件为组织单位。虽然NAS设备常被认为是一种存储架构,但NAS设备最核心的东西实际上在存储之外,那就是文件管理服务。从功能上来看,传统NAS设备就是一个带有DAS存储的文件服务器。从数据的IO路径来看,它的数据IO发生在NAS设备内部,这种架构与DAS毫无分别。而事实上,很多NAS设备内部的文件服务模块与磁盘之间是通过SCSI总线连接的。至于通过NFS/CIFS共享文件,完全属于高层协议通信,根本就不在数据IO路径上,所以数据的传输不可能以块来组织。正是由于这种功能上的重叠,在SAN出现以后,NAS头设备(或NAS网关)逐渐发展起来,NAS over SAN的方案越来越多,NAS回归了其文件服务的本质。

由此可知,NAS与一般的应用主机在网络层次上的位置是相同的,为了在磁盘中存储数据,就必须要建立文件系统。有的NAS设备采用专有文件系统,而有的NAS设备则直接借用其操作系统支持的文件系统。由于不同的OS平台之间文件系统不兼容,所以NAS设备和客户端之间就采用通用的NFS/CIFS来共享文件。至于SAN,它提供给应用主机的就是一块未建立文件系统的“虚拟磁盘”。在上面建立什么样的文件系统,完全由主机操作系统确定。

存储基础知识(四):RAID技术(上)

2009-10-09 17:33:41

标签:存储 RAID [推送到技术圈]

一、RAID概述

RAID为廉价磁盘冗余阵列(Redundant Array of Inexpensive Disks),RAID技术将一个个单独的磁盘以不同的组合方式形成一个逻辑硬盘,从而提高了磁盘读取的性能和数据的安全性。不同的组合方式用RAID级别来标识。RAID技术是由美国加州大学伯克利分校D.A. Patterson教授在1988年提出的,作为高性能、高可靠的存储技术,在今天已经得到了广泛的应用。

17

二、RAID级别

RAID技术经过不断的发展,现在已拥有了从 RAID 0 到 5等6种明确标准级别的RAID 级别。另外,其他还有6、7、10(RAID 1与RAID 0的组合)、01(RAID 0与RAID 1的组合)、30(RAID 3与RAID 0的组合)、50(RAID 0与RAID 5的组合)等。不同RAID

级别代表着不同的存储性能、数据安全性和存储成本,下面将介绍如下RAID级别:0、1、2、3、4、5、6、01、10。

1、RAID0

RAID0也称为条带化(stripe),将数据分成一定的大小顺序的写道阵列的磁盘里,RAID0可以并行的执行读写操作,可以充分利用总线的带宽,理论上讲,一个由N个磁盘组成的RAID0系统,它的读写性能将是单个磁盘读取性能的N倍。且磁盘空间的存储效率最大(100%)RAID0有一个明显的缺点:不提供数据冗余保护,一旦数据损坏,将无法恢复。

RAID0应用于对读取性能要求较高但所存储的数据为非重要数据的情况下。

2、RAID1

RAID1成为镜像(mirror),它将数据完全一致的分别写到工作磁盘和镜像磁盘,因此它的磁盘空间利用率为50%,在数据写入时时间会有影响,但是读的时候没有任何影响,RAID0提供了最佳的数据保护,一旦工作磁盘发生故障,系统自动从镜像磁盘读取数据,不会影响用户工作。

RAID1应用于对数据保护极为重视的应用。

3、RAID2

RAID2称为纠错海明码磁盘阵列,阵列中序号为2N的磁盘(第1、2、4、6……)作为校验盘,其余的磁盘用于存放数据,磁盘数目越多,校验盘所占比率越少。RAID2在大数据存储额情况下性能很高,RAID2的实际应用很少。

4、RAID3

RAID3采用一个硬盘作为校验盘,其余磁盘作为数据盘,数据按位或字节的方式交叉的存取到各个数据盘中。不同磁盘上同一带区的数据做异或校验,并把校验值写入到校验盘中。RAID3系统在完整的情况下读取时没有任何性能上的影响,读性能与RAID0一致,却提供了数据容错能力,但是,在写时性能大为下降,因为每一次写操作,即使是改动某个数据盘上的一个数据块,也必须根据所有同一带区的数据来重新计算校验值写入到校验盘中,一个写操作包含了写入数据块,读取同一带区的数据块,计算校验值,写入校验值等操作,系统开销大为增加。

当RAID3中有数据盘出现损坏,不会影响用户读取数据,如果读取的数据块正好在损坏的磁盘上,则系统需要读取所有同一带区的数据块,然后根据校验值重新构建数据,系统性能受到影响。

18

RAID3的校验盘在系统接受大量的写操作时容易形成性能瓶颈,因而适用于有大量读操作如web系统以及信息查询等应用或持续大块数据流(例如非线性编辑)的应用。

5、RAID4

RAID4与RAID3基本一致,区别在于条带化的方式不一样,RAID4按照块的方式存放数据,所以在写操作时只涉及两块磁盘,数据盘和校验盘,提高了系统的IO性能。但面对随机的分散的写操作,单一的校验盘往往成为性能瓶颈。

6、RAID5

RAID5与RAID3的机制相似,但是数据校验的信息被均匀的分散到的阵列的各个磁盘上,这样就不存在并发写操作时的校验盘性能瓶颈。阵列的磁盘上既有数据,也有数据校验信息,数据块和对应的校验信息会存储于不同的磁盘上,当一个数据盘损坏时,系统可以根据同一带区的其他数据块和对应的校验信息来重构损坏的数据。

RAID 5可以理解为是RAID 0和RAID 1的折衷方案。RAID 5可以为系统提供数据安全保障,但保障程度要比RAID1低而磁盘空间利用率要比RAID1高。RAID 5具有和RAID 0相近似的数据读取速度,只是多了一个奇偶校验信息,写入数据的速度比对单个磁盘进行写入操作稍慢。同时由于多个数据对应一个奇偶校验信息,RAID 5的磁盘空间利用率要比RAID 1高,存储成本相对较低。

RAID5在数据盘损坏时的情况和RAID3相似,由于需要重构数据,性能会受到影响。

7、RAID6

RAID 6提供两级冗余,即阵列中的两个驱动器失败时,阵列仍然能够继续工作。一般而言,RAID 6的实现代价最高,因为RAID 6不仅要支持数据的恢复,又要支持校验的恢复,这使RAID 6控制器比其他级R A I D更复杂和更昂贵。

RAID 6的校验数据:

当对每个数据块执行写操作时,RAID 6做两个独立的校验计算,因此,它能够支持两个磁盘的失败。为了实现这个思想,目前基本上有两个已经接受的方法:(1)使用多种算法,如X O R和某种其他的函数;(2)在不同的数据分条或者磁盘上,使用排列的数据。

RAID 6的一维冗余:

RAID 6的第一种方法是用两种不同的方法计算校验数据。实现这个思想最容易的方法之一是用两个校验磁盘支持数据磁盘,第一个校验磁盘支持一种校验算法,而第二个磁盘支持另一种校验算法,使用两种算法称为P + Q校验。一维冗余是指使用另一个校验磁盘,但所包含的分块数据是相同的。例如,P校验值可能由X O R函数产生,这样,Q校验函数需要是其他的某种操作,一个很有力的侯选者是Reed Solomon误差修正编码的变体,这个误差修正编码一般用于磁盘和磁带驱动器。假如两个磁盘失败,那么,通过求解带有两个变量的方程,可以恢复两个磁盘上的数据,这是一个代数方法,可以由硬件辅助处理器加速求解。

19

8、RAID10

RAID10是RAID1和RAID0的结合,也称为RAID(0+1),先做镜像然后做条带化,既提高了系统的读写性能,有提供了数据冗余保护,RAID10的磁盘空间利用率和RAID1是一样的,为50%。RAID10适用于既有大量的数据需要存储,有对数据安全性有严格要求的领域,比如金融,证券等。

9、RAID01

RAID01也是RAID0和RAID1的结合,但它是对条带化后的数据进行镜像。但与RAID10

不同,一个磁盘的丢失等同于整个镜像条带的丢失,所以一旦镜像盘失败,则存储系统成为一个RAID-0 系统(即只有条带化)。RAID01的实际应用非常少。

存储基础知识(四):RAID技术(下)

2009-10-09 17:34:17

标签:存储 RAID [推送到技术圈]

各种RAID级别比较

在各个raid级别中,使用最广泛的是raid0,raid1,raid10,raid5。

RAID-0,将数据分成条带顺序写入一组磁盘中。RAID-0 不提供冗余功能,但是它却提供了卓越的吞吐性能,因为读写数据是在一组磁盘中的每个磁盘上同时处理的,吞吐性能远远超过单个磁盘的读写。

RAID-1,每次写操作都将分别写两份到数据盘和校验盘上,每对数据盘和校验盘成为镜像磁盘组。也可使用并发的方式来读数据时,提高吞吐性能。如果镜像磁盘组中某个磁盘出错,则数据可以从另外一块磁盘获得,而不会影响系统的性能,然后,使用一块备用磁盘将健康磁盘中的数据复制出来然后这两块磁盘又组成新的镜像组。

RAID1/0,即RAID1 与RAID0 的结合,既做镜像又做条带化,数据先镜像再做条带化。这样数据存储既保证了可靠性,又极大地提高了吞吐性能。

RAID-0/1 也是RAID0 与RAID1 的结合,但它是对条带化后的数据进行镜像。但与RAID10 不同,一个磁盘的丢失等同于整个镜像条带的丢失,所以一旦镜像盘失败,则存储系统成为一个RAID-0 系统(即只有条带化)。

RAID-5 是将数据校验循环分散到各个磁盘中,它像RAID-0 一样将数据条带化分散写到一组磁盘中,但同时它生成校验数据做为冗余和容错使用。校验磁盘包含了所有条带的数据的校验信息。RAID-5 将校验信息轮流地写入条带磁盘组的各个磁盘中,即每个磁盘上既有数据信息又同时有校验信息,RAID-5 的性能得益于数据的条带化,但是某个磁盘的失败却将引起整个系统的下降,这是因为系统将在承担读写任务的同时,重新构建和计算出失败磁盘上的数据,此时

20

要使用备用磁盘对失败磁盘的数据重建恢复整个系统的健康。

从一个普通应用来讲,要求存储系统具有良好的IO性能同时也要求对数据安全做好保护工作,所以raid10和raid5应该成为我们重点关注的对象。下面从IO性能,数据重构及对系统性能的影响,数据安全保护等方面,结合磁盘现状来分析两种技术的差异。

IO的性能:

读操作上raid10和raid5是相当的,RAID-5 在一些很小数据的写操作(如比每个条带还小的小数据)需要2 个读、2 个写,还有2 个XOR 操作,对于单个用户的写操作,在新数据应用之前必须将老的数据从校验盘中移除,整个的执行过程是这样:读出旧数据,旧数据与新数据做XOR,并创建一个即时的值,读出旧数据的校验信息,将即时值与校验数据进行XOR,最后写下新的校验信息。为了减少对系统的影响,大多数的RAID5 都读出并将整个条带(包括校验条带)写入缓存,执行2 个XOR 操作,然后发出并行写操作(通常对整个条带),即便了进行了上述优化,系统仍然需要为这种写操作进行额外的读和XOR操作。小量写操作困难使得RAID-5 技术很少应用于密集写操作的场合,如回滚字段及重做日志。当然,也可以将存储系统的条带大小定义为经常读写动作的数据大小,使之匹配,但这样会限制系统的灵活性,也不适用于企业中其它的应用。对于raid10,由于不存在数据校验,每次写操作只是单纯的执行写操作。应此在写性能上raid10要好于raid5。

数据重构:

对于raid10,当一块磁盘失效时,进行数据重构的操作只是复制一个新磁盘,如果假定磁盘的容量为250G,那么复制的数据量为250G。对于raid5的存储阵列,则需要从每块磁盘中读取数据,经过重新计算得到一块硬盘的数据量,如果raid5是以4+1的方式组建,每块磁盘的容量也为250G,那么,需要在剩余的4个磁盘中读出总共是1000G的数据量计算得出250G的数据。从这点来看,raid5在数据重构上的工作负荷和花费的时间应该远大于raid10,负荷变大将影响重构期间的性能,时间长意味再次出现数据损坏的可能性变大。

数据安全保护:

raid10系统在已有一块磁盘失效的情况下,只有出现该失效盘的对应镜像盘也失效,才会导致数据丢失。其他的磁盘失效不会出现数据丢失情况。Raid5系统在已有一块磁盘失效的情况下,只要再出现任意的一块磁盘失效,都将导致数据丢失。

从综合来看,raid10和raid5系统在出现一块磁盘失效后,进行数据重构时,raid5需耗费的时间要比raid10长,同时重构期间系统负荷上raid5要比raid10高,同时raid5出现数据丢失的可能性要比raid10高,因此,数据重构期间,raid5系统的可靠性远比raid10来的低。Raid5在磁盘空间率用率上比raid10高,raid5的空间利用率是(N-1)/ N (N为阵列的磁盘数目),而raid10的磁盘空间利用率仅为50%。但是结合磁盘来考虑,今天的硬盘厂商所生产的ATA或SATA硬盘的质量已经可以承担企业级的应用,并且,容量的增加幅度相当大,目前已经可以实现单个磁盘400G的存储容量。SCSI硬盘由于要求高转速而使用小直径盘片,容量的增加相对缓慢。ATA磁盘相对SCSI磁盘拥有成本也要小很多。

因此,在采用价格昂贵的FC或SCSI硬盘的存储系统中,对于预算有限同时数据安全性要求不高的场合可以采用RAID5方式来折中;其他应用中采用大容量的ATA或SATA硬盘结合raid10,既降低了raid10的为获得一定的存储空间必须采用双倍磁盘空间的拥有成本,又避免了r

21

aid5相对raid10的各种缺点。在企业应用中,raid10结合SATA磁盘意味着一个更好的选择。

存储基础知识(五):高可用技术

2009-10-09 17:34:55

标签:存储 双机热备份 高可用技术 双机互备份 [推送到技术圈]

一、概述

随着计算机和网络的飞速发展,计算机在各个行业的应用越来越广泛和深入。在绝大多数行业、绝大多数企业都存在一些关键的应用,这些应用必须7*24*365小时不间断运行。这些应用的主机系统一旦出现问题,轻则降低业务响应速度,严重的会导致业务中断,造成严重的后果。如何能保证业务的持续进行,已经成为影响一个公司成败的关键因素。在这样的情况下,系统的高可用性就显得尤为重要。

近年来,服务器平台的可用性在不断地提高。内存ECC(错误代码校正)及Chipkill技术(纠正及探测内存中的数据错误)、硬盘RAID技术、网络负载均衡及容错技术以及多种基于硬件的冗余设计(如硬盘子系统、风扇子系统、电源子系统等)提高了整个系统的可用性,较好的保证了业务系统的持续运行。虽然硬件技术的发展大大提高了系统的可靠性,但是,由于系统内其它核心部件(如CPU、主板、物理内存等)的故障, 应用系统在一年365天内还是可能出现44~87小时的停机时间,这就要求从更高层次、更多方面综合考虑提高系统的高可用性。

在高可用技术中,根据不同的应用环境,从性能、经济等方面考虑.主要有以下几种方法和模式:

双机热备份方式

在双机热备份方式中,主服务器运行应用,备份服务器处于空闲状态,但实时监测主服务器的运行状态。一但主服务器出现异常或故障,备份服务器立刻接管主服务器的应用。也就是目前通常所说的active/standby 方式,主要通过纯软件方式实现双机容错。

双机互备份方式

在这种方式中,没有主服务器和备份服务器之分,两台主机互为备份。主机各自运行不同应用,同时还相互监测对方状况。当任一台主机宕机时,另一台主机立即接管它的应用,以保证业务的不间断运行。也就是目前通常所说的Active/Active方式,主要通过纯软件方式实现双机容错。通常情况下,支持双机热备的软件都可以支持双机互备份方式。

群集并发存取方式

在这种方式下,多台主机一起工作,各自运行一个或几个服务。当某个主机发生故障时,运行在其上的服务就被其它主机接管。群集并发存取方式在获得高可用性的同时,也显著提高了系统整体的性能。主要的群集软件有集成了Windows群集(Windows Clustering)软件的Microsoft® Windows® Server 2003 Enterprise Edition,Veritas的cluster server和一些基

22

于Linux开发的集群管理软件,一般都支持八个以上节点的群集。

二、工作模式

双机热备份方式

所谓双机热备份就是一台主机为主服务器(Active Server),另一台主机为备份服务器(Standy Server),在系统正常情况下,主服务器为应用系统提供支持,备份服务器监视主服务器的运行情况。当主服务器出现异常,不能支持应用系统运行时,备份机主动接管工作机的工作,继续支持应用系统的运行,从而保证信息系统能够不间断的运行。此时,原来的备份服务器就成了主服务器。当原来的主服务器经过修复正常后,系统管理员通过管理命令或经由以人工或自动的方式将备份服务器的工作切换回主服务器;也可以激活监视程序,监视备份服务器的运行情况。在正常情况下,主服务器也会监视备份机的状态,当备份服务器因某种原因出现异常时,工作服务器会发出告警,提醒系统管理员解决故障,以确保主/备服务器切换的可靠性。

双机互备方式

所谓双机互备就是两台服务器均为工作机,在正常情况下,两台工作机均为应用系统提供支持,并互相监视对方的运行情况。当一台主机出现异常,不能支持应用系统正常运营时,另一主机则主动接管异常机的应用,从而保证应用系统能够不间断的运行。但是,当一台主机出现异常并被接管后,正常运行的主机的负载会随之加大,严重的情况下有可能影响到应用系统的响应速度。所以此时必须尽快修复异常机,以缩短正常机单机运行的时间。

群集并发存取方式

所谓群集(Cluster)技术就是一个域内包含多台拥有共享存储空间的服务器,各服务器通过内部局域网相互通信,群集内的任一服务器上运行的业务都可被所有的客户所使用。当一台服务器发生故障时,它所运行的应用将由其他服务器自动接管,这就实现了负载均衡和互为备份。

三、适用场合

三种工作方式,各自适合的应用场合。

双机热备方式:

适用于硬件资源充足,对应用系统有严格高可靠性要求的企业、政府、军队、重要商业网站ISP/ICP或数据库应用等用户。这些用户不仅保证主机系统能够24小时提供不间断的服务,还要求发生故障切换时,应用系统的性能和响应速度不受影响,以确保网络系统、网络服务、共享磁盘空间、共享文件系统、进程以及数据库的高速持续运转。

双机互备方式:

适用于在确保应用不间断运行的前提下,从投资的角度考虑,能充分的利用现有的硬件资源的用户。这些用户的应用要求保证业务不间断运行,但在发生故障切换时,允许一定时间内的应用性能的降低。

23

群集并发存取方式:

适用于对计算数据处理要求高的应用,其特点是实时性强、阶段性数据流量大、对应用系统有严格高可靠性要求。这种方式需要更多的硬件投资,为企业带来更大的可靠性和更多的任务能力。和前面提到的两种的高可用的计算机技术相比,群集技术并不要求所有服务器的性能相当,不同档次的服务器都可以作为群集的节点。在需要运行高负载的应用任务时,可以通过临时接入新的节点的方法,增加系统的运算和响应能力。群集技术系统可以在低成本的条件下完成大运算量的计算,具有较高的运算速度和响应能力,能够满足当今日益增长的信息服务的需求。

群集技术适用于以下场合:

1、大规模计算如基因数据的分析、气象预报、石油勘探需要极高的计算性能。

2、应用规模的发展使单个服务器难以承担负载。

3、不断增长的需求需要硬件有灵活的可扩展性。

4、关键性的业务需要可靠的容错机制。

四、对存储系统的要求

双机热备方式:系统运行时,只有主服务器与存储系统进行数据交换。当发生主机故障切换时,要求存储系统能与备份服务器快速建立数据通道,以支持业务的快速切换。

双机互备方式:系统运行时,两台主机需要同时对磁盘阵列进行读写操作,这要求存储系统具备良好的的并发读取操作和一定的负载均衡功能。

群集并发存取方式:

1、 并发处理能力

高性能群集主要依赖高性能存储以满足其强大的运算能力和数据的读写运算,但多个群集节点的数据访问是并发的、无规律的,因此就要求存储设备具有很强的处理并发数据访问能力,以使群集应用发挥最高的性能。

2、 数据共享能力

高性能群集主要利用分布在多个节点的处理器共同计算存储系统里的数据。这就对存储系统的初始容量、后期容量扩充能力提出了很高的要求。同时,多个节点的处理器能够方便地共享相关的数据,这就要求存储系统具备安全而高效的共享能力。

3、 大规模与可扩展性

随着高性能群集系统内计算节点的数量与规模、每个网络的数据容量也在扩大。因此,中央存储系统是否具备方便的升级途径和巨大的可供升级容量,就成为重要的因素。如何实现在线升级、平滑过渡、现有用户及素材的透明化处理,是存储产品必需的功能。

4、 可管理性

一是管理操作分安全级别;二是提供清晰明确的管理界面,方便操作。避免人为误操作,要求存储系统的管理界面简单明了,管理操作流程设计合理。

5、 高可用性

高性能群集的时效性很强,因此要求网络系统具有极高的可靠性。但是绝对的安全性是没有的,必要的网络故障恢复时间就显得十分重要。首先要求有较高的容错级别,例如控制器要求高可用容错,存储子系统要求容错冗余等;其次故障恢复时间要短,尽可能做到不宕机的在线恢复。

24

存储基础知识(七):数据备份与容灾

2009-10-21 10:10:39

标签:存储 备份 [推送到技术圈]

一、概述

随着企业信息化进程的不断深化,信息系统成为了支撑企业业务运行的重要平台,企业的全部业务流程都依赖于信息系统提供的服务来运作。这种统一的业务运作平台在简化业务流程,提高工作效率的同时,也带来了安全性方面的全新要求。那就是信息系统必须具备抵抗灾难的能力,具备在灾后快速恢复的能力,只有这样,才能满足企业业务连续性的需求。

在国内,尽管企业对信息系统的重要性和容灾需求早有认识,但鉴于适用技术、方案成本等多方面原因,容灾系统的建设一直属于企业的自主行为。在9.11事件和印度洋海啸之后,国家充分认识到了重要信息系统容灾的必要性,要求一些重要行业的信息系统必须实现容灾。为了加强对信息系统安全的管理,规范对信息系统灾难性故障的响应和处置,国务院信息化办公室在2005年发布了《重要信息系统灾难恢复指南》,用于指导信息系统的使用和管理单位的灾难恢复规划工作,以及对信息系统灾难恢复规划项目的审批和监督管理。

《指南》给灾难下了一个清晰的定义,即“由于人为或自然的原因,造成信息系统运行严重故障或瘫痪,使信息系统支持的业务功能停顿或服务水平不可接受、达到特定的时间的突发性事件”。这个定义不仅给出了灾难的范围,也给出了灾难的判断标准。灾难不只包括自然灾难(地震、海啸等),也包括人为的灾难(如恐怖袭击、误操作、病毒等)。另外,判断信息系统是否因灾难而故障的标准除“支持的业务停顿”之外,“服务水平不可接受”也是一个方面。事实上,“服务水平不可接受”是比较难以定量的分析判定的,这增加了实现自动化故障切换(如“零秒”切换)的难度。

参照国际相关标准,并结合国内实际情况,《指南》还将灾难恢复应具有的技术和管理支持分为6个等级,每个级别都包括数据备份系统、备用数据处理系统、备用网络系统、备用基础设施、技术支持、运行维护支持和灾难恢复预案这7个要素。在7个要素中,前三个属于IT技术的范畴,而后四个属于管理和服务的范畴。其中,数据备份系统面向的对象是数据,目的是实现数据的冗余备份,以便一份数据被破坏以后,还有另外一份数据可用,常用的技术有数据备份(Backup)和数据复制(Replication)等。备用数据处理系统面向的对象是应用服务器,目的是在主用数据处理系统发生故障以后,可以利用数据备份系统产生的冗余数据来恢复应用,常用的技术有服务器双机热备、服务器集群等。备用网络系统面向的是网络连接,目的是保证备用数据处理系统与其客户端、不同备用数据处理系统之间的网络,以便整个实现业务系统的恢复。

七个要素的不同满足程度决定了容灾方案的等级,等级的划分最终反映在技术指标上,不同等级的容灾方案对应有不同的技术指标值。常用的容灾方案评价指标主要有RTO(Recovery Time Object,恢复时间目标)、RPO(Recovery Point Time,恢复点目标)和容灾半径。RTO是指“将信息系统从灾难造成的故障或瘫痪状态恢复到可正常运行状态,并将其支持的业务功能从灾难造成的不正常状态恢复到可接受状态”所需时间,其中包括备份数据恢复到可用状态所需时间、数据处理系统切换时间、以及备用网络切换时间等,该指标用以衡量容灾方案的业务恢复能力。RPO是指业务系统所允许的灾难过程中的最大数据丢失量(以时间来度量),这是一个与

25

数据备份系统所选用的技术有密切关系的指标,用以衡量灾难恢复方案的数据冗余备份能力。容灾半径是指生产中心和灾备中心之间的直线距离,用以衡量容灾方案所能防御的灾难影响范围。显然,具有零RTO、零RPO和大容灾半径的灾难恢复方案是用户最期望的,但受系统性能要求、适用技术及成本等方面的约束,这种方案实际上是不大可行的。所以,用户在选择容灾方案时应该综合考虑灾难的发生概率、灾难对数据的破坏力、数据所支撑业务的重要性、适用的技术措施及自身所能承受的成本等多种因素,理性地作出选择。

除技术指标以外,容灾方案的ROI(Return of Investment,投入产出比)也是用户需要重点关注的,它用以衡量用户投入到容灾系统的资金与从中所获得的收益的比率。表明上看,容灾系统不像其它业务系统那样会给用户带来收益,但事实上,容灾系统确实是有收益的,而且收益是完全可以度量的。容灾系统的收益主要来源于发生灾难时为用户所挽回的损失,这种损失不只包括金钱方面的,信誉、客户忠诚度、法律风险等方面的损失也包含在内。业界统计数据表明,随着业务停运时间的延长,用户的损失会急剧增加。当然不同行业的损失程度有所不同,其中以金融、电信为最。如果容灾系统能够把由于灾难而导致的业务停运时间显著缩短,也就间接为客户创造了收益。基于容灾方案的技术指标、业界的统计数据和用户自身业务状况,用户是完全可以对容灾方案的收益作出一个适当的量化评估的。在ROI指标方面,基于新型IP SAN系统的容灾方案显得更有优势,因为这类方案不仅能大幅降低容灾系统的初始部署成本,而且管理成本也相对要低很多。

二、数据备份

在构建容灾系统所涉及的7个要素中,数据备份系统是基础,只有保证了数据的安全可用,业务的恢复才有可能。数据备份系统采用的技术主要有数据备份(Backup)和数据复制(Replication)两种。

数据备份

数据备份(Backup)一般是指利用备份软件(如Veritas的NetBackup、CA的BrightStor等)把数据从磁盘备份到磁带进行离线保存(最新的备份技术也支持磁盘到磁盘的备份,也就是把磁盘作为备份数据的存放介质,以加快数据的备份和恢复速度)。备份数据的格式是磁带格式,不能被数据处理系统直接访问。在源数据被破坏或丢失时,备份数据必须由备份软件恢复成可用数据,才可让数据处理系统访问。

数据备份在一定程度上是可以保证数据安全的,但应用于容灾系统时却面临众多问题:

1、备份窗口

备份窗口是指应用所允许的完成数据备份作业时间。由于数据备份作业会导致应用主机的性能下降,甚至服务水平不可接受,备份作业必须在应用停机或业务量较小的时候进行。但随着备份数据量的不断增加和业务7×24小时连续运行需求的提出,备份窗口的问题越来越突出。问题的解决之道主要在于加快备份速度(如采用高速带库、磁盘备份)和实现在线备份。

2、恢复时间

在容灾系统中,备份数据的恢复时间直接关系到容灾方案的RTO指标。当备份数据量较大或者备份策略比较复杂时,备份数据往往需要较长的恢复时间。

3、备份间隔

鉴于备份作业对主机系统的影响,两次备份作业之间的间隔不能太密集。以常用的备份策略(1

26

个全备+6个增量备份)为例,备份间隔为1天。也就是说如果在两次备份之间发生灾难,RPO(数据的丢失量)接近于1天,这对于一些重要的信息系统是完全不可接受的。

4、数据的可恢复性

数据备份的目的就是为了数据恢复。但往往由于介质失效、认为错误、备份过程出错等原因,造成备份数据的不可恢复。

5、介质的保管和运送

在完成数据备份以后,为了保证备份数据的安全性,一般采用的方式是把备份介质运输到远程的数据中心进行保管。但是在运输过程中,可能会造成备份数据的丢失。最近爆出的美国银行丢失120万名客户资料的事件就是佐证。

6、备份的成本

从提高备份速度和恢复速度,提高数据可恢复性方面来看,D2D是个不错的选择,但是现有备份软件的D2D选件都非常昂贵,方案实施成本比较高。

综合以上分析可以知道,高等级的容灾方案不适合于采用数据备份(Backup)技术来保证数据安全,数据备份只适合于一些低等级的容灾方案,对RTO和RPO要求相对比较低。但这并不意味这高等级容灾系统中不需要数据备份,作为一种廉价、成熟的技术,数据备份可以为容灾系统提供更多一层的保护。

数据复制

数据复制(Replication)是指利用复制软件(如EMC的SRDF、H3C同步异步镜像等)把数据从一个磁盘复制到另一个磁盘,生成一个数据副本。这个数据副本是数据处理系统直接可以访问的,不需要进行任何的数据恢复操作,这一点是复制与D2D备份的最大区别。

数据复制有多种分类方法,依据复制启动点的不同,数据复制可分为同步复制、异步复制、基于数据增量的复制等几种。对于同步复制,数据复制是在向主机返回写请求确认信号之前实时进行的;对于异步复制,数据复制是在向主机返回写请求确认信号之后实时进行的;而基于数据增量的复制是一种非实时的复制方式,它依据一定的策略(如设定数据变化量门限值、日历安排等)来启动数据复制。业界经常把不间断的,实时的数据复制称为镜像,所以同步/异步复制又被称为同步/异步镜像。

依据复制执行实体的不同,数据复制可分为基于主机的复制和基于存储设备的复制。基于主机的复制一般是由安装在主机中的软件插件来实施数据的复制,这会对主机系统的性能有所影响,典型的产品如Veritas的VVR,HP的OpenView SM等。基于存储设备的复制可以是由存储设备的控制器执行(如EMC的SRDF、华为3Com的同/异步镜像等),也可以是由虚拟化的存储管理平台来执行(如飞康IPStor的同/异步镜像和基于增量的复制)。基于存储设备的复制独立于主机平台,不会对主机系统的性能造成影响。

另外,依据数据复制站点之间的距离的不同,复制还可分为远程复制和本地复制。一般来说,复制距离小于1~2Km时为本地复制,大于该值时为远程复制。

三、总结

数据备份(Backup):受备份策略、备份数据可恢复性等问题影响,不适合于在高等级的容灾方案(RPO小于24小时)作为构建备份数据系统主要的技术。但由于实施方便,成本低廉,

27

适合于低等级的容灾方案中,也可作为高等级容灾方案的辅助技术。在应用停机的情况下进行数据备份就不存在数据一致性问题,当需要在线备份时,一般由备份软件来保证数据一致性。

同步镜像:应用于最高等级的容灾方案(RPO等于0)中,需要关闭主机Cache来保证数据一致性。对于连接生产中心和灾备中心的链路带宽和QoS要求很高,一般采用光纤直连、波分设备来保证,方案部署成本很高。

异步镜像:应用于较高级别的容灾方案(RPO接近于0)中,无法有效保证数据一致性(关闭主机中的Cache和快照都不适合)。但对于连接生产中心和灾备中心的链路带宽和QoS要求一般,理论上带宽只要达到“日新增数据量/(24×3600×8)”即可。

增量复制:应用于较高级别的容灾方案(RPO小于1小时)中,可以结合快照技术有效保证数据一致性。对于连接生产中心和灾备中心的链路带宽和QoS要求一般,理论上带宽只要达到“数据增量/复制间隔”即可。

存储基础知识(八):备份技术(上)

2009-10-21 10:11:23

标签:存储 备份 [推送到技术圈]

一、备份的概念

备份顾名思义,就是将数据以某种形式保存下来,备份的根本目的在于恢复,在这些数据丢失、毁坏和受到威胁的时候,使用数据的备份来恢复数据。虽然备份的定义可能很简单,不过具体实施存储系统的备份却可能是一份艰巨的任务,其中包含了许多可以预见的以及不易预见的需要考虑的因素。

二、备份与拷贝、归档的区别

备份不能仅仅通过拷贝完成,因为拷贝不能留下系统的注册表等信息;而且也不能留下历史记录保存下来,以做追踪;当数据量很大时,手工的拷贝工作又是何其麻烦。备份=拷贝+管理。管理包括备份的可计划性、磁带机的自动化操作、历史记录的保存以及日志记录等等。正如生命周期理论将在线数据分级为在线和近线数据一样,离线数据亦可分为备份与存档数据,以降低投资和运维成本。

存档的目的是将需要长期备查或转移到异地保存/恢复的数据存放到可移动存储介质上。严格意义上讲,存档的目的不是为了保障数据安全,而只是为了实现数据仓储。如果说备份相当于桌头的字典,工作时会经常翻用,存档则好像日常工作中生成的一些具长期保存价值的文字资料,被转移到书架上或档案馆里备查。

三、常规备份的实现方式

通常一套完整的备份系统包含备份软件、磁带机/磁带库、和备份服务器,具体的备份策略的制

28

定、备份介质的管理以及一些扩展功能的实现,都是由备份软件来最终完成的。在备份服务器上安装备份软件的服务器端,在应用服务器端安装备份软件的客户端代理,如果是数据库应用还需要相应的数据库接口程序,客户端代理软件和服务器端软件协调工作,按照预先制定的备份策略自动或手动的将数据备份到磁带上。然而一个具有一定规模的数据中心的数据备份要涉及到多种UNIX平台和不同的数据库类型,可以想象每天的备份工作对于管理员来说都是一个挑战。

备份策略制定是备份工作的重要部分。一般来说需要备份的数据存在一个2/8原则,即20%的数据被更新的概率是80%。这个原则告诉我们,每次备份都完整的复制所有数据是一种非常不合理的做法。事实上,真实环境中的备份工作往往是基于一次完全备份之后的增量或差量备份。

完全备份很好理解,即把所有数据进行一次完整的备份,当进行恢复的时候只需要一盘磁带;

增量备份是只有那些在上次完全备份或者增量备份后被修改了的文件才会被备份,如下图,优点是备份数据量小,需要的时间短,缺点是恢复的时候需要多盘磁带,出问题的风险较大,

差量备份是备份那些自从上次完全备份之后被修改过的文件,如下图,因此从差量备份中恢复速度是很快的,因为只需要两份磁带(最后一次完全备份和最后一次差量备份),缺点是每次备份需要的时间较长。

备份窗口是在进行备份操作时,应用系统可以接受的最长备份时间,对于某些5X8类型的非关键应用备份窗口可以很大,但是对于7X24小时的应用备份窗口就会很小。

四、LAN Free和Serverless备份

所谓LAN Free Backup顾名思义,就是指释放网络资源的数据备份方式。

在SAN架构中,备份服务器向应用服务器发送指令和信息,指挥应用服务器将数据直接从磁盘阵列中备份到磁带库中。在这个过程中,庞大的备份数据流没有流经网络,为网络节约了宝贵的带宽资源。在NAS架构中,情形十分类似,磁带库直接连接在NAS文件服务器上,备份服务器通过NDMP协议,指挥NAS文件服务器将数据备份到磁带库中。细心观察之下会发现,这两种方式虽然都节约了网络资源,但却增加了服务器的工作负荷,缺点是价格非常昂贵,大多数备份软件的LAN Free功能选项都需要用户付出高昂的价格。

Serverless Backup技术是以全面的释放网络和服务器资源为目的的,技术核心就是在SAN的交换层实现数据的复制工作,这样备份数据不仅无需经过网络,而且也不必经过应用服务器的总线,完全的保证了网络和应用服务器的高效运行。但是现实情况却没有这么理想,Serverless Backup技术目前只能停留在纸面上,实际实施效果很差,完全不需要主机干预还不现实。

存储基础知识(八):备份技术(下)

2009-10-21 10:13:04

标签:存储 备份 [推送到技术圈]

一、主流备份软件

备份软件厂商中头把交椅当属Veritas公司。这家公司经过近几年的发展和并购,在备份软件市

29

场已经占据了四成左右的份额。其备份产品主要是两个系列——高端的NetBackup和低端的Backup Exec。其中NetBackup适用于中型和大型的存储系统,可以广泛的支持各种开放平台。NetBackup还支持复杂的网络备份方式和LAN Free的数据备份,其技术先进性是业界共同认可的。

Backup Exec是原Seagate Soft公司的产品,在Windows平台具有相当的普及率和认可度,微软公司不仅在公司内部全面采用这款产品进行数据保护,还将其简化版打包在Windows操作系统中,我们现在在Windows系统中使用的“备份”功能,就是OEM自Backup Exec的简化版。2000年初,Veritas收购了Seagate Soft之后,在原来的基础上对这个产品进一步丰富和加强,现在,这款产品在低端市场的占用率已经稳稳的占据第一的位置。

Legato公司是备份领域内仅次于Veritas公司的主要厂商。作为专业的备份软件厂商,Legato公司拥有着比Veritas公司更久的历史,这使其具有了相当的竞争优势,一些大型应用的产品中涉及到备份的部分都会率先考虑与Legato的接口问题。而且,像Oracle等一些数据库应用干脆内置集成了Legato公司的备份引擎。这些因素使得Legato公司成为了高端备份软件领域中的一面旗帜。在高端市场这一领域,Legato公司与Veritas公司一样具有极强的技术和市场实力,两家公司在高端市场的争夺一直难分伯仲。

Legato公司的备份软件产品以NetWorker系列为主线,与NetBackup一样,NetWorker也是适用于大型的复杂网络环境,具有各种先进的备份技术机制,广泛的支持各种开放系统平台。值得一提的是, NetWorker中的Cellestra技术第一个在产品上实现了Serverless Backup的思想。仅就备份技术的先进性而言,Legato公司是有实力可以挑战任何强大对手的。

除了Veritas和Legato这备份领域的两大巨头之外,IBM Tivoli也是重要角色之一。其Tivoli Storage Manager产品是高端备份产品中的有力竞争者。与Veritas的NetBackup和Legato的NetWorker相比,Tivoli Storage Manager更多的适用于IBM主机为主的系统平台,但其强大的网络备份功能觉对可以胜任任何大规模的海量存储系统的备份需要。

CA公司是软件领域的一个巨无霸企业,虽然主要精力没有放在存储技术方面,但其原来的备份软件ARCServe仍然在低端市场具有相当广泛的影响力。近年来,随着存储市场的发展,CA公司重新调整策略,并购了一些备份软件厂商,整合之后今年推出了新一代备份产品——BrightStor,这款产品的定位直指中高端市场,看来CA公司誓要在高端市场与Veritas和Legato一决雌雄。

二、带机、带库厂商及产品

备份设备的生产厂家很多,每个厂家都有着较长的产品线,由于篇幅所限,我们不可能一一列举。这里主要介绍那些国际知名的、国内有影响力的带机和带库原厂商及其主打产品。目前,带机正在朝快的数据传输速度和高的单盘磁带存储容量方向发展,具有主流驱动技术的带机厂商包括Quantum、Exabyte和Sony等。

Quantum带机在中档产品中占据了市场大部分份额,但其中很大一部分走了OEM的销售渠道。其自动加载机SuperLoader可将多个备份目标集中到一个共享的自动系统中,降低处理成本,而基于磁盘(备份介质是磁盘)又具有磁带海量特性的近线备份设备DX30可显著缩短备份与

30

恢复时间。

Exabyte的磁带驱动技术包括8mm Mammoth和VXA技术,VXA是定位低端的新的磁带技术,它以包的格式读写数据,并可对磁带上的数据记录区进行无空隙扫描,具有高质量、高可靠性、低成本等性能特点。其中VXA-1带机专为苹果机设计的存储方案;VXA-2同样具有较高的性价比,并具有12MB/s传输速率及160GB容量,与VXA-1向下兼容。

这里我们有必要讲一讲Sony的基于AIT技术的带机产品:AIT-1、AIT-2和AIT-3,其中AIT-3是高性能和大容量的新存储方案,容量(未压缩)为100GB,速率为12MB/s,而且能够与AIT-1、AIT-2完全读和写逆向兼容,并具有分层磁头、创新性的磁带内存储器(MIC) 驱动器接口系统等多项专利技术,提高磁轨密度和存储速度。

磁带库厂商相对品牌较多,用户的选择空间也更大一些。目前主流的磁带库厂商主要有STK,Quantum,Exabyte和IBM等。

在带库厂商中,市场份额最大的当属美国存储技术公司(StorageTek,STK)。STK目前最主要的产品线是L系列,包括L20、L40、L80、L180、L700、L5500,从最小20磁带槽位到最大5500磁带槽位。在其入门级产品上,支持LTO、DLT和SuperDLT等开放技术,只有在高端产品上才同时支持其自身拥有的9840、9940驱动技术。

Quantum拥有DLT、SuperDLT技术,其用户基础和发展前景都很好。其P系列的主打产品P4000和P7000分别可以支持几百槽位和十几个驱动器,适合于企业级用户;M系列是模块化的产品,可根据用户系统需求的增长灵活扩展带库的容量和性能,M1500可从20槽位扩展到200槽位,M2500则可从100槽位扩展到300槽位,非常适合于那些快速发展的中小企业。美中不足的是,ATL对超大容量的解决方案不是非常理想,在这一部分市场上的竞争力较弱。

8mm是安百特(Exabyte)公司的独立技术,具有速度快、容量大、可靠性高、价廉、体积小等特点,主要用于带库,其8mm带库的智能机械臂系统可任意存取磁带,采用模块化设计,产品线全,从VXA自动化/驱动器产品系列AutoPak230/115/110、VXA-1/1到Mammoth Tape自动化/驱动器产品系列X200/80/430M/215M/EZ17、M2/Mammoth/Eliant 820,容量从单盘(非压缩)33GB到整库12TB,涵盖由低到高的用户市场,可实现无人值守自动数据存储管理,适用于服务器备份、网络备份、自动归档、分级存储管理及图形图像等领域。

IBM,众所周知,生产和销售所有IT类产品,当然也包括带库产品。IBM的带库和带机产品大体可分2个系列:用于IBM环境的和用于开放环境的。如IBM的3494、3575等带库只支持其专用的驱动器,开放性差,虽然这些带库产品也支持HP、SUN等主流服务器平台,但实际上几乎只用在IBM环境中。随着SAN技术的普及,追求开放性和互联性成为存储行业的潮流。结合LTO驱动技术的投产,IBM为其开放存储系统解决方案推出了新的带库系列——3583和3584。

三、备份技术新趋势

D2D2T是Disk to Disk toTape的缩写,即数据备份从磁盘阵列到磁盘库到磁带的过程。传统的磁带备份总是会带给用户以下苦恼:

1、备份速度慢,备份窗口冗长

31

2、备份的根本目的在于恢复,而磁带的恢复速度很慢,对于TB级的数据恢复等待时间过长

3、磁带介质受灰尘、温度、湿度影响很大,难以保证已经离线保存的磁带在需要的时候可以正常工作

4、磁带库的机械手等物理设备的故障率和磨损率相对电子元件较高

相信长期从事磁带备份工作的管理员(尤其是大数据量关键应用的磁带备份)对以上几点都会深有感触,尤其是当在线数据受到破坏,需要依靠磁带备份来恢复正常生产的时候,大家都会为能否顺利恢复数据捏一把汗。

有什么办法可以解决磁带备份固有的劣势呢?随着磁盘容量的增长价格的下降,使用磁盘备份作为磁带备份的补充甚至替代都成为可能,当然磁带体积小,便于归档等特点是磁盘设备不具备的,因此D2D2T即磁盘到磁盘到磁带备份方式有效地中和了磁盘备份和磁带备份的优点,在线数据保存在高速磁盘阵列,备份数据首先保存在性价比较高的SATA磁盘阵列中,然后定期将磁盘备份的数据保存到磁带上,这样既缩短了备份窗口又增强了数据恢复的可靠性。

企业SAN数据存储和远程容灾方案

2008-04-23 13:50:25

标签:SAN 存储 [推送到技术圈]

一、引言

网络存储设备提供网络信息系统的信息存取和共享服务,其主要特征体现在:超大存储容量、高数据传输率以及高系统可用性。传统的网络存储设备都是将RAID磁盘阵列直接连接到网络系统的服务器上,这种形式的网络存储结构称为DAS(Direct Attached Storage)。此外,SAN(Storage Area Network)和NAS(Network Attached Storage)也是两种常见的存储架构。

SAN(存储区域网络)是一种类似于普通局域网的高速存储网络,SAN提供了一种与现有LAN连接的简易方法,允许企业独立地增加存储容量,并使网络性能不受数据访问的影响。这种独立的专有网络存储方式使得SAN具有扩展性高、可管理性好和容错能力强等优点。

二、需求分析

随着企业业务数据的增加和应用对数据的依赖性的增强,数据的有效汇集、集中管理、综合分析以及容灾备份等处理要求日益提高。企业的业务系统通常对于存储系统具有以下的需求:

1、数据集中化

数据存储与管理集中化这种模式有利于各项业务间的联动处理,并且有利于实现分级授权,加强控制和监督,提高集约化管理水平。

32

2、业务综合化

业务综合处理就是将各种业务紧密结合起来成为一个整体,使得各系统之间信息共享,以消除信息孤岛,为数据挖掘与决策分析奠定坚实基础。

3、保证数据安全性

综合业务处理系统作为数据高度集中的系统,数据的安全是第一位的。必须从网络、操作系统、数据库、存储设备等方面建立起一套严密的保障措施,保证企业、用户和业务数据的100%可用。

4、保证系统高可靠性与高可用性

综合业务处理系统的数据备份是保证数据高可靠、高可用的基本手段。在本地及异地建立与业务系统相同的备份系统,或将综合业务处理系统的数据进行实时备份,将大大提高数据资源的可靠性。

5、提高效率降低成本

传统的数据由于比较分散,管理和备份都相当困难,容易造成损坏或丢失,安全性很低。在综合业务处理系统下,数据高度集中,管理和备份都非常方便,提高了工作效率同时也降低了系统成本。

6、提高兼容性和可扩展性

由于综合业务处理系统涵盖的应用系统很多,需要有良好的兼容性和可扩展性。对不同用户数据信息的综合分析会增强工作的针对性与准确性。随着业务的扩大,数据量的增加,存储系统的可扩展性尤为重要,良好的扩展性可以保证业务的连续性。

7、数据备份

随着业务系统的不断完善和持续运行,业务数据及应用系统都迫切需要行之有效的数据安全保护措施。在此情况下,必须采取有效的数据备份手段,确保网络系统、应用系统的高度安全,建立自动化、跨平台网络备份管理系统有利于以后系统的发展要求。

8、远程数据容灾

计算机系统灾难的发生是多方面的,从计算机数据管理的角度看,小到操作人员的误操作导致系统的破坏、数据库的丢失;中到计算机硬盘的损坏、存储介质的损坏;大到非计算机系统因素如火灾、地震、水灾等等。保持业务的持续性是当今用户进行数据存储需要考虑的一个重要方面。采取远程的数据灾难恢复手段,能够提高系统的高可靠性,真正保护业务持续性。

容灾包括数据容灾和应用容灾两类。数据容灾是指建立一个异地的数据系统,该系统是本地关键应用数据的一个实时复制。在本地数据及整个应用系统出现灾难时,系统至少在异

33

地保存有一份可用的关键业务的数据。应用容灾是在数据容灾的基础上,在异地建立一套完整的与本地生产系统相当的备份应用系统(可以是互为备份)。建立这样一个系统是相对比较复杂的,不仅需要一份可用的数据复制,还要有包括网络、主机、应用、甚至IP等资源,以及各资源之间的良好协调。

三、企业SAN数据存储和远程容灾方案

(一)设计原则

1、先进性

存储系统采用的技术必须是先进而成熟的。现在计算机技术的发展日新月异,要保护客户的投资就必须采用先进的技术,并且这种技术和产品必须被业界公认为成熟且有发展前途的。

2、实用性

建设网络系统的目的是要解决企业数据信息的共享和交换,提供现代化的管理,因此,设计方案的出发点就是要满足用户的信息要求。

3、经济性

设计方案不但要考虑采用技术的先进、可靠,而且还必须考虑用户的经济负担。因此,设计方案必须具备很高的性能价格比。

4、高可管理性与高可靠性

由于整个业务系统的数据采取集中式的存储策略,所以存储系统必须具备很高的可管理性。另外,计算机网络系统的外部环境是多变的,设计方案必须是强健的,能够很方便地进行调整,以满足外部环境的变化。

5、高可扩充性与升级能力

设计方案必须能够适应企业网络系统发展的需要,具备高可扩充性与升级能力。存储系统必须是可以扩充的,必须具备较高的扩展能力,而且随着计算机技术的发展可以对存储局域网络进行升级。

6、开放性与标准化

设计方案中所采用的技术和选用的产品都必须是业界公认的主流,而且必须满足开放性的要求。

( 二)SAN数据存储方案

34

在企业数据存储系统的设计过程中,从系统的兼容性、稳定性与可靠性角度出发,并且考虑到保护已有的投资,选择了基于SAN架构的数据存储方案

方案中使用光纤通道交换机、本地磁盘阵列、备份磁带库及远程容灾磁盘阵列组成SAN系统,其高可扩容性将使企业将来能够具有很高的存储能力,为异种操作系统和磁盘系统提供支持,为异地容灾备份提供无缝支持,并且可以将已有的投资与长期的存储解决方案结合起来,建立一个可扩展、易管理、能够灵活地适应不可预见的存储需要的网络存储环境。

(三)SAN数据容灾方案

异地远程数据容灾方案的容灾地点选择在距离本地不小于20km的范围内,采用与本地磁盘阵列相同的配置,通过光纤以双冗余方式接入到SAN网络中,实现本地关键应用数据的实时同步复制。在本地数据及整个应用系统出现灾难时,系统至少在异地保存有一份可用的关键业务的镜像数据。该数据是本地生产数据的完全实时拷贝。

对于企业网来说,建立的数据容灾系统由主数据中心和备份数据中心组成

其中,主数据中心采用高可靠性集群解决方案设计,备份数据中心与主数据中心通过光纤相连接。主数据中心系统配置主机包括两台或多台服务器以及其他相关服务器,通过安装HA软件组成多机高可靠性环境。数据存储在主数据中心存储磁盘阵列中。同时,在异地备份数据中心配置相同结构的存储磁盘阵列和一台或多台备份服务器。通过专用的灾难恢复软件可以自动实现主数据中心存储数据与备份数据中心数据的实时完全备份。在主数据中心,按照用户要求,还可以配置磁带备份服务器,用来安装备份软件和磁带库。备份服务器直接连接到存储阵列和磁带库,控制系统的日常数据的磁带备份。其中,光传输设备作为两个数据中心之间的传输设备;两个数据中心利用光传输设备通过光纤组成光自愈环(用来提供高性能、全冗余、无切换间隙、路由迂回的无阻塞通道),光自愈环可提供总共高达80G(保护)和160G(非保护)的通信带宽。通过高性能的骨干为两个数据中心提供高带宽、高可靠的网络连接。

备份数据中心必须满足以下条件:

(1)具备与主数据中心相似的网络、通信设置;

(2)具备业务应用运行的基本系统配置;

(3)具备稳定、高效的电信通路连接主数据中心,确保数据的实时备份;

(4)具备日常维护条件;

(5)与主数据中心相距足够安全的距离。

(四)方案特点

本设计方案是基于模块化、可扩展、无单点故障的SAN解决方案,具有容灾和业务连续性等特性。它对企业的业务系统能够提供无缝的异地容灾备份解决方案,为企业业务系统高效、高可靠性的双磁盘阵列系统远程容灾备份方案提供良好的高可用性支持。具体而言,本设计方案的特点在于:

方案投资不高,原有的设备得到合理利用的前提下,基于网络的数据存储服务性能得到

35

明显提升,业务数据实现了有效的汇集和管理,实现了性能和价格的最优组合。

(1)SAN存储系统扩展性好、升级能力强,投资保护性好。

(2)实现了存储系统支持数据集中式管理,相关业务系统或全部的应用系统存储系统合并为统一的存储系统。

(3)采用开放式的体系结构,支持多种系统平台的接入,亦即实现跨平台操作。

(4)异构环境数据共享,即不同的平台和数据库系统实现相关数据的共享,同时支持主流第三方厂家存储设备的接入。

(5)提供包括存储介质、接口设备及连接链路的冗余支持。

(6)向网络客户端和应用服务器提供高效可靠的数据存储服务时,同时对应用系统的运行效率和网络的速度不会产生明显的影响。

(7)采用本地磁带备份与远程容灾措施,按其重要程度确定数据备份等级,配置数据备份与容灾策略,采用先进数据容灾和灾难恢复技术,保证了信息系统可靠性和数据重要性。

36


本文标签: 数据 备份 系统 服务器 网络