admin 管理员组文章数量: 887021
2024年3月12日发(作者:springboot获取配置文件的值)
技术、方案和行业全面解析高性能计算(HPC)
第1章 HPC行业和市场概述.........................................
1.1HPC主要场景和分类.......................................
1.2HPC系统主要组成.........................................
1.3HPC IO业务模型..........................................
1.4HPC系统架构演变.........................................
1.5HPC市场的主流玩家.......................................
1.5.1HPC存储厂商分类....................................
1.5.2Burst Buffer介绍...................................
1.5.3Panasas和Seagate介绍...............................
1.5.4主流并行文件系统...................................
1.6HPC对存储的主要诉求.....................................
1.7HPC系统的衡量标准.......................................
1.8HPC未来的技术趋势.......................................
第2章 HPC场景的存储形态........................................
2.1HPC为何是NAS存储........................................
2.2本地存储引入的问题......................................
2.3HPC主要的存储形态.......................................
第3章 Lustre文件系统解析.......................................
3.1Lustre文件系统概述......................................
3.2Intel Lustre企业版开源策略..............................
3.3Lustre文件系统架构......................................
3.4Lustre Stripe切片技术...................................
3.5Lustre 的IO性能特征.....................................
3.5.1写性能优于读性能...................................
3.5.2大文件性能表现好...................................
3.5.3小文件性能表现差...................................
3.6Lustre小文件优化........................................
3.7Lustre性能优化最佳实践..................................
8
10
12
13
14
15
16
16
18
18
20
21
23
24
24
24
26
27
27
27
28
31
35
35
36
36
37
39
第4章 GPFS文件系统解析.........................................
4.1GPFS文件系统概述........................................
4.1.1GPFS文件系统架构...................................
4.1.2GPFS文件系统逻辑架构...............................
4.2GPFS文件系统对象........................................
4.2.1网络共享磁盘
4.2.2集群节点及客户端节点...............................
4.2.3仲裁Node和Tiebreaker磁盘...........................
4.3GPFS集群仲裁机制........................................
4.3.1仲裁节点机制.......................................
4.3.2仲裁磁盘机制.......................................
4.4GPFS Failure Group失效组................................
4.5GPFS文件系统伸缩性......................................
4.6GPFS文件系统负载均衡....................................
第5章 Spectrum Scale架构详解...................................
5.1Spectrum Scale云集成....................................
5.2Spectrum Scale存储服务..................................
5.3Spectrum Scale交付模型..................................
5.4Spectrum Scale架构分类..................................
5.5Spectrum Scale企业存储特性..............................
5.5.1Spectrum Scale数据分级至云.........................
5.5.2Spectrum Scale RAID技术............................
5.5.3Spectrum Scale Active文件管理......................
5.5.4Spectrum Scale快照技术.............................
5.5.5Spectrum Scale Cache加速...........................
5.5.6Spectrum Scale分级存储管理.........................
5.5.7Spectrum Scale文件和对象访问.......................
5.5.8Spectrum Scale加密和销毁...........................
5.6Spectrum Scale虚拟化部署................................
40
40
41
42
43
43
44
44
44
45
45
45
46
46
47
49
50
51
52
53
53
54
54
54
55
56
57
58
58
5.7Spectrum Scale LTFS带库技术.............................
5.8Elastic
第6章 BeeGFS文件系统解析.......................................
6.1ThinkParQ介绍...........................................
6.2BeeGFS操作系统兼容性....................................
6.3BeeGFS系统架构..........................................
6.3.1管理服务器介绍.....................................
6.3.2元数据服务器介绍...................................
6.3.3对象存储服务介绍...................................
6.3.4文件系统客户端.....................................
6.4BeeGFS安装和设置........................................
6.5BeeGFS调优和配置........................................
6.6BeeOND .
6.7BeeGFS配额特性..........................................
6.8BeeGFS的Buddy镜像.......................................
6.9BeeGFS支持API概述.......................................
6.10BeeGFS系统配置要求.....................................
6.10.1存储服务器配置....................................
6.10.2元数据服务器配置..................................
6.10.3客户端服务器配置..................................
6.10.4管理守护进程配置..................................
6.11BeeGFS支持的网络类型...................................
6.12通过NAS导出
6.13BeeGFS生态和合作.......................................
第7章主流HPC产品和解决方案....................................
7.1DDN存储解决方案和产品...................................
7.1.1DDN S2A平台和产品..................................
7.1.2DDN SFA平台和产品..................................
7.1.3DDN WOS平台和产品..................................
59
62
63
63
64
64
65
66
67
68
69
70
70
73
74
76
76
77
78
78
79
79
79
80
83
83
84
86
87
7.1.4DDN Scaler系列网关产品.............................
7.1.5Burst Buffer加速产品...............................
7.1.6FlashScale全闪存产品...............................
7.2希捷存储解决方案和产品..................................
7.2.1ClusterStor产品架构...............................
7.2.2ClusterStor Manager介绍...........................
7.2.3ClusterStor配置扩展方式...........................
7.2.4ClusterStor存储软件集成架构.......................
第8章 Burst Buffer技术和产品分析..............................
8.1Cray DataWarp技术和产品................................
8.1.1Burst Buffer场景匹配..............................
8.1.2Burst Buffer技术架构..............................
8.1.3Cray技术演进蓝图..................................
8.1.4Cray HPC方案和产品................................
8.2DDN Burst Buffer产品...................................
8.2.1IME产品架构.......................................
8.2.2IME14KX产品介绍...................................
8.2.3IME240产品介绍....................................
8.3EMC Burst Buffer产品...................................
8.3.1aBBa产品架构......................................
8.3.2aBBa软件堆栈......................................
第9章 HPC主流网络和技术分析...................................
9.1InfiniBand技术和基础知识...............................
9.1.1IB技术的发展......................................
9.1.2IB技术的优势......................................
9.1.3IB网络重要概念....................................
9.1.4IB协议堆栈分析....................................
9.1.5IB应用场景分析....................................
9.2InfiniBand技术和架构...................................
88
92
94
97
100
101
102
105
108
108
110
111
114
115
118
118
121
122
123
124
125
127
127
127
128
130
131
135
136
9.2.1IB 网络和拓扑组成................................
9.2.2软件协议栈
9.2.3InfiniBand网络管理................................
9.2.4并行计算集群能力..................................
9.2.5基于socket网络应用................................
9.2.6IB对存储协议支持..................................
9.2.7RDMA技术介绍......................................
9.3Mellanox产品分析.......................................
9.3.1Infiniband交换机..................................
9.3.2InfiniBand适配器..................................
9.3.3Infiniband路由器和网关设备........................
9.3.4Infiniband线缆和收发器............................
9.4InfiniBand和Omni-Path之争..............................
9.4.1Intel True Scale Fabric 软件架构.................
9.4.2Intel InfiniBand产品家族..........................
9.4.3Intel Omni-Path产品介绍...........................
9.4.4Omni-Path和InfiniBand对比.........................
第10章 HPC超算系统排名和评估..................................
10.1TOP500基准介绍和排名规则..............................
10.2Green500基准介绍和排名规则............................
10.3HPC超算系统其他评估基准...............................
10.3.1GTC-P应用基准....................................
10.3.2Meraculous测试基准...............................
10.3.3MILC测试基准.....................................
10.3.4MiniDFT测试基准..................................
10.3.5MiniPIC测试基准..................................
10.3.6PENNANT测试基准..................................
10.3.7SNAP测试基准.....................................
10.3.8UMT测试基准......................................
136
140
141
142
143
143
144
144
146
149
150
151
152
153
155
156
157
161
163
166
168
174
174
175
175
175
176
176
176
10.3.9Crossroads/N9 DGEMM基准..........................
10.3.10IOR BenchMark基准...............................
10.3.11Mdtest测试基准..................................
10.3.12STREAM测试基准..................................
176
177
177
177
第1章
HPC 行业和市场概述
)环境中,由于技术
硬
并
算
在传统的 HPC(High performance computing
的局限和业务的单一,计算环境中的每个业务系统使用独立的
件建立计算环境;随着高性能计算的技术的发展,运算平台的
行化程度提高以及业务涵盖的应用领域迅速延伸,使得传统计
环境中多个独立的环境出现资源利用不足或者性能瓶颈的问题。
HPC 存储是在 HPC 环境下,为解决传统计算环境中串行存储性能
瓶颈,所提出的专用存储。面对传统计算环境中串行存储的挑战,
HPC 存储设计采用以下几种方式进行优化:
集群化与并行化
将传统计算环境中相互独立的本地存储变为集群化与并行
化的存储资源,在支持计算平台运算时可以通过集群化与并行化
的方式,多个存储节点并行处理业务下发的
的串行存储大幅提高性能
由于采用了集群化和并行化的设计方法,对集群进行扩容
相当于在集群中增加了一个并行的通道,不会对在网其他业务产
生影响,即存储资源可以实现在线扩容。
统一硬件平台:
将传统计算环境中相互独立的计算平台,统一在一套计算
平台中进行部署,硬件资源统一管理
将传统计算环境中独立运行的业务,通过统一的业务调度
软件进行管理,不同业务可以使用统一套平台进行计算和分析
I/O 请求,相对传统
硬件资源的统一分配,避免了资源重复建设和资源闲置造
成的能耗居高不下的问题,减低 TCO,提高 ROI。
统一命名空间:
将传统计算环境中相互独立的存储资源变更为可以具有统
一命名空间的文件系统,整个文件系统的存储资源划分进行统一
管理,解决资源分配不均和缺乏统一管理的问题。
将传统的基于存储的数据保护转化为针对文件系统的数据
保护,更直接更灵活。
传统计算环境面临的挑战
性能瓶颈:随着高性能计算在各个行业领域的普及,越来越
多的行业,越来越多的数据需要在 HPC 平台上进行计算和分析,
而传统的串行平台的存储常常成为性能的瓶颈点。
资源分配不均:由于传统的计算平台是独立创建的多个计算
平台,资源分配完全基于预估,根据业务的发展可能会出现部分
平台的业务性能和容量不足,而部分平台的性能和容量过剩的现
象。
缺乏统一管理:对于多个孤立的计算环境,需要分别对不同
的平台进行管理,且各个环境采用不同的架构设计为管理也增加
了复杂性。
能耗居高不下:由于资源不能复用,各个应用的环境需要独
立的主机、网络、存储,造成了能耗居高不下。
扩容部署复杂:对于传统的计算环境,由于无法模块化
scale-out,导致扩容复杂,加之各个环境相对孤立,扩容需要针
对每个应用环境分别进行,增加了复杂性。
需求的膨胀推动着技术变革,技术的革新进一步丰富着我
们的生活,如今大数据、云计算技术已经自身疲惫了。然而跨界竞争
和技术融合迫使我们不断换血和补充能量来适应一次次变革。那么在
人工智能、虚拟现实、物联网等技术热潮过后,能预测到的下一个技
术热点会是什么,高性能计算(HPC)?面对技术和行业融合现状,HPC
应该再适合不过了,另外,我也倾向于把 HPC 看作是一种跟各个行业
比较紧密结合的技术。
1.1
HPC 主要场景和分类
在这里谈到的 HPC,已经不仅仅是简单的一堆计算、网络、存
储、HPC 软件等设备,而更多的是聚焦在 HPC 的发展、主流玩家、技
术趋势和HPC 未来出路。回顾历史,传统HPC 还是主要聚焦在仿真、物
理化学、生命科学、渲染、勘探和气象等六大场景,上层 HPC 集群化
的特定应用环境也是比较固定。
请点击此处输入图片描述
随着大数据、云计算和技术发展和行业融合,HPC 在各个
层面的分类也发生了一些变化,根据 HPC 应用的目标市场可分为HPC
商业市场和HPC 科研市场。
请点击此处输入图片描述
然而,我个人觉得这个划分相对来说太过于宽泛。行业采
用比较多且容易理解的划分方法是按照传统 HPC(以上述的六大场景
为主),HPDA 高性能数据分析、HPC Anywhere 和HyperScale 四大类。
请点击此处输入图片描述
HPC Anywhere 也实现了 HPC 和云的结合,例如Panzura、
Ctera、Avere 和 Nasumi 等集群文件网关存储厂商,他们提供一个高
速的本地分布式 NAS 系统,用于对接 AWS、Azure 等这样的公有云对
象存储和一些低速的 NAS 产品,通过这些网关提供了一个缓冲层,可
以设置策略让数据在网关和其它存储之间流动,实现
存储直接与集群网关连接,甚至与公有云链接。
NAS 或 Object
1.2
HPC 系统主要组成
HPC 系统涉及存储、计算节点、网络、HPC 软件和 L1 层冷
却、机房、供电等多种复杂设备,但是从技术角度讲,服务器、网络
标准都比较统一,每家厂商设计出的产品除了在管理方面差异较大之
外,其他方面基本保持在同等水平。然而标准不一、最容易提升方案
竞争力的还是存储设备。
1.3
HPC IO 业务模型
HPC 存储是在 HPC 应用环境下,为解决传统串行存储性能
瓶颈,所提出的专用存储。HPC 存储侧的容量、性能、IOPS 与 HPC
计算侧的规模、性能弱相关。HPC 存储主要关注点性价比、低成本、
占地空间等;在 HPC 典型应用场景下,常见的业务模型大致如下:
请点击此处输入图片描述
在 IOR 测试工具中,IOPS 实际上就等同于 OPS,IOR 工具
在HPC 的BenchMark 测试中采用的是比较多的,主要原因是 IOR 对带
宽和OPS 都比较适合,并提供丰富的参数来模拟不同的业务IO 模型。
1.4
HPC 系统架构演变
如果我们回顾一下 HPC 存储技术发展历史,不管采用怎样
的分类,我们会看到几年前,HPC 架构是典型的 3 层架构,即计算节
点内存、并行文件系统和归档存储。平行文件系统对 HPC 性能影响是
最大的,在某种意义上决定 pFS 乃至整个 HPC 存储性能,所以针对超
大规模HPC 集群,成千上万个计算节点需要同时 Checking Point 时,
一般基于 NL_SAS 磁盘的并行文件系统就有点力不从心了,那就需要在
pFS 之上多加一层高速大容量(相对于 Memory)的Cache。
请点击此处输入图片描述
Burst Buffer 技术和产品的出现使得 HPC 计算架构发生了
变化,Campaign 存储如同数据热备,它的出现给数据生命周期管理
增加了更多选择。我个人认为 Burst Buffer 技术只是一个技术过度,
如果改善系统性能的 Hybird 存储,不过,在目前 SSD 还相当贵的状
况下,Burst Buffer 却能够更好的匹配超大型 HPC 场景极致性能需
求。在性能和容量空间比在 20MB/TB 至200MB/TB 之间,Burst Buffer
可以说是非常适合的,通过简单的配置调整,基本不会出现容量或性
能超配,而且能发挥出 SSD 的价值。
如果没有 Burst buffer,所有性能层需要 pFS 来承载,
的Checking Point 时性能需要 pFS 来承载内存数据,Burst Buffer
另一个作用是在浪涌IO 模型下,Burst Buffer 可以作为高性能层和
pFS 一起提供性能,对小 IO 可以进行合并优化。目前DDN、Cray、EMC
等都已经支持,并且 IBM 也会很快支持,DDN、Cray 和EMC 的Burst
buffer 方案可以参考我之前的文章 Burst Buffer
此盛行。
技术为何在 HPC 如
1.5
HPC 市场的主流玩家
我们再来看看 HPC 行业的的主要玩家,主要看看服务器和
存储。服务器厂商在 HPC 行业的的情况基本上和在整个服务器产品的
市场份额保持一致。在技术上,服务器没什么好说的,加内存,加
CPU,加接口卡性能一定会提升,通过高密节点也很容易提升密度。
1.5.1
HPC 存储厂商分类
HPC 存储厂商实主要分了 3 类,服务器厂商、传统存储厂
商和专注于 HPC 行业的存储厂商。从这些厂商我们看到,IBM 虽然是
服务器或者是传统存储厂商,但是借助于 GPFS,其市场份额比较大
的,随着Lustre 放弃企业版给客户带来的不确定性,GPFS 的市场份
额还会上升。DDN 目前实现了Burst Buffer IME,在很多场景下凭借
高性能、NVMe SSD 和高密度领军整个 HPC 行业。
1.5.2
Burst Buffer 介绍
既然说到这里了,我们简单看看 DDN 的Burst Buffer IME
产品,IME 产品支持三种形态。
IME240 采用 2U 商用服务器。单个产品提供 20GB 带宽,提供 48
块 NVMe SSD,支持 800G 和1.8TB。5 个IME240,配置 1.8TB 磁盘满
配,提供 100GB 带宽,300TB 容量,容量使用率 80%。
版权声明:本文标题:高性能计算(HPC)技术、方案和行业全面解析 内容由网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://www.freenas.com.cn/jishu/1710228983h564967.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论