干货：该从哪些关键指标衡量HPC存储系统？-技术圈

对高性能计算存储系统的购买者来说，总拥有成本(TCO)通常被认为是一个重要的考虑因素。由于HPC用户对TCO的定义不同，因此很难根据预定义的一组属性进行比较。

考虑到这一事实，Hyperion Research最近进行了一项全球范围的研究，以便更好地了解高性能计算(HPC)存储系统的总拥有成本(TCO)，初始购置成本以及简易安装、运维给用户所带来的收益之间的关系。

该调查针对HPC数据中心规划者、HPC存储系统经理，采购决策者，关键影响者以及HPC存储系统用户。Hyperion在其报告TCO对HPC存储购买者的重要性 中发表了他们的调查结果(文末附报告)，并在Panasas用户会议上也发表了他们的结论（发布会议如下视频链接）。

https://www.youtube.com/embed/86P5T2J5P8o?rel=0&t=3s&autoplay=1

Hyperion Research结果表明，HPC组织（用户）所谓的存储购买标准和存储系统购买后客户遇到的操作问题之间存在严重脱节。更重要的是，报告非常清楚地说明了运维问题对存储生产力和TCO造成的破坏性影响。

被调查的网站中，近50%的站点存储系统每月会出现一次故障，甚至更频繁。
停机时间从不到一天到一周以上，一天的停机成本从10万美元到100多万美元不等。

HPC存储系统故障需要更长时间恢复：HPC存储的可靠性因素相对复杂，调查中当问及存储系统故障恢复需要多长时间时，受访者表示，40%的HPC站点通常需要两天以上时间才能将存储系统业务完全恢复。

HPC存储系统故障会导致严重的生产力损失：调查表明，78%的HPC站点去年都出现了存储故障问题，这对用户的工作效率产生了负面影响。

HPC存储故障造成严重损失：根据调查，高性能计算存储系统的平均故障频率为每年9.8次。调查从存储系统故障中恢复的平均时间是1.7天。而且，据受访者称，他们的平均停工时间花费为每天12.7万美元。

一个典型故障例子：下图表生动地展示了美国一所著名大学的HPC存储故障情况，这所大学经常发生高性能计算存储中断事故，每次花了好几天时间才恢复系统运行。这所大学的业务恢复过程如下图所示，周一发生故障，直到周日才完全恢复。

https://www.vanderbilt.edu/accre/category/cluster-status-notice/

从Hyperion调查报告可以得出的结论：在购买HPC存储系统时，某些数据（例如I /O性能和购置成本）很容易衡量。然而，一些较难衡量的东西常常被忽略。具体来说，持续的运营成本以及架构不一致和复杂的存储解决方案可能对生产率和质量成果产生时间的负面影响。

调查一开始，要求参与者确定他们最重要的购买标准，他们的回应如下图所示。毫不意外，性能一直是HPC存储中的关键指标。正如预期的那样，购买价格和总拥有成本是第二重要的购买标准。实际上，几十年来，高性能和价格/性能一直是HPC存储购买的驱动力。

我们注意到运维人员数量/技能，恢复/弹性能力和软件支持指标排名比较靠后。然而这些标准排名靠后令Panasas的员工感到失望。因为Panasas是一家专注于数据管理要求，存储弹性和领导力强大的存储公司。但接受调查的HPC组织似乎并不关心这些标准，这似乎是对Panasas多年来投入大量时间和精力的否定。

可以得出结论：这些操作问题似乎被大多数HPC组织所忽视。

当被问及最大的运营挑战是什么时，HPC组织困惑地给出了与购买标准列表类似的回答。好像HPC存储的购买者仅优先考虑性能和价格，而不考虑操作问题。似乎忽略先前购买标准所引起后续操作上的麻烦。

HPC组织为了获得价格合理的高性能而舍弃了对可靠性，易于管理和良好支持的应有期望。或者，HPC组织可能根本不相信还有其他选择，因为他们认为，所有HPC存储产品都是复杂且不可靠的。

Panasas认为它是一个高性能且可靠的HPC存储系统，在最具挑战性的存储基础架构运营方面，Panasas通过一站式、易运维设备和方案独特地缓解这些问题，该解决方案不但价位上全覆盖，而且提供最快的并行文件系统：

存储专家招聘/培训：Lustre、GPFS和BeeGFS文件系统需要专门的存储专业知识，而这些专业知识很难学习和积累。Panasas PanFS并行文件系统不需要任何深厚的技术技能即可进行日常管理。
存储系统安装时间和成本：根据调查，有56％的存储系统需要数周的时间安装，Panasas系统通常一天即可完成安装。
调优和优化时间和成本：Panasas PanFS几乎不需要人工和技术密集的调优即可保持最佳性能，因此保证存储系统的每个部分(CPU，NIC，DRAM和存储介质)处于均衡和优化状态，各种工作负载的性能可预测，无需手动调整或重新配置。
系统管理时间和成本：无论规模大小，60％的站点需要一位以上的专业人员来管理其存储系统，Panasas存储通常只需要一名兼职管理员来管理。
系统停机时间：42％的受访者表示每周或每月都有停机发生。Panasas现网部署案例已证明长达8年无计划外停机事件发生。

Panasas认为Panasas可以在性价比方面满足最苛刻的HPC存储要求。PanFS的系统的性能大约是Lustre，GPFS和BeeGFS类似配置系统的两倍。因此，HPC组织无需在性能和价格之间进行权衡。

通过比较，Panasas认为，在HPC存储世界里，只有自己才能提供低接触式设备解决方案所需的性能、简单性、可靠性和强大的技术支持。

Panasas针对运行PanFS文件系统的Panasas ActiveStor Ultra与Lustre，IBM Spectrum Scale（GPFS）、DDN和BeeGFS并行文件系统在性能方面进行了比较。由于比较对象都是横向扩展并行文件系统，因此从理论上讲它们的最大性能是无限的，因此比较时需要采用相对公平的配置。

实际上，这些并行文件系统方案都具有不同的外形尺寸，不同的服务器/JBOD和硬盘驱动器(HDD)数量（在此分析中，统一采用HDD磁盘）。下图显示了解决方案和不同外形尺寸配置示例。

如何比较这些不同尺寸和性能的系统呢？整个测试采取了Panasas基准测试工程师（对Luster和GPFS进行过基准测试）的建议，将每个硬盘驱动器（HDD）的吞吐量看做一个可比较的性能指标，因为每个驱动器带宽是比较不同硬件和软件体系结构存储系统性能(MB/s)的唯一方法。

另外，磁盘数量对系统空间，总体拥有成本和性能效率产生主要影响，这也是高性能文件系统考虑和设计的目标。为了获得HPC系统级比较指标，作者将每个HDD吞吐量数乘以100得到每100个驱动器的吞吐量，并以GB/s表示测试结果。

1)、IBM Spectrum Scale(GPFS)性能对比

先从IBM Elastic Storage Server (ESS)开始，数据来源与官方已发布性能结果。IBM公开材料详细介绍了ESS性能（如下链接第7页）。

https://www.ibm.com/support/pages/sites/default/files/inline-files/$FILE/BuildingandDeployingElasticStorageServer-ESS_0.pdf

以GL4S型号为例，配置334个磁盘驱动器(HDD)的GL4S吞吐量为24 GB/s，即每块HDD磁盘的吞吐量为71.86 MB/s，将每个HDD吞吐量数乘以100可得100 HDD的吞吐量为7.2 GB/s。IBM宣传的读取吞吐量，在本文中，作者重点介绍读吞吐量（因为这是大多数供应商提供的最容易获取的基准值）。

但是请注意，IBM GPFS的写入速度可能比读取速度慢2倍（如下链接）。之所以选择GL4S，是因为GL4S每个HDD的速度比GL6S要快一点，但是读者可以计算出所有IBM ESS系统性能，无论大小，都可以拿100 *单个HDD吞吐量值作比较（进一步支持基于HDD的性能指标）。

http://files.gpfsug.org/presentations/2015/SOEHME-UKUG-Performance-Update-v0.5.pdf

对比发现，4个具有PanFS和96个HDD的ASU Panasas ActiveStor Ultra的读取吞吐量为12,465 MB/s或100块HDD读取吞吐量为13.0 GB/s。对比结果表明Panasas ActiveStor Ultra的读取性能比GPFS快近2倍。

PanFS的读写性能几乎是一样的（PanFS的写入性能比GPFS快近4倍）。值得注意的是IBM ESS的GPFS采用分散数据放置模式，其中数据被随机写入磁盘，分散模式宝贵之处在于可以在文件系统写满时保持统一的性能，避免因碎片而导致性能损失，这是大多数文件系统中不常见的流行功能。在PanFS文件系统不但保持类似一致的性能，而且表现出更高的性能。

Panasas认为，秘诀在于PanFS的最新版本采用多层智能数据布局架构，该架构可为每种数据类型匹配正确的存储类型：

小文件存储在低延迟闪存SSD上
大文件存储在低成本，大容量，高带宽的HDD上
元数据存储在低延迟NVMe SSD上
数据和元数据操作以NVDIMM内部日志方式执行
未修改的数据和元数据存储在DRAM中

由于PanFS新写入的数据保存在NVDIMM中，因此数据是完全异步写入的，数据最后以有效的方式合并写入在HDD上，在顺序区域中累积新写入的数据可减少数据碎片，因此以后读取数据也将是顺序的。此外，ActiveStor Ultra基于负载均衡设计，适当数量的CPU，内存，存储介质和网络（从NIC到磁盘）都没有硬件瓶颈，提供最大性能和最佳的性价比。

2)、Lustre性能对比

对于Lustre，作者查看了来自著名大型网站的Parallel File Systems（如下链接67、68页）的数据，656块HDD可以提供50000MB/s的吞吐量，100块HDD的吞吐量=50000 MB/s /656*100 = 7.6 GB/s。

https://www.hpc.kaust.edu.sa/sites/default/files/files/public/Seagate_Best_Practices-2017.pdf

Lustre系统测试结果显示，Cray性能最好，Seagate ClusterStore相对PanFS的结果如下所示。

除了使用Scatter模式GPFS和PanFS之外，大多数文件系统的性能会随着时间的推移而降低，一些Lustre用户对此感到担忧。文章The Effects of Fragmentation and Capacity on Lustre File System Performance（如下链接15、16页）进行了详细描述，下图描述Lustre性能下降趋势。

http://wiki.lustre.org/images/1/18/Wed07-KaitschucJohn-PaF_LUG2017v2.pdf

3)、BeeGFS性能对比

然后看一下BeeGFS，从BeeGFS网站可以了解不同配置的性能系统，从没有保护的高性能RAID 0系统到性能比较低的ZFS系统。

https://www.beegfs.io/content/documentation/#whitepapers

由于BeeGFS建议为每台服务器配置24至72个磁盘，并配置多个RAID 6组，每个RAID 6组通常使用10或12个HDD。对于每个集群或大量客户端的企业环境，作者选择ThinkParQ编写的性能白皮书建议配置（如下链接第5页）。

https://www.beegfs.io/docs/whitepapers/Picking_the_right_Number_of_Targets_per_Server_for_BeeGFS_by_ThinkParQ.pdf

测试结果显示，48块HDD提供3,750 MB/s吞吐量，100块HDD可以提供3,750 MB/s/48*100 = 7.8 GB/s吞吐量。下面是BeeGFS和Panasas ActiveStor Ultra的测试结果对比表。

最后，看看缓存和不开启缓存的影响。上述测试结果（包括Panasas ActiveStor Ultra的结果）是没有开启Cache的性能。在此，我们可以看下另一种并行文件系统解决方案：基于Lustre的DDN EXAScaler SFA18K（幻灯片21页）。

https://www.slideshare.net/insideHPC/whamcloud-lustre-for-hpc-and-ai

数据显示，400块HDD可达吞吐量为60,000 MB/s 100块HDD提供60,000 MB/s /400* 100 = 15.0 GB/s吞吐量。DDN没有透露这些结果是否采用缓存的结果。Lustre确实具有直写的高速缓存技术（数据先写在高速缓存中，以便后续回读）。

尽管SFA18K数据手册（下面链接1）的缓存信息描述很少，但是以前的SFA14K 是具有512 GB DDR4 RAM的很大缓存（下面链接2）。但再进一步了解DDN后，作者现在假设这些是采用缓存后的结果。

https://www.ddn.com/products/converged-storage-platform-sfa18k/

https://www.ddn.com/products/converged-storage-platform-sfa14k/

Panasas ActiveStor Ultra也有非常大的缓存（每个ASU节点32 GB DDR4 RAM），Cache直写回读缓存测试显示，100块HDD吞吐量为25.4 GB/s。大缓存可能会对应用程序性能明显提升，这就是为什么Panasas和DDN会在系统中采用大缓存硬件。下图显示了Panasas和DDN之间的比较性能。

总结一下：下面显示不同并行文件系统的性能对比（非缓存性能）。在给定的一组硬件（100块HDD，性能瓶颈不在存储控制器）和软件（并行文件系统），PanFS的吞吐量几乎是其他并行文件系统的两倍。

当然，这只是通过公共信息简单评估并行文件系统的高性能存储系统的相对性能。随着每个站点应用程序组合和用例都不同，需要针对特定基准测试获得工作负载。但这确实表明，与这些系统相比，基于PanFS的Panasas ActiveStor Ultra的性能是具备竞争力的。

然而，在TCO节省方面，Hyperion Research调查发现一系列有关运维的相关问题，如：HPC存储系统每月几乎平均的停机时间，每次业务中断平均需要近2天时间恢复，平均每天的停机成本为127,000美元等。如果将这些发现联系在一起，并在在HPC存储系统5年生命周期内转化成TCO。下表的数据将讲述一个令人惊讶的故事。

从数据看，HPC存储系统停机带来的投入成本相当惊人，此外，人员配备和系统调优带来的成本开支巨大。Panasas认为将其解决方案用于HPC存储，则估计可节省数百万美元。结果表明，Panasas的成本节省是所调查平均HPC存储系统的35倍以上。

从市场趋势来看，越来越多的公司正在使用高性能计算应用（例如大规模仿真，探索和AI深度学习）来保持竞争力，支持研究创新，并向客户提供最佳解决方案。但是，如果你的公司像大多数公司一样，也很难正确选择出能够支持这项重要工作的存储系统。

备注：HPC市场2018年服务器收入$13.7 B，其中超级计算系统$5.4 B（单系统>$500K），区域级计算系统$2.5B （单系统$250-500K），部门级计算系统$3.9B（单系统$250K-100K），工作站$2B（<$100K）。

高性能计算存储系统以强劲的速度增长(7.0%复合年增长率)，从2018年的55亿美元增长到2023年的70亿美元。高性能计算存储系统的需求正变得越来越复杂和多样化。

https://www.slideshare.net/insideHPC/hpc-market-update-from-hyperion-research-april-2019

以下内容将对Hyperion Research原报告数据解读，对HPC存储、传统存储存在问题进行剖析，以及分析下构建AI和HPC存储系统6大要素。

谈谈传统HPC存储的问题：尽管Lustre和Spectrum Scale等传统HPC存储功能强大，但它们也可能极其复杂且极难管理，异构系统承载不同HPC工作负载，存储系统调优，优化和维护带来巨大成本开销，随着系统在生命周期内不断扩展，可靠性问题和性能瓶颈在所难免。

再来看看传统企业存储的问题：传统企业存储系统更易于管理，但其性能通常不足以处理数据密集型、要求苛刻的应用程序。

笔者认为，HPC市场应用复杂，需求旺盛，趋势在于HPC存储和企业存储不断融合，Panasas也只是目标客户一个可选项，那么，如何构建存储系统，让自己的存储成为AI和HPC场景的另一个优选存储方案呢，个人认为主要有以下6方面：

1、没有性能限制（扩展性）：HPC存储解决方案在扩展时应该没有性能限制，无论是Scale Out还是Scale Up架构。因此性能按需扩展可以快速解决不断变化的存储需求，通过灵活扩展系统，快速发挥每个节点全部性能价值。
2、始终如一的高性能（性能一致）：无论数据，应用程序，用户和工作负载的复杂性如何，都提供始终如一的快速存储。
3、智能数据放置（数据多层布局）：多层智能数据布局架构，为不同数据类型匹配正确的存储类型，元数据和数据的独立存放，数据路径并行，无瓶颈。充分发挥不同存储介质性能特征，以最低的成本提供最高的性能。
4、易于部署，管理和扩展（TCO）：存储易于操作，即插即用，不需要深入的技术技能来管理。系统管理员应该能够在几秒钟内完成容量和性能配置和扩展，一个IT管理员可以处理任何规模的存储系统。
5、可靠（系统Down机率）：HPC存储的可靠性随规模而加剧，存储应该自动从故障中恢复，并且没有单点故障。智能软件（AI或机器学习）可以自动协调恢复和修复过程。
6、系统自动调优（系统自调优）：系统调优需深厚存储系统知识，熟悉存储系统工作方式。人工调优耗时、复杂且容易出错，存储系统需要具备自我调优能力，系统一旦经过调优，就可以优化绝大多数HPC应用的性能，而不需要随着工作负载的变化而重新进行调整。