干货:该从哪些关键指标衡量HPC存储系统?
架构师技术联盟
共 6601字,需浏览 14分钟
· 2021-01-05
对高性能计算存储系统的购买者来说,总拥有成本(TCO)通常被认为是一个重要的考虑因素。由于HPC用户对TCO的定义不同,因此很难根据预定义的一组属性进行比较。
被调查的网站中,近50%的站点存储系统每月会出现一次故障,甚至更频繁。 停机时间从不到一天到一周以上,一天的停机成本从10万美元到100多万美元不等。
存储专家招聘/培训:Lustre、GPFS和BeeGFS文件系统需要专门的存储专业知识,而这些专业知识很难学习和积累。Panasas PanFS并行文件系统不需要任何深厚的技术技能即可进行日常管理。 存储系统安装时间和成本:根据调查,有56%的存储系统需要数周的时间安装,Panasas系统通常一天即可完成安装。 调优和优化时间和成本:Panasas PanFS几乎不需要人工和技术密集的调优即可保持最佳性能,因此保证存储系统的每个部分(CPU,NIC,DRAM和存储介质)处于均衡和优化状态,各种工作负载的性能可预测,无需手动调整或重新配置。 系统管理时间和成本:无论规模大小,60%的站点需要一位以上的专业人员来管理其存储系统,Panasas存储通常只需要一名兼职管理员来管理。 系统停机时间:42%的受访者表示每周或每月都有停机发生。Panasas现网部署案例已证明长达8年无计划外停机事件发生。
Panasas认为Panasas可以在性价比方面满足最苛刻的HPC存储要求。PanFS的系统的性能大约是Lustre,GPFS和BeeGFS类似配置系统的两倍。因此,HPC组织无需在性能和价格之间进行权衡。
1)、IBM Spectrum Scale(GPFS)性能对比
小文件存储在低延迟闪存SSD上 大文件存储在低成本,大容量,高带宽的HDD上 元数据存储在低延迟NVMe SSD上 数据和元数据操作以NVDIMM内部日志方式执行 未修改的数据和元数据存储在DRAM中
以下内容将对Hyperion Research原报告数据解读,对HPC存储、传统存储存在问题进行剖析,以及分析下构建AI和HPC存储系统6大要素。
1、没有性能限制(扩展性):HPC存储解决方案在扩展时应该没有性能限制,无论是Scale Out还是Scale Up架构。因此性能按需扩展可以快速解决不断变化的存储需求,通过灵活扩展系统,快速发挥每个节点全部性能价值。 2、始终如一的高性能(性能一致):无论数据,应用程序,用户和工作负载的复杂性如何,都提供始终如一的快速存储。 3、智能数据放置(数据多层布局):多层智能数据布局架构,为不同数据类型匹配正确的存储类型,元数据和数据的独立存放,数据路径并行,无瓶颈。充分发挥不同存储介质性能特征,以最低的成本提供最高的性能。 4、易于部署,管理和扩展(TCO):存储易于操作,即插即用,不需要深入的技术技能来管理。系统管理员应该能够在几秒钟内完成容量和性能配置和扩展,一个IT管理员可以处理任何规模的存储系统。 5、可靠(系统Down机率):HPC存储的可靠性随规模而加剧,存储应该自动从故障中恢复,并且没有单点故障。智能软件(AI或机器学习)可以自动协调恢复和修复过程。 6、系统自动调优(系统自调优):系统调优需深厚存储系统知识,熟悉存储系统工作方式。人工调优耗时、复杂且容易出错,存储系统需要具备自我调优能力,系统一旦经过调优,就可以优化绝大多数HPC应用的性能,而不需要随着工作负载的变化而重新进行调整。
转载申明:转载本号文章请注明作者和来源,本号发布文章若存在版权等问题,请留言联系处理,谢谢。
推荐阅读
更多架构相关技术知识总结请参考“架构师技术全联盟书店”相关电子书(35本技术资料打包汇总详情可通过“阅读原文”获取)。
全店内容持续更新,现下单“架构师技术全店打包汇总(全)”,后续可享全店内容更新“免费”赠阅,价格仅收188元(原总价290元)。
温馨提示:
扫描二维码关注公众号,点击阅读原文链接获取“架构师技术全店资料打包汇总(全)”电子书资料详情。
评论
零售业降本增效的新举措:从卖场的能耗入手
导语:对于超市企业来讲,通过节能灯具减少40%以上照明电费,是切实可行的节流方案之一。商超节能,势在必行!零售企业的降本增效从何入手?它们更需要怎样的创新产品与照明解决方案?广东富兴商超照明有限公司总经理唐京飘在第二十届全国连锁商业发展战略论坛上,与大家分享了“如何用科技创新推动超市节能”的主题演讲
联商网资讯
0
面试官:限流的常见算法有哪些?
限流的实现算法有很多,但常见的限流算法有三种:计数器算法、漏桶算法和令牌桶算法。1.计数器算法计数器算法是在一定的时间间隔里,记录请求次数,当请求次数超过该时间限制时,就把计数器清零,然后重新计算。当请求次数超过间隔内的最大次数时,拒绝访问。计数器算法的实现比较简单,但存在“突刺现象”。突刺现象是指
Stephen
0
Redis 是怎么从单体架构发展到分布式缓存的?
图解学习网站:https://xiaolincoding.comRedis 架构是如何一步一步发展到今天的样子的?2010 年 - 单体 RedisRedis 1.0 于 2010 年发布,当时的架构非常简单。它通常用作业务应用程序的缓存。不过,Redis 将数据存储在内存中。当我们重启 Redis
小林coding
10
【大模型】RAG全链路的关键模块解析
原文:https://zhuanlan.zhihu.com/p/682253496整理:青稞AI1. 背景介绍RAG(Retrieval Augmented Generation,检索增强生成 )方法是指结合了基于检索的模型和生成模型的能力,以提高生成文本的质量和相关性。该方法是Meta在2020年
机器学习算法与Python实战
32
AI大模型之路 第三篇:从零实现词嵌入模型,加深理解!
你好,我是郭震今天我们研究「AI大模型第三篇」:词维度预测,很多读者听过词嵌入,这篇文章解答下面问题:词嵌入是什么意思?怎么做到的?原理是什么?从零实现一个专属你数据集的词嵌入我们完整从零走一遍,根基的东西要理解透,这样才能发明出更好的东西。1 skip-gram模型Skip-gram模型是一种广泛
Python与算法社区
11
从理解路由到实现一套Router(路由)
大厂技术 高级前端 Node进阶点击上方 程序员成长指北,关注公众号回复1,加入高级Node交流群平时在Vue项目中经常用到路由,但是也仅仅处于会用的层面,很多基础知识并不是真正的理解。于是就趁着十一”小长假“查阅了很多资料,总结下路由相关的知识
程序员成长指北
347
面试官:工作中常见OOM有哪些?
面试题大全:www.javacn.site今天接着线上问题这个话题,跟大家一起聊聊线上服务出现OOM的场景有哪些?希望对你会有所帮助。1 堆内存OOM堆内存OOM是最常见的OOM了。出现堆内存OOM问题的异常信息如下:java.lang.OutOfMemoryError: Java&nbs
Java中文社群
0
从15万到100万,胖东来给步步高带来了什么?
出品/联商网撰文/上佳这段时间,“胖东来爆改步步高初显成果”上了长沙榜的热搜。4月15日,《联商网》报道称,在胖东来帮扶调改下的,步步高长沙梅溪湖店当日门店销售已经突破100万元,客流达13000人。据悉,调改前,该门店平均日销在15万元左右,日均客流2000人,调改4天销售持续走高。这是一个令人惊
联商网资讯
3