HDFS 为何在大数据领域经久不衰?
浪尖聊大数据
共 4947字,需浏览 10分钟
· 2022-07-08
1 概述
1.1 简介
Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS 源自于Google的GFS论文,发表于2003年,HDFS是GFS的克隆版
1.2 设计目标
filel:node1 node2 node3
file2: node2 node3 node4
file3: node3 node4 node5
file4: node5 node6 node7
不管文件多大,都存储在一个节点,在进行数据处理时,很难进行并行处理,节点可能就成为网络瓶颈,很难进行大数据的处理 存储负载很难均衡,每个节点的利用率很低
巨大的分布式文件系统 运行在普通廉价的硬件 易扩展、为用户提供性能不错的文件存储服务
2 如何设计一个分布式文件系统
NameNode用于管理文件系统的命名空间以及调节客户访问文件 还有多个DataNode(简称DN),数据节点,作为从节点(slave server)存在 通常每个集群中的DataNode,都会被NameNode所管理,DataNode用于存储数据
NameNode
,而其他集群中的机器各自运行一个DataNode
实例。虽然一台机器上也可以运行多个节点,但不推荐。DataNode
存储用户的文件对应的数据块(Block) 会定期向NN发送心跳信息,汇报本身及其所有的block信息和健康状况
NameNode
负责客户端请求的响应 负责元数据(文件的名称、副本系数、Block存放的DN)的管理
3 S副本机制
Block多份复制存储的示意图
Block1的两个备份存储在DataNode0和DataNode2两个服务器上 Block3的两个备份存储DataNode4和DataNode6两个服务器上
副本存放策略
第一个副本会随机选择,但是不会选择存储过满的节点 第二个副本放在和第一个副本不同且随机选择的机架 第三个和第二个放在同一机架上的不同节点 剩余副本完全随机节点
合理性分析
可靠性:block存储在两个机架 写带宽:写操作仅穿过一个网络交换机 读操作:选择其中一个机架去读 block分布在整个集群
5 HDFS的高可用设计
5.1 数据存储故障容错
5.2 磁盘故障容错
5.3 DataNode故障容错
5.4 NameNode故障容错
一台作为主服务器提供服务 一台作为从服务器进行热备
6 保证系统可用性的策略
冗余备份
失效转移
降级
总结
评论
某大公司为逼迫员工离职,竟然把他的工位安排到厕所旁,没想到他直接开始记录领导的如厕时间,还发到公司大群...
上一篇:字节的跳动职级与薪资(2024年)我们与公司间的合作,宛如两艘船只在茫茫大海上相互依靠,共同抵御风浪,携手驶向成功的彼岸。然而,当航向开始产生分歧,或是波涛汹涌的风浪改变了我们的初衷,我们或许应当冷静地选择和平分手,而非在风雨中硬撑。最近,一位网友的遭遇引起了广大职场人的关注和热议。这位网友
开发者全社区
0
CVPR 2024|大视觉模型的开山之作!无需任何语言数据即可打造大视觉模型
↑ 点击蓝字 关注极市平台作者丨科技猛兽编辑丨极市平台极市导读 本文提出一种序列建模 (sequential modeling) 的方法,不使用任何语言数据,训练大视觉模型。>>加入极市CV技术交流群,走在计算机视觉的最前沿本文目录1 序列建模打造大视觉模型(来自 U
极市平台
1
人工智能周刊#18:微软发布手机端大模型、Llama 3 中文模型列表、苹果开源新项目、
主打尊重隐私的搜索引擎 duckduckgo,也推出了 ai chat 服务,可以使用 chatgpt 或者 claude机器学习周刊:关注 Python、机器学习、深度学习、大模型等硬核技术本期目录:1、Qwen1.5-110B:Qwen1.5 系列的首个千亿参数开源模型2、苹果开源
机器学习算法与Python实战
0
5000w+ 的大表如何拆?亿级别大表拆分实战复盘
前言笔者是在两年前接手公司的财务系统的开发和维护工作。在系统移交的初期,笔者和团队就发现,系统内有一张5000W+的大表。跟踪代码发现,该表是用于存储资金流水的表格,关联着众多功能点,同时也有众多的下游系统在使用这张表的数据。进一步的观察发现,这张表还在以每月600W+的数据持续增长,也就是说,不超
码农编程进阶笔记
0
中国人民大学《大语言模型》书籍中文版开放下载!还配套代码工具库~
大语言模型综述文章《A Survey of Large Language Models》团队终于出书啦!而且是中文版——《大语言模型》!这本书整理呈现了大模型技术框架和路线图,是一本非常好的入门书籍。🧿🧿🧿
此外,官方不仅发布了电子版 PDF 下载链接,还提供了配套资源。点赞 👍图书下载 → [大
机器学习算法与Python实战
0
Datawhale来“瓜大”(西工大🫡)啦!
Datawhale线下 主办方:Datawhale团队西北工业大学(Northwestern Polytechnical University)简称“西工大”,位于陕西省会西安市,直属中华人民共和国工业和信息化部,是中国唯一一所以同时发展航空、航天、航海(三航)工程教育和科学研
Datawhale
1
让扩散模型听话的小秘籍?CAN:通过操控权重来控制条件生成模型,图像生成效率大升级!
↑ 点击蓝字 关注极市平台作者丨科技猛兽编辑丨极市平台极市导读 本文提出的 CAN 模型 (Condition-Aware Neural Network) 是一种对图像生成模型添加控制的方法。CAN 可以通过动态操纵神经网络的权重来控制图像生成过程。作者在 ImageNet 图像
极市平台
0
突发!特斯拉大裁员,毁约应届生offer!
4月24日消息,特斯拉公司近期在全球范围内进行裁员,同时取消了许多应届毕业生的工作邀约(Offer),这一行为引起了广泛的讨论和关注。有不少网友在社交平台发帖称“特斯拉毁约应届生”,还有网友表示:还没上班就被公司单方面违约,感谢特斯拉让应届大学生真正做到了毕业即失业……还有网友发帖求职,在春招都快结
码农突围
0