Firestorm分布式远程 Shuffle 服务

联合创作 · 2023-10-01 09:01

Firestorm 是一个远程 Shuffle 服务，它为 Apache Spark 应用程序提供了在远程服务器上存储 shuffle 数据的能力。

特性:

支持多种集群部署模式。Firestorm将Shuffle数据存储在了远程，因此计算集群将不再需要大量存储空间。同时，大数据集群的部署模式也变得更加灵活，基于Firestorm，计算存储分离，计算存储混布，在线离线混布等部署模式都得到很好的支撑。

支持Shuffle数据聚合。Firestorm通过服务端对Shuffle数据进行分拣操作，从而达到了数据聚合的目的，大幅降低了在Shuffle过程中对于磁盘的随机访问。同时，Firestorm在客户端和服务端都使用了数据缓存机制，最大化利用内存资源，从而降低了磁盘访问的性能损耗。

灵活适配各种计算引擎和存储方式。Firestorm在实现上采用了计算引擎和存储方式的解耦，因此能通过实现引擎侧接口，灵活支持各类计算引擎(如Spark，MR等)。同样，对于Shuffle数据的存储方式也能支持，如本地文件，HDFS文件及混合模式等。

支持Shuffle数据的正确性校验。Firestorm以Block为单位存储Shuffle数据，对于每个Block都会存储CRC值等元数据。基于这些元数据，不但能过滤无效数据，还能检测数据在整条链路的传递过程中是否缺失，完整，保障计算任务执行过程中的数据正确性。

支持整体架构多活模式。Firestorm采用了主从架构，能更好的管理集群的状况，在任务调度过程中也能采用更灵活的调度方式，提高整体集群资源利用率。为了满足服务高可用，对于主节点还增加了主-备多活模式，提升了集群服务的稳定性。

支持多种指标监控。Firestorm对于集群的运行状况，采集了大量的运行时指标，基于这些指标能实时掌握集群的负载及健康状况，在使用过程中及时准确地发现问题，便于问题的排查。

支持服务在线升级。Firestorm具备节点黑名单功能，客户端和服务端也采用了版本匹配机制。基于这些特征，Firestorm能实现在生产环境在线升级，同时做到应用无感知，增强了生产的实用性。

浏览 19

点赞

收藏

分享

举报

评论

图片

表情

ADBSadb 远程调试服务

adbsAndroidDebugBridge(adb)远程调试服务。功能列表ADB服务WEB控制远程控制扩展包项目采用 gomod 方案，引用了以下第三方包：https://github.com/gi

GLERIOpenGL 远程服务接口

GLERI是一个OpenGL3的远程服务接口，包含一个通讯的socket协议和一个简单应用框架的库实现。

ADBSadb 远程调试服务

adbsAndroid Debug Bridge (adb) 远程调试服务。功能列表ADB 服务WE

GLERIOpenGL 远程服务接口

GLERI 是一个 OpenGL3 的远程服务接口，包含一个通讯的 socket 协议和一个简单应用

FeelHome远程文件服务

FeelHome让你通过互联网来连接你的电脑，并通过浏览器访问电脑上的文件和目录。

Hasor-RSF分布式服务框架

一个高可用、高性能、轻量级的分布式服务框架。支持容灾、负载均衡、集群。一个典型的应用场景是，

Hasor-RSF分布式服务框架

一个高可用、高性能、轻量级的分布式服务框架。支持容灾、负载均衡、集群。一个典型的应用场景是，将同一个服务部署在多个Server上提供request、response消息通知。使用RSF可以点对点调

remoter分布式服务框架

模仿dubbo设计思路开发出来的一套分布式服务框架。当前代码为重构后的版本,因工作问题,重构功能暂未全部结束.后续开发:添加javassist的字节码代理添加fst的序列化功能添加json格式的序列化

分布式与微服务

程序员大白

Simba-Distributed-Mutex分布式锁服务

Simba旨在提供易用、灵活的分布式锁服务，支持多种存储后端实现：关系型数据库、Redis、Zookeeper。安装GradleKotlinDSLvalsimbaVersion="0.3.2";imp

点赞

收藏

分享

举报