Apache Spark开源集群计算环境

联合创作 · 2023-10-01 06:25

Apache Spark 是一种与 Hadoop 相似的开源集群计算环境，但是两者之间还存在一些不同之处，这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越，换句话说，Spark 启用了内存分布数据集，除了能够提供交互式查询外，它还可以优化迭代工作负载。

Spark 是在 Scala 语言中实现的，它将 Scala 用作其应用程序框架。与 Hadoop 不同，Spark 和 Scala 能够紧密集成，其中的 Scala 可以像操作本地集合对象一样轻松地操作分布式数据集。

尽管创建 Spark 是为了支持分布式数据集上的迭代作业，但是实际上它是对 Hadoop 的补充，可以在 Hadoo 文件系统中并行运行。通过名为 Mesos 的第三方集群框架可以支持此行为。Spark 由加州大学伯克利分校 AMP 实验室 (Algorithms, Machines, and People Lab) 开发，可用来构建大型的、低延迟的数据分析应用程序。

一个简单的计算：

file = spark.textFile("hdfs://...")

 

file.flatMap(line => line.split(" "))

    .map(word => (word, 1))

    .reduceByKey(_ + _)

浏览 21

点赞

收藏

分享

举报

评论

图片

表情

.NET for Apache Spark

.NETforApache®Spark™项目可以让.NET开发者轻松的使用 ApacheSpark™。.NETforApacheSpark提供高性能的.NET API以便轻松的在C#和F#程序中使用

Apache Mesos集群管理器

ApacheMesos是一个集群管理器，提供了有效的、跨分布式应用或框架的资源隔离和共享，可以运行Hadoop、MPI、Hypertable、Spark。特性：Fault-tolerantreplic

Apache Mesos集群管理器

Apache Mesos是一个集群管理器，提供了有效的、跨分布式应用或框架的资源隔离和共享，可以运行

Coherence集群计算部件

Coherence是Oracle为了建立一种高可靠和高扩展集群计算的一个关键部件，集群指的是多于一个应用服务器参与到运算里。Coherence的主要用途是共享一个应用的对象(主要是java对象，比如W

Coherence集群计算部件

Coherence是Oracle为了建立一种高可靠和高扩展集群计算的一个关键部件，集群指的是多于一

SynapseMLMicrosoft Machine Learning for Apache Spark

MicrosoftMachineLearningforApacheSparkMMLSparkisanecosystemoftoolsaimedtowardsexpandingthedistribute

《Apache Spark 设计与实现》

本文主要讨论 Apache Spark 的设计与实现，重点关注其设计思想、运行原理、实现架构及性能调

《Apache Spark 设计与实现》

本文主要讨论ApacheSpark的设计与实现，重点关注其设计思想、运行原理、实现架构及性能调优，附带讨论与HadoopMapReduce在设计与实现上的区别。不喜欢将该文档称之为“源码分析”，因为本

Spark 特性 | Apache Spark 3.1 Structured Streaming 改进

HBase技术社区

Apache Helix集群管理框架

Helix是一个通用的集群管理框架，用于自动化的分区、复制和资源分布，提供如下特性：自动将资源和分区分配给节点节点故障检测与恢复动态添加资源动态向集群添加节点可插拔的分布式状态机，用于通过状态转换来

点赞

收藏

分享

举报