DPark分布式计算框架

联合创作 · 2023-10-01 06:34

DPark 是 Spark 的 Python 克隆，是一个Python实现的分布式计算框架，可以非常方便地实现大规模数据处理和迭代计算。 DPark 由豆瓣实现，目前豆瓣内部的绝大多数数据分析都使用DPark 完成，正日趋完善。

示例代码：

 import dpark

 file = dpark.textFile("/tmp/words.txt")

 words = file.flatMap(lambda x:x.split()).map(lambda x:(x,1))

 wc = words.reduceByKey(lambda x,y:x+y).collectAsMap()

 print wc

该代码可以在本地和 Mesos 集群上运行：

$ python wc.py

$ python wc.py -m process

$ python wc.py -m host[:port]

编辑分享

图片

表情

Paracel分布式计算框架

Paracel是一个分布式计算框架，用于解决机器学习的问题：逻辑回归、SVD、矩阵分解（BFGS，sgd，als，cg），LDA，Lasso...首先，Paracel拆分成大规模数据集和大量的参数空间

Bigflow分布式计算框架

Bigflow是百度的一套计算框架，它致力于提供一套简单易用的接口来描述用户的计算任务，并使同一套代码可以运行在不同的执行引擎之上。它的设计中有许多思想借鉴自 GoogleFlumeJava以及 Go

libGlass分布式计算框架

libGlass 提供了一组可伸缩的组件用来执行分布式计算。应用程序在需要的情况下被当作是可重用的组

Tiny分布式计算框架

其于职业介绍所、工头、工人、工作模型的分布式计算框架。职业介绍所有两种，一种是本地职业介绍所，一种是

ProActive分布式计算框架

ProActiveParallelSuite是一个开源的用于并行处理、分布式和多核计算的中间件。

Paracel分布式计算框架

Paracel 是一个分布式计算框架，用于解决机器学习的问题：逻辑回归、SVD、矩阵分解（BFGS，

Tiny分布式计算框架

其于职业介绍所、工头、工人、工作模型的分布式计算框架。职业介绍所有两种，一种是本地职业介绍所，一种是远程职业介绍所。顾名思义，本地职业介绍所就是在当前计算机上的，远程职业介绍所用于连接到远程职业介绍所

libGlass分布式计算框架

libGlass提供了一组可伸缩的组件用来执行分布式计算。应用程序在需要的情况下被当作是可重用的组件。该框架适合新的应用程序，同时对一些老应用也同样可用，而无需去改写。

ProActive分布式计算框架

ProActive Parallel Suite 是一个开源的用于并行处理、分布式和多核计算的中间件

OhMyScheduler分布式调度平台&计算框架

OhMyScheduler是基于Akka架构的新一代分布式调度与计算框架，能让您轻松完成作业的调度与繁杂任务的分布式计算。项目介绍产品特性OhMyScheduler是基于Akka架构的一款分布式调度与

编辑分享