DPark分布式计算框架
DPark 是 Spark 的 Python 克隆,是一个Python实现的分布式计算框架,可以非常方便地实现大规模数据处理和迭代计算。 DPark 由豆瓣实现,目前豆瓣内部的绝大多数数据分析都使用DPark 完成,正日趋完善。
示例代码:
import dpark file = dpark.textFile("/tmp/words.txt") words = file.flatMap(lambda x:x.split()).map(lambda x:(x,1)) wc = words.reduceByKey(lambda x,y:x+y).collectAsMap() print wc
该代码可以在本地和 Mesos 集群上运行:
$ python wc.py $ python wc.py -m process $ python wc.py -m host[:port]
评论
Paracel分布式计算框架
Paracel是一个分布式计算框架,用于解决机器学习的问题:逻辑回归、SVD、矩阵分解(BFGS,sgd,als,cg),LDA,Lasso...首先,Paracel拆分成大规模数据集和大量的参数空间
Paracel分布式计算框架
0
Bigflow分布式计算框架
Bigflow是百度的一套计算框架,它致力于提供一套简单易用的接口来描述用户的计算任务,并使同一套代码可以运行在不同的执行引擎之上。它的设计中有许多思想借鉴自 GoogleFlumeJava以及 Go
Bigflow分布式计算框架
0
Tiny分布式计算框架
其于职业介绍所、工头、工人、工作模型的分布式计算框架。职业介绍所有两种,一种是本地职业介绍所,一种是远程职业介绍所。顾名思义,本地职业介绍所就是在当前计算机上的,远程职业介绍所用于连接到远程职业介绍所
Tiny分布式计算框架
0