MongoDB Hadoop Connector

联合创作 · 2023-10-01 06:26

Hadoop擅长分析和处理大型数据集，而MongoDB擅长存储应用程序的大型数据集，这两者结合到一起，就诞生了Mongo-Hadoop——MongoDB主要负责存储和查询，Hadoop主要负责批处理。

Mongo-Hadoop可以很容易地使用Mongo数据库库以及.bson格式的mongoDB备份文件，并将此作为Hadoop Map/Reduce任务的数据输入源或者输出目标。Mongo-Hadoop先检测数据并计算数据分割，然后交给Hadoop并行处理，这样非常大的数据集就可以快速被处理。

Mongo-Hadoop支持Pig和Hive，这两个开源项目允许编写非常简单的脚本来执行非常复杂的MapReduce工作流。

Mongo-Hadoop还支持Hadoop streaming，这样你可以使用Java以及其他任何编程语言来编写map/reduce函数。目前Mongo-Hadoop支持Ruby、Node.js和Python中的streaming。

Mongo-Hadoop的工作流程如下：

Mongo-Hadoop首先检查MongoDB Collection，并计算数据分割

每个分割部分被分配到Hadoop集群中的一个节点

同时，Hadoop节点从MongoDB（或BSON）获取数据，并进行本地处理

Hadoop合并结果，并输出到MongoDB或BSON

介绍内容来自 iteye

浏览 12

点赞

收藏

分享

举报

评论

图片

表情

Proxy Connector

Proxy Connector 是一个PHP类可用来抓取远程的Web网页，可连接到 HTTP 代理服

Proxy Connector

ProxyConnector是一个PHP类可用来抓取远程的Web网页，可连接到HTTP代理服务器并访问Tor网络来访问任何网站。

MySQL Connector/MXJ

MySQL Connector/MXJ 提供了一个Java 的工具包用来管理和发布 MySQL 数据

pomelo mqtt connector

pomelomqttconnector(pomelomqttconnector)基于MQTT，TCP和WS协议。使用var MqttConnector = require('pomelo-mqtt-c

Mylyn-Mantis Repository Connector

Mylyn-Mantis Repository Connector 是一个 Eclipse 的 My

OSGi JAX-RS Connector

JAX-RS(JSR311)是一个社区驱动的标准用于使用Java构建RESTfulWeb服务。JAX-RS的参考实现是Jersey，并提供OSGI绑定。该项目用于连接服务层的Jersey和OSGi。这

MySQL Connector/Python

MySQL Connector/Python 是一个用 Python 语言实现的 MySQL 客户端

OSGi JAX-RS Connector

JAX-RS (JSR 311) 是一个社区驱动的标准用于使用 Java 构建 RESTful We

pomelo mqtt connector

pomelo mqtt connector (pomelo mqtt connector) 基于 M

MySQL Connector/Arduino

MySQLConnector/Arduino是Arduino上的MySQL驱动，允许Arduino代码直接作为MySQL或者MariaDB的客户端，支持以太网和WIFI连接。

点赞

收藏

分享

举报