Apache Crunch

联合创作 · 2023-10-01 06:35

Apache Crunch（孵化器项目）是基于Google的FlumeJava库编写的Java库，用于创建MapReduce流水线。与其他用来创建MapReduce作业的高层工具（如Apache Hive、Apache Pig和Cascading等）类似，Crunch提供了用于实现如连接数据、执行聚合和排序记录等常见任务的模式库。而与其他工具不同的是，Crunch并不强制所有输入遵循同一数据类型。相反，Crunch使用了一种定制的类型系统，非常灵活，能够直接处理复杂数据类型，如时间序列、HDF5文件、Apache HBase表和序列化对象（像protocol buffer或Avro记录）等。

Crunch并不想阻止开发者以MapReduce方式思考，而是尝试使之简化。尽管MapReduce有诸多优点，但对很多问题而言，并非正确的抽象级别：大部分有意思的计算都是由多个MapReduce作业组成的，情况往往是这样——出于性能考虑，我们需要将逻辑上独立的操作（如数据过滤、数据投影和数据变换）组合为一个物理上的MapReduce作业。

浏览 18

点赞

收藏

分享

举报

评论

图片

表情

Crunch EditorLess 编辑器

Crunch是一个基于AdobeAIR开发的LessCSS的编辑器。主要用于Less的编辑并编译成CSS。

Crunch EditorLess 编辑器

Crunch 是一个基于 Adobe AIR 开发的 Less CSS 的编辑器。主要用于 Less

Apache Cordova是PhoneGap贡献给Apache后的开源项目，是从PhoneGap中

Apache BookKeeper

Apache BookKeeper 是一个可以方便扩展，高可用，低延迟的存储系统。BookKeepe

zookeeper 的客户端调用过于复杂，Apache Curator 就是为了简化zookeepe

Apache Etch 是跨平台，语言和传输方法独立的框架，用来构建和消耗网络服务。Etch 工具集

ApacheAnt,是一个将软件编译、测试、部署等步骤联系在一起加以自动化的一个工具，大多用于Java环境中的软件开发。由Apache软件基金会所提供。

Apache Airavata

Airavata是目前用来建立科学网关的软件工具包，但具有更广泛的潜在用途。它提供的功能组成，管理，执行和监测小范围从本地集群，以国家电网和云计算的计算资源进行大规模的应用和工作流程。小工具接口，Ai

Mavibot™ 是个Java 的多版本并发控制 BTree，是 JDBM（当前 Apache Di

Apache Ant,是一个将软件编译、测试、部署等步骤联系在一起加以自动化的一个工具，大多用于Ja

点赞

收藏

分享

举报