Apache Fluo大规模数据集增量处理系统

联合创作 · 2023-09-19 02:01

Apache Fluo 是 Google Percolator（搜索索引）的开源实现，允许用户对存储在 Apache Accumulo 中的大型数据集进行增量更新，而无需重新处理所有的数据。与批处理和流处理框架不同的是，Fluo 提供了更低的延迟，并且可以在极大的数据集上运行。

在将新数据与现有数据相结合时，与批处理框架（例如 Spark，MapReduce）相比，Fluo 可明显减少延迟。其增量更新是使用事务实现的，允许数千个更新同时发生而不会破坏数据。

Fluo 已于 2017 年 7 月孵化成功，毕业成为 Apache 顶级项目。

浏览 12

点赞

收藏

分享

举报

评论

图片

表情

ALITA:用于自动驾驶的大规模增量数据集

Apache Giraph分布式处理系统

ApacheGiraph是一个可伸缩的分布式迭代图处理系统，灵感来自BSP(bulksynchronousparallel)和Google的Pregel.Giraph区别于其他项目的是开源、基于Had

Apache Pig大规模数据分析平台

ApachePig是一个分析大型数据集的平台，它由表达数据分析程序的高级语言和评估这些程序的基础设施组成。Pig程序的突出特性是其结构可以进行大量的并行化，进而使其能够处理非常大的数据集。目前，Pig

Apache Pig大规模数据分析平台

Apache Pig是一个分析大型数据集的平台，它由表达数据分析程序的高级语言和评估这些程序的基础设

Greenplum DB大规模并行处理系统

Greenplum之前属于Pivotal，是一家总部位于美国加利福尼亚州，为全球大型企业用户提供新型企业级数据仓库(EDW)、企业级数据云(EDC)和商务智能(BI)提供解决方案和咨询服务的公司。目前

MapReduce大规模数据集软件架构

MapReduce是Google提出的一个软件架构，用于大规模数据集（大于1TB）的并行运算。概念"Map（映射）"和"Reduce（化简）"，和他们的主要思想，都是从函数式编程语言借来的，还有从矢量

Tencent ML-Images大规模多标签图像数据集

TencentML-Images 由多标签图像数据集ML-Images与业内目前同类深度学习模型中精度最高的深度残差网络ResNet-101构成。ML-Images:最大的开源多标签图像数据库，包括1

微软开源的数据分析任务处理系统

开源你我他

Cobar关系型数据的分布式处理系统

Cobar是关系型数据的分布式处理系统，它可以在分布式的环境下像传统数据库一样为您提供海量数据服务。

Cobar关系型数据的分布式处理系统

Cobar是关系型数据的分布式处理系统，它可以在分布式的环境下像传统数据库一样为您提供海量数据服务。以下是快速启动场景：系统对外提供的数据库名是dbtest,并且其中有两张表tb1和tb2。tb1表的

点赞

收藏

分享

举报