Apache HudiUber 大数据存储系统

联合创作 · 2023-09-18 19:13

Hudi 是 Uber 在 2016 年以“Hoodie”为代号开发，旨在解决 Uber 大数据生态系统中需要插入更新及增量消费原语的摄取管道和 ETL 管道的低效问题。2019 年 1 月，Uber 向 Apache 孵化器提交了 Hudi，从而进一步推进了 Uber 的开源承诺，保证 Apache Hudi 可以在 Apache 软件基金会的开放治理和指导下长期可持续性地增长。

Hudi 是一个通用的大数据存储系统，主要特性：

快速，可插入索引的Upsert支持

通过回滚支持以原子方式发布数据

作者与查询之间的快照隔离

数据恢复保存点

使用统计信息管理文件大小，布局

行和列数据的异步压缩

时间轴元数据以跟踪 lineage

Hudi 目前管理着 4000 多个表，这些表在 Uber 上存储了几 PB 的数据，同时将 Apache Hadoop 仓库访问延迟从几个小时降低到 30 分钟以下，这证明了它的可伸缩性。Hudi 还为数百个增量数据管道提供了支撑，与该公司以前使用的解决方案相比，它的成本更低，效率更高。

浏览 28

点赞

收藏

分享

举报

评论

图片

表情

Apache KuduHadoop 数据存储系统

ApacheKudu简介为了应对先前发现的这些趋势，有两种不同的方式：持续更新现有的Hadoop工具或者重新设计开发一个新的组件。其目标是：对数据扫描(scan)和随机访问(randomacce

Apache BlurNoSQL 数据存储系统

Blur 是一个 NoSQL 数据存储系统，基于 lucene、hadoop、thrift 和 Zo

Apache KuduHadoop 数据存储系统

Apache Kudu 简介为了应对先前发现的这些趋势，有两种不同的方式：持续更新现有的Hadoop

Apache BlurNoSQL 数据存储系统

Blur是一个NoSQL数据存储系统，基于lucene、hadoop、thrift和Zookeeper构建的，包含一系列的分片的lucene索引，可跨越多个服务器存储。这里有一篇介绍入门的文章。

Apache OzoneHadoop 对象存储系统

Ozone是Hadoop的对象存储环境，能将HDFS从文件系统扩展成更加复杂的企业级存储层。Ozon

Apache OzoneHadoop 对象存储系统

Ozone是Hadoop的对象存储环境，能将HDFS从文件系统扩展成更加复杂的企业级存储层。Ozone使得HDFS块存储层能够进一步支持非文件性质的系统数据，而HDFS的文件块架构也将能够支持存储键值

CockroachDB数据存储系统

CockroachDB (蟑螂数据库）是一个可伸缩的、支持地理位置处理、支持事务处理的数据存储系统。

Crate数据存储系统

Crate Data 是一个开源的大规模的可伸缩的数据存储系统，无需任何系统管理需求。提供强大的搜索

Druid-IOOLAP 数据存储系统

Druid是一个开源的专为事件数据的OLAP查询设计的数据存储系统。Druid用于大数据实时查询和分析的高容错、高性能开源分布式系统，旨在快速处理大规模的数据，并能够实现快速查询和分析。Druid具有

Crate数据存储系统

CrateData是一个开源的大规模的可伸缩的数据存储系统，无需任何系统管理需求。提供强大的搜索功能。用于存储各种表格数据、非结构化数据和二进制对象。并可通过SQL进行检索。易于安装和使用，支持高可用

点赞

收藏

分享

举报