Apache HudiUber 大数据存储系统

联合创作 · 2023-09-18 19:13

Hudi 是 Uber 在 2016 年以“Hoodie”为代号开发,旨在解决 Uber 大数据生态系统中需要插入更新及增量消费原语的摄取管道和 ETL 管道的低效问题。2019 年 1 月,Uber 向 Apache 孵化器提交了 Hudi,从而进一步推进了 Uber 的开源承诺,保证 Apache Hudi 可以在 Apache 软件基金会的开放治理和指导下长期可持续性地增长。

hudi_intro_1.png

Hudi 是一个通用的大数据存储系统,主要特性:

  • 快速,可插入索引的Upsert支持
  • 通过回滚支持以原子方式发布数据
  • 作者与查询之间的快照隔离
  • 数据恢复保存点
  • 使用统计信息管理文件大小,布局
  • 行和列数据的异步压缩
  • 时间轴元数据以跟踪 lineage

Hudi 目前管理着 4000 多个表,这些表在 Uber 上存储了几 PB 的数据,同时将 Apache Hadoop 仓库访问延迟从几个小时降低到 30 分钟以下,这证明了它的可伸缩性。Hudi 还为数百个增量数据管道提供了支撑,与该公司以前使用的解决方案相比,它的成本更低,效率更高。

浏览 10
点赞
评论
收藏
分享

手机扫一扫分享

编辑 分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

编辑 分享
举报