Apache HudiUber 大数据存储系统

联合创作 · 2023-09-18 19:13

Hudi 是 Uber 在 2016 年以“Hoodie”为代号开发,旨在解决 Uber 大数据生态系统中需要插入更新及增量消费原语的摄取管道和 ETL 管道的低效问题。2019 年 1 月,Uber 向 Apache 孵化器提交了 Hudi,从而进一步推进了 Uber 的开源承诺,保证 Apache Hudi 可以在 Apache 软件基金会的开放治理和指导下长期可持续性地增长。

hudi_intro_1.png

Hudi 是一个通用的大数据存储系统,主要特性:

  • 快速,可插入索引的Upsert支持
  • 通过回滚支持以原子方式发布数据
  • 作者与查询之间的快照隔离
  • 数据恢复保存点
  • 使用统计信息管理文件大小,布局
  • 行和列数据的异步压缩
  • 时间轴元数据以跟踪 lineage

Hudi 目前管理着 4000 多个表,这些表在 Uber 上存储了几 PB 的数据,同时将 Apache Hadoop 仓库访问延迟从几个小时降低到 30 分钟以下,这证明了它的可伸缩性。Hudi 还为数百个增量数据管道提供了支撑,与该公司以前使用的解决方案相比,它的成本更低,效率更高。

浏览 8
点赞
评论
收藏
分享

手机扫一扫分享

编辑 分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

编辑 分享
举报