HBase技术社区
0获赞2粉丝0关注
Hudi 源码 | Hudi 索引:Parquet 布隆过滤器写入过程
前言上篇文章提到 :索引的逻辑主要是根据 parquet 文件中保存的索引信息,判断记录是否存在,如果不存在,代表是新增数据,如果记录存在则代表是更新数据,需要找到并设置 currentLocation。对于布隆索引来说,这里的索引信息其实是布隆过滤器,本篇文章主要是先总结布隆过滤器是如何保存到 p
HBase技术社区
0
Hudi 实践 | Notion 数据湖构建和扩展之路
在过去三年中,由于用户和内容的增长,Notion 的数据增长了 10 倍,以 6-12 个月的速度翻了一番。要管理这种快速增长,同时满足关键产品和分析用例不断增长的数据需求,尤其是我们最近的 Notion AI 功能,意味着构建和扩展 Notion 的数据湖。以下来介绍我们是如何做到的。Notion
HBase技术社区
0
Hudi 源码 | Hudi 索引:Tag 和 TagLocation
前言接上篇文章和之前的总结的源码文章,本文总结源码 tag/tagLocation ,对应功能:根据索引信息判断记录是否存在,如果不存在,代表是新增数据,如果记录存在则代表是更新数据,需要找到并设置 currentLocation。tagAbstractWriteHelper.tag &n
HBase技术社区
0
大模型时代下,湖仓一体化架构选型与挑战
Lakehouse作为一种创新的开放架构,巧妙融合了数据湖与数据仓库的精华特质。通过整合数据湖的非结构化数据存储能力和数据仓库的数据处理和管理功能,实现了数据湖和数据仓库的无缝连接,使得数据和计算在湖和仓之间自由流动,从而更好地发挥出数据湖的灵活性和数据仓库的成长性。 &n
HBase技术社区
0
数据湖核心能力解析
导读 本文将分享数据湖的发展近况。主要内容包括:1. 数据湖发展趋势分析2. 数据湖整体架构3. 数据集成4. Lakehouse 核心能力5. Lakehouse 开放性设计6. 流批一体7. 实时 OLAP8.&nb
HBase技术社区
0
Hudi 实践 | Leboncoin 基于 Apache Hudi 构建 Lakehouse 实践
每天约有 800 万独立访问者访问 Leboncoin,到 2022 年,该网站每月有超过 1000 亿次 HTTP 调用并且启动和运行 700 个应用程序,使其成为访问量最大的法国网站之一。 数据平台团队负责构建和维护平台基础设施以及开...
HBase技术社区
0
Hudi 演变 | LakeHouse 还是 Warehouse?(2/2)
这篇博文包括 Onehouse 首席执行官 Vinoth Chandar 于 2022 年 3 月在奥斯汀数据委员会发表的重要演讲的后半部分。本文是第 2 部分,比较了架构的功能和性价比特征。最后,它描述了一个面向未来的、湖仓一体的架构。...
HBase技术社区
0
Paimon 实践 | 幸福里基于 Flink & Paimon 的流式数仓实践
摘要: 本文整理自字节跳动基础架构工程师李国君,在 Streaming Lakehouse Meet
HBase技术社区
0