Apache Paimon毕业，湖仓架构的未来发展趋势！

程序源代码

共 3831字，需浏览 8分钟

·

2024-04-30 12:55

北京时间 2024 年 4 月 16日，开源软件基金会 Apache Software Foundation（以下简称 ASF）正式宣布 Apache Paimon 毕业成为 Apache 顶级项目(TLP, Top Level Project)。经过社区的共同努力和持续创新，Apache Paimon 在构建实时数据湖与流批处理技术领域取得了重大突破，数据湖步入实时新篇章！

恭喜Paimon进入一个新的篇章，这篇文章也是我个人结合当前整个湖仓领域的发展和实践写的一个总结性质的文章。

本文对湖仓方向的核心几个框架没有做对比，Hudi、Paimon、Iceberg、Delta在各个公司都有非常成熟的应用，无丝毫拉踩之意。主要目的是透过当前的各个框架对湖仓领域的发展做一个基本的判断和预测。

湖仓框架能力模型

湖仓领域开源的几个核心框架，基本着眼点都在「同一批流一体存储服务」。那么湖仓领域的框架应该具备的能力包含：

流式读写

应该具备秒级的数据数据写入和数据增量消费能力。

并且如果湖仓的框架想要取代Kafka的部分能力，这个RPS要求在千万级别，但是明显目前是达不到的。在高RPS的业务场景中，湖仓架构不是一个很好的选择，因为性能瓶颈明显，什么都想做的结果就是什么都不能做到极致，

批式读写

在批读和批写方面应该完全涵盖Hive的能力，并且提供分区并发更新、主键更新等额外能力，绝大多数情况下吞吐量应该持平Hive。

此外，湖仓领域的框架需要探索例如部分列更新、维度表等能力，这些能力也是湖仓的框架明显优于传统数据方向框架的标志，目前在各个框架都有在推进中，十分期待。

多引擎集成

湖仓的框架要考虑跟Spark、Flink、Presto等引擎进行高度的集成，不能厚此薄彼。

其他

集中在一些额外的扩展能力，这些能力在传统的数仓框架中不具备/较弱的能力，例如Changelog的聚合、外表挂载等等。

解决的主要问题

首先需要明确的是，湖仓是解决特定场景下问题的能力，基于传统数据仓库的不足而产生的，不存在完全替代xx，只是在特定领域解决特定问题的更优的解决方案。

在湖仓领域，通常我们解决的问题有传统链路不能解决或者成本较高的部分。

我们随便举几个例子：

我们可以基于Hudi/Paimon的表直接进行分析，在流读场景取代Kafka的部分能力，解决Kafka对查询分析能力的弱支持；

基于OLAP成本过高，通过挂在外部表实现存储、计算分离，链路解耦；

在批读场景解决主键更新问题，有效减少下游计算的排序去重成本等等。

这些能力是原来的离线和实时链路不具备的能力，或者支持较弱，需要额外的开发成本，从开发效率、质量和稳定性等方向综合考量的结果，是可以通过湖仓链路进行替代。

最后

湖仓领域发展趋势很好，在国内的几家大厂已经有了成熟的应用，并且在替代原有链路上在进行积极的探索。

未来大家会看到，湖仓领域框架的能力越强，传统的数据开发的理论和开发模式越容易被替代。等到湖仓框架大成的那一天，也许大家已经掌握的技能又要全部推翻重来了。

300万字！全网最全大数据学习面试社区等你来！

如果这个文章对你有帮助，不要忘记 「在看」 「点赞」 「收藏」 三连啊喂！

全网首发|大数据专家级技能模型与学习指南(胜天半子篇)

互联网最坏的时代可能真的来了

我在B站读大学，大数据专业

我们在学习Flink的时候，到底在学习什么？

193篇文章暴揍Flink，这个合集你需要关注一下

Flink生产环境TOP难题与优化，阿里巴巴藏经阁YYDS

Flink CDC我吃定了耶稣也留不住他！| Flink CDC线上问题小盘点

我们在学习Spark的时候，到底在学习什么？

在所有Spark模块中，我愿称SparkSQL为最强！

硬刚Hive | 4万字基础调优面试小总结

数据治理方法论和实践小百科全书

标签体系下的用户画像建设小指南

4万字长文 | ClickHouse基础&实践&调优全视角解析

【面试&个人成长】社招和校招的经验之谈

大数据方向另一个十年开启 |《硬刚系列》第一版完结

我写过的关于成长/面试/职场进阶的文章

当我们在学习Hive的时候在学习什么？「硬刚Hive续集」

浏览 200

点赞

收藏

分享

举报

评论

图片

表情

数据中心网络架构及未来发展趋势

架构师技术联盟

Paimon 概览 | Apache Paimon 流式数据湖 V 0.4 与后续展望

HBase技术社区

Paimon 实践 | 幸福里基于 Flink & Paimon 的流式数仓实践

摘要：本文整理自字节跳动基础架构工程师李国君，在 Streaming Lakehouse Meet

7000字，详解仓湖一体架构！

浪尖聊大数据

Apache River分布式计算的架构

ApacheRiver是一个分布式计算的架构，基于原Sun的JSKStarterKit源码，主要使用Jini规范。

未来10年,软件开发技术的8个发展趋势

Python知识圈

Apache ShenYu 毕业成为 Apache 顶级项目！

未来三个月加密市场发展趋势

道说区块链

智能客服机器人未来发展趋势

对于现代人来讲，智能客服机器人其实并不算是特别的陌生，大多数人在网购的时候都有被智能客服机器人接待过的经历。智能客服机器人主要应用在售前咨询、产品服务等方面，那么，智能客服机器人发展前景究竟如何呢？下面我们就来介绍。值得肯定的一点是，和其它的AI行业一样，智能客服机器人的发展前景是非常好的，在往后也是有很大发展前途的，可以说是一个朝阳产业，以后有很大的发展机会。智能客服机器人现在大多数是使用于网店的交易之中的，一般的客服机器人会在人工客服不在的时间代替人工客服和顾客进行交流，以完成网店正常的运营以及顾客的接待。一般来讲，客服机器人它的工作原理是比较简单的，会从会话中提取相关的词汇，也就是顾客所说的一些话，提取关键词，再根据关

企业直播未来发展趋势如何？

企业直播行业未来发展趋势 1、企业直播专业化，主播生态建设完善未来，企业直播行业将更加注重精细化与专业化运营，产业链布局更加齐全完善。平台通过产品与形式的创新立足自身的差异化特点，避免陷入内容同质化，并通过加强主播生态的构建等举措，强化平台优势，在激烈的竞争格局中赢取用户。 2、企业直播应用场景多元化随着企业直播市场服务细分化、垂直化发展，企业应用场景逐步丰富，涵盖金融、教育、培训、医疗等众多领域。对于规模较大的企业，视频直播服务的应用场景更为多元，主要划分为企业内部和企业外部两方面。企业内部服务以直播技术服务为主，应用场景主要有企业培训、专家讲座、内部会议，注重直播间的私密性和互动型。企业外部服务以直播技术和营销服务相

点赞

收藏

分享

举报