大模型时代下,湖仓一体化架构选型与挑战
共 3536字,需浏览 8分钟
·
2024-06-13 14:32
Lakehouse作为一种创新的开放架构,巧妙融合了数据湖与数据仓库的精华特质。通过整合数据湖的非结构化数据存储能力和数据仓库的数据处理和管理功能,实现了数据湖和数据仓库的无缝连接,使得数据和计算在湖和仓之间自由流动,从而更好地发挥出数据湖的灵活性和数据仓库的成长性。
随着技术的不断发展和成熟,Lakehouse正逐渐从概念验证阶段过渡到实际应用阶段,越来越多的企业开始采用Lakehouse作为其数据存储和管理的解决方案。阿里巴巴集团多年前便借助Apache Hudi等开源技术打造了自研Lakehouse平台,实现了数据湖和数据仓库的无缝对接。目前,这一架构已应用于阿里巴巴内部的电商、物流、金融等多个领域,有效提升了数据处理效率,并深化了业务洞察力。
在大模型时代,企业将如何进行湖仓一体化架构选型?下一代Lakehouse架构方向又在哪里?未来面临着怎么样的挑战?让我们在 6 月 15 日举办的以「大模型时代的 OLAP 技术演进」为主题的第 58 届 DataFunSummit:OLAP 线上峰会中,「Lakehouse 湖仓一体化架构」论坛上看头部企业如何做!精彩内容,扫码报名,免费参会。
探访大厂,Lakehouse 湖仓一体化架构风向标
本次Lakehouse湖仓一体化架构论坛的出品人程力老师,来自腾讯云。身为腾讯云数据湖存储的负责人,他对数据湖仓存储架构有着深入的理解与丰富的实践经验。此外,程力老师还积极参与开源项目,担任Apache Hadoop Committer及Apache Ozone PMC的角色。
在本次论坛上,程力老师将运用他的经验与知识,精选出更具借鉴价值的精品内容,分享给广大听众。同时,论坛还邀请了阿里云、腾讯云、百度智能云等业界顶尖专家,他们将为我们详细解析新一代湖仓一体化架构的演进历程。
演讲议题一:Apache Paimon:新一代实时湖仓极速 OLAP 体验
嘉宾:叶俊豪 阿里云研发工程师 Apache Paimon Committer
个人介绍:Apache Paimon committer,3年流引擎开发经验,1年数据湖开发经验.
演讲摘要:本次演讲将深入探讨 Paimon Lakehouse 架构的实时入湖技术、Z-order/Hilbert 加速湖上分析、Paimon 自有索引框架及可拓展索引建设、Delection Vector 实现主键表极致分析性能以及全流程建设高性能 OLAP 实时数据湖案例。
演讲提纲:
1.实时入湖:Paimon lakehouse 架构底层技术剖析
2.Clustering:Z-order / Hilbert 加速湖上分析
3.File Index:Paimon 自有索引框架及可拓展索引建设
4.Delection Vector :主键表极致分析性能原理及实现
5.全流程建设:建设高性能 OLAP 实时数据湖案例
听众收益:
1.数据湖 OLAP 性能提升原理
2.实时数据湖架构解析
3.如何构建高性能 OLAP 实时数据湖
演讲议题二:下一代湖仓加速存储 GooseFS 在实时 OLAP 搜索场景中的实践与优化
嘉宾:于飏 腾讯云 COS 对象存储团队资深高级工程师
个人介绍:硕士毕业于西安电子科技大学,一直专注云端对象存储相关技术的研发工作,Hadoop-COS(CosN 文件系统)作者/ Flink-COS 作者以及 COS 多项内部系统作者,Hadoop/Alluxio Contributor,GooseFS 核心 Founder,内核架构与核心特性设计与开发者。
演讲摘要:腾讯云对象存储中心推出的 GooseFS 加速存储产品,从最初加速湖仓应用场景下的海量吞吐与数据本地化调度,已经扩展演进到了实时 OLAP 引擎场景。通过引入 Page 小粒度的数据缓存设计以及元数据缓存,显著降低了温冷数据的查询预热延迟。通过构建两级缓存架构与混合部署,让整个基于对象存储架构构建的查询性能与成本达到了较优的水平。
本次分享会着重介绍 GooseFS 在应对腾讯内部实时 OLAP 业务对于温冷数据的低延迟访问需求上所做的优化实践与效果突破。
演讲提纲:
1.GooseFS 加速存储的核心架构
2.GooseFS 在腾讯内部实时 OLAP 搜索场景上的应用落地
3.GooseFS 在低延迟查询搜索请求上的架构演进与性能优化
4.总结
听众收益:
1.OLAP 系统如何基于云端对象存储构建分级缓存加速
2.面向通用场景的大规模分布式缓存如何应对低延迟搜索查询请求
3.分布式缓存系统如何在资源和成本上的实践经验
演讲议题三:基于 Native 技术加速 Spark 计算引擎
演讲嘉宾:张志宏 百度智能云大数据平台部资深工程师
个人介绍:2007 年硕士毕业于中山大学数学与计算科学学院,2013 年加入百度。在百度期间一直从事大数据相关工作,参与了百度大数据平台建设、大数据私有化、公有云等相关项目,最近重点推进 Spark 性能优化相关工作。
演讲题目:基于 Native 技术加速 Spark 计算引擎
演讲摘要:Apache Spark 自从 2013 年由 Berkeley amplab 捐献给 Apache 社区以来,一直处于开源大数据领域的领头羊位置。不过由于其以行式的数据组织形式运行在 JVM 中的特性,导致其性能有很大的提升空间,这也是最近降本增效大背景下的强需求。百度智能云 BMR 团队通过将 ClickHouse 替换 Spark 物理执行引擎的方式,实现了 Spark 数据处理计算任务全部跑在 C++ 上的效果,在保证 Spark 语义、调度框架不变的情况下,实现了 TPCDS 2.3 倍的性能提升。
演讲提纲:
1. Spark 性能优化背景
2. ClickHouse 性能优势解析
3. Spark Native 加速方案设计和实现
4. 加速效果分析
听众收益:
1.从 Runtime 的角度理解 Spark 性能表现
2.了解基于 Native 编码技术加速大数据引擎的解决方案
3.部分了解 ClickHouse 性能优势
4.部分了解不同类型大数据任务优化方案
本次峰会还策划了开源 OLAP 技术、云原生数仓、生成式 AI 在 OLAP 的应用、Lakehouse 湖仓一体化架构、实时数仓以及 OLAP 能效提升等分论坛,所有论坛都将全程直播,识别下方二维码即可免费报名参会。
欢迎扫描上方二维码或点击「阅读原文」报名收看,一起了解大模型时代的 OLAP 技术趋势。
阅读原文:DataFun活动报名