Apache Pig大规模数据分析平台

联合创作 · 2023-10-01 06:12

Apache Pig是一个分析大型数据集的平台,它由表达数据分析程序的高级语言和评估这些程序的基础设施组成。Pig程序的突出特性是其结构可以进行大量的并行化,进而使其能够处理非常大的数据集。

目前,Pig的基础设施层由一个编译器组成,它可以产生Map-Reduce程序序列,对于这些程序,已经存在大规模的并行实现(例如Hadoop子项目)。Pig的语言层目前由一种名为Pig Latin的文本语言组成,它具有以下主要属性:

  • 易于编程。实现简单的、"令人尴尬的并行 "数据分析任务的并行执行是微不足道的。由多个相互关联的数据转换组成的复杂任务被明确编码为数据流序列,使其易于编写、理解和维护。
  • 优化机会。任务的编码方式允许系统自动优化其执行,从而使用户可以专注于语义而不是效率。
  • 可扩展性。用户可以创建自己的功能来进行特殊处理。
浏览 12
点赞
评论
收藏
分享

手机扫一扫分享

编辑 分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

编辑 分享
举报