Pulsar-Flink Connector允许 Flink 向 Pulsar 读写数据
Apache Pulsar 是 Apache 软件基金会顶级项目,是下一代云原生分布式消息流平台,集消息、存储、轻量化函数式计算为一体,采用计算与存储分离架构设计,支持多租户、持久化存储、多机房跨区域数据复制,具有强一致性、高吞吐、低延时及高可扩展流数据存储特性。
Apache Flink是一款面向数据流处理和批量数据处理的分布式的计算引擎,它可以用来做批处理,即处理静态的数据集、历史的数据集;也可以用来做流处理,即实时地处理一些实时数据流,实时地产生数据的结果;也可以用来做一些基于事件的应用。
Apache Pulsar 能以不同的方式与 Apache Flink 融合: 使用流式连接器(Streaming Connectors)支持流式工作负载,或使用批式源连接器(Batch Source Connectors)支持批式工作负载。
Pulsar 还提供了对 Schema 的原生支持,可以与 Flink 集成并提供对数据的结构化访问。例如,使用 Flink SQL 在 Pulsar 中查询数据, 另外还能将 Pulsar 作为 Flink 的状态后端。由于 Pulsar 具有分层架构(Apache Bookkeeper 支持下的 Streams 和 Segmented Streams),因此可以将 Pulsar 作为存储层并存储 Flink 状态。
Pulsar Flink Connector 集成了 Apache Pulsar 和 Apache Flink(数据处理引擎),允许 Apache Flink 向 Apache Pulsar 读写数据。Pulsar 支持 Flink 的批流融合计算计算,无需用户再进行多余的操作。
使用前提
-
Java 8 及以上版本
-
Flink 1.9.0 及以上版本
-
Pulsar 2.4.0 及以上版本