pulsar-io-cloud-storage适用于 Pulsar 的 Cloud Storage 连接器

联合创作 · 2023-10-01 08:59

Apache Pulsar 引入 Cloud Storage Sink 连接器(以下简称为 Cloud Storage 连接器)。Cloud Storage 连接器采用简单、可靠的方式,帮助用户将数据从 Apache Pulsar 迁移到云存储的对象中。

Cloud Storage 连接器定期轮询 Pulsar 数据,然后将其以 Avro、JSON 或 Parquet 格式存储到云存储的对象(AWS S3、Google GCS 等)中。根据用户的环境设置,Cloud Storage 连接器保证向消费者(consumer)“只发送一次” 消息。

Cloud Storage 连接器支持基于 Pulsar 主题分区或者基于时间(以天或小时为单位)的 partitioner。Partitioner 将 Pulsar 主题分区拆分成为多个数据块。数据块相当于云存储中的对象,其虚拟路径使用 Pulsar 分区 ID和该数据块的起始偏移量进行编码。对 Pulsar 分区和该数据块的起始偏移量进行编码。数据块的大小取决于云存储写入的记录的数量和 schema 兼容性。如果没有在配置中指定 partitioner,则使用保留 Pulsar 分区的缺省 partitioner。

Cloud Storage 连接器支持以下功能:

👍 确保严格一次(Exactly-Once)的数据输出

👍 支持所有数据(无论是否带有 schema 格式)

👍 支持基于时间的 partitioner

👍 支持多种对象存储类型

浏览 12
点赞
评论
收藏
分享

手机扫一扫分享

编辑 分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

编辑 分享
举报