smallpond 轻量级数据处理框架

联合创作 · 2025-02-28 16:31

smallpond 是一款构建于 DuckDB 和 3FS 之上的轻量级数据处理框架。

主要特性

  • 拥有由 DuckDB 提供的高性能数据处理能力
  • 支持扩展至 PB 级数据集
  • 操作简便,无需长期运行的服务

使用示例

# Download example data

wget https://duckdb.org/data/prices.parquet

import smallpond

# Initialize session

sp = smallpond.init()

# Load data

df = sp.read_parquet("prices.parquet")

# Process data

df = df.repartition(3, hash_by="ticker")

df = sp.partial_sql("SELECT ticker, min(price), max(price) FROM {0} GROUP BY ticker", df)

# Save results

df.write_parquet("output/")

# Show results

print(df.to_pandas())

浏览 12
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报