smallpond 轻量级数据处理框架
smallpond 是一款构建于 DuckDB 和 3FS 之上的轻量级数据处理框架。
主要特性
- 拥有由 DuckDB 提供的高性能数据处理能力
- 支持扩展至 PB 级数据集
- 操作简便,无需长期运行的服务
使用示例
# Download example data
wget https://duckdb.org/data/prices.parquet
import smallpond
# Initialize session
sp = smallpond.init()
# Load data
df = sp.read_parquet("prices.parquet")
# Process data
df = df.repartition(3, hash_by="ticker")
df = sp.partial_sql("SELECT ticker, min(price), max(price) FROM {0} GROUP BY ticker", df)
# Save results
df.write_parquet("output/")
# Show results
print(df.to_pandas())
评论