几行 Python 代码就可以提取数百个时间序列特征
数据派THU
共 1550字,需浏览 4分钟
·
2022-08-25 10:57
来源:DeepHub IMBA 本文约900字,建议阅读5分钟 在本文中,我们将深入讨论tsfresh包的使用。
特征生成 特征选择 与大数据的兼容性
pip install -U tsfresh
# or
conda install -c conda-forge tsfresh
描述性统计(平均值、最大值、相关性等) 基于物理的非线性和复杂性指标 数字信号处理相关功能 历史压缩特征
import pandas as pd
from tsfresh import select_features
# Read the time-series data
df = pd.read_excel("train.xlsx", parse_dates=['date']).set_index('date')
# automated feature generation
features = tsfresh.extract_features(df, column_id="date", column_sort="date")
多线程处理:默认tsfresh包可以将特征生成/提取和特征选择在多核上并行执行。 分布式框架:tsfresh还实现了一个自己的分布式框架,将特征计算分布在多台机器上加快计算速度。 Spark兼容:tsfresh还可以使用spark或Dask来处理非常大的数据。
tsfresh 的官方文档:
https://tsfresh.readthedocs.io/en/latest/
编辑:于腾凯
评论