【Python】懒人专用数据竞赛工具包!
机器学习初学者
共 2980字,需浏览 6分钟
·
2024-07-28 12:00
作者:Klib
懒人专用数据竞赛工具包-Klib
懒人专用数据竞赛工具包-Klib
简介
klib 是一个用于导入、清理、分析和预处理数据的Python库。
1. 自动进行数据质量评估
-
直接使用klib的缺失值统计函数进行数据质量评估。
import klib
import pandas as pd
df = pd.read_csv("NFL_DATASET.csv")
klib.missingval_plot(df)
2. 数据清洗
-
清理列名(colume name):通过格式化、拆分等方式统一列名,将CamelCase转换为camel_case,移除特殊字符以及前导和尾随空格,并将所有列名格式化为小写和下划线分隔。这还会检查和修复重复的列名,有时从文件中读取数据时会出现这种情况。 -
删除空列和几乎空列:可以使用参数drop_threshold_cols和drop_threshold_rows来调整删除操作以满足您的需求。默认情况下,会删除具有超过90%缺失值的列和行。 -
删除只有一个值的列:删除其中每个单元格都包含相同值的列。 -
删除重复的行:这是一个简单的丢弃完全重复行的操作。如果你处理的数据中重复行有价值,可以考虑将 drop_duplicates=False。 -
减少内存占用,从而加快工作流程中后续步骤的速度,klib.data_cleaning() 还会优化数据类型
df_cleaned = klib.data_cleaning(df)
3.数据分析
3.1 相关性分析
使用klib.corr_plot()等函数,将拆分参数设置为“pos”、“neg”、“high”或“low”,并在需要时结合阈值,让我们能够深入挖掘并突出显示最重要的方面。
3.2 类别特征分析
klib.cat_plot(df_cleaned)
小结
Klib极大地方便了数据清洗和可视化工作,当然Klib具有比我们上面所描述的更多功能和设置。有兴趣的朋友可以参考对应的文档。
参考文献
-
https://medium.com/towards-data-science/speed-up-your-data-cleaning-and-preprocessing-with-klib-97191d320f80 -
https://github.com/attractivechaos/klib -
https://pypi.org/project/klib/
往期精彩回顾
交流群
欢迎加入机器学习爱好者微信群一起和同行交流,目前有机器学习交流群、博士群、博士申报交流、CV、NLP等微信群,请扫描下面的微信号加群,备注:”昵称-学校/公司-研究方向“,例如:”张小明-浙大-CV“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~(也可以加入机器学习交流qq群772479961)
评论