作者：Klib

懒人专用数据竞赛工具包-Klib

简介

klib 是一个用于导入、清理、分析和预处理数据的Python库。

1. 自动进行数据质量评估

直接使用klib的缺失值统计函数进行数据质量评估。

import klib
import pandas as pd

df = pd.read_csv("NFL_DATASET.csv")
klib.missingval_plot(df)

2. 数据清洗

清理列名(colume name)：通过格式化、拆分等方式统一列名，将CamelCase转换为camel_case，移除特殊字符以及前导和尾随空格，并将所有列名格式化为小写和下划线分隔。这还会检查和修复重复的列名，有时从文件中读取数据时会出现这种情况。

删除空列和几乎空列：可以使用参数drop_threshold_cols和drop_threshold_rows来调整删除操作以满足您的需求。默认情况下，会删除具有超过90%缺失值的列和行。

删除只有一个值的列：删除其中每个单元格都包含相同值的列。

删除重复的行：这是一个简单的丢弃完全重复行的操作。如果你处理的数据中重复行有价值，可以考虑将 drop_duplicates=False。

减少内存占用，从而加快工作流程中后续步骤的速度，klib.data_cleaning() 还会优化数据类型

df_cleaned = klib.data_cleaning(df)

3.数据分析

3.1 相关性分析

使用klib.corr_plot()等函数，将拆分参数设置为“pos”、“neg”、“high”或“low”，并在需要时结合阈值，让我们能够深入挖掘并突出显示最重要的方面。

3.2 类别特征分析

klib.cat_plot(df_cleaned)

小结

Klib极大地方便了数据清洗和可视化工作，当然Klib具有比我们上面所描述的更多功能和设置。有兴趣的朋友可以参考对应的文档。

参考文献

https://medium.com/towards-data-science/speed-up-your-data-cleaning-and-preprocessing-with-klib-97191d320f80

https://github.com/attractivechaos/klib

https://pypi.org/project/klib/



      

       


      


      

       

        

          

           

            

             

              

               

                

                 

                  往期精彩回顾

                 


                


               


              


             


             

              

               

                

                 


                


                

                 

                  


                 


                 

                  


                 


                


                

                 


                


               


              


              

               

                

                 适合初学者入门人工智能的路线及资料下载

                


               

                

                 (图文+视频)机器学习入门系列下载

                


               

                

                 机器学习及深度学习笔记等资料打印

                


               

                

                 《统计学习方法》的代码复现专辑

```
交流群
```

欢迎加入机器学习爱好者微信群一起和同行交流，目前有机器学习交流群、博士群、博士申报交流、CV、NLP等微信群，请扫描下面的微信号加群，备注：”昵称-学校/公司-研究方向“，例如：”张小明-浙大-CV“。请按照格式备注，否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告，否则会请出群，谢谢理解~（也可以加入机器学习交流qq群772479961）

【Python】懒人专用数据竞赛工具包！

作者：Klib 懒人专用数据竞赛工具包-Klib

简介