10 个 Python 自动探索性数据分析神库!
共 5969字,需浏览 12分钟
·
2024-07-16 09:00
转自:公众号丨数据STUDIO
探索性数据分析是数据科学模型开发和数据集研究的重要组成部分之一。在拿到一个新数据集时首先就需要花费大量时间进行EDA来研究数据集中内在的信息。自动化的EDA Python包可以用几行Python代码执行EDA。
在本文中整理了10个可以自动执行EDA并生成有关数据的见解的Python包,看看他们都有什么功能,能在多大程度上帮我们自动化解决EDA的需求。
- 
    DTale 
- 
    Pandas-profiling 
- 
    sweetviz 
- 
    autoviz 
- 
    dataprep 
- 
    KLib 
- 
    dabl 
- 
    speedML 
- 
    datatile 
- 
    edaviz 
1、D-Tale
import dtale 
import pandas as pd
dtale.show(pd.read_csv("titanic.csv"))
#Install the below libaries before importing 
import pandas as pd
from pandas_profiling import ProfileReport
#EDA using pandas-profiling
profile = ProfileReport(pd.read_csv('titanic.csv'), explorative=True)
#Saving results to a HTML file
profile.to_file("output.html")
import pandas as pd 
import sweetviz as sv
#EDA using Autoviz
sweet_report = sv.analyze(pd.read_csv("titanic.csv"))
#Saving results to HTML file
sweet_report.show_html('sweet_report.html')
import pandas as pd 
from autoviz.AutoViz_Class import AutoViz_Class
#EDA using Autoviz
autoviz = AutoViz_Class().AutoViz('train.csv')
from dataprep.datasets import load_dataset 
from dataprep.eda import create_report
df = load_dataset("titanic.csv")
create_report(df).show_browser()
import klib 
import pandas as pd
df = pd.read_csv('DATASET.csv')
klib.missingval_plot(df)
klib.corr_plot(df_cleaned, annot=False) 
klib.dist_plot(df_cleaned['Win_Prob']) 
klib.cat_plot(df, figsize=(50,15)) 
7、Dabl
- 
    目标分布图 
- 
    散点图 
- 
    线性判别分析 
import pandas as pd 
import dabl
df = pd.read_csv("titanic.csv")
dabl.plot(df, target_col="Survived")
8、Speedml
from speedml import Speedml 
sml = Speedml('../input/train.csv', '../input/test.csv',
target = 'Survived', uid = 'PassengerId')
sml.train.head()
sml.plot.correlate() 
sml.plot.distribute() 
sml.plot.ordinal('Parch') 
sml.plot.ordinal('SibSp') 
sml.plot.continuous('Age') 
9、DataTile
import pandas as pd 
from datatile.summary.df import DataFrameSummary
df = pd.read_csv('titanic.csv')
dfs = DataFrameSummary(df)
dfs.summary()
10、edaviz
     
      
      
推荐小码哥新书!
小码哥新手《Python + Excel/Word/PPT一本通》正式上市了!书中详细介绍了零基础用Python实现办公自动化的各方面知识,提高职场办公效率,附赠PPT/源代码/重点教学视频讲解和作者VIP一对一指导。
内容介绍:《Python + Excel/Word/PPT 一本通》内容介绍
       
        
         
          
           
            
             
             
            
           
          
         
        
       
        
        
        
扫码购买
▼点击阅读原文,了解本书详情
    
    
     
     评论
