【Python】Autoviz: 一行代码搞定数据集探索并可视化
数据集各个特征有什么变化趋势、各个特征之间有何关系,我们可以借助Matplotlib、Seaborn等诸多工具来可视化展示,那么有没有一种工具能一次展示所有的关系了?
本文要介绍的Python工具Autoviz,一行代码即可完成对数据集所有关系的探索 (Exploratory Data Analysis,EDA)。
安装
pip install autoviz
一行代码搞定数据探索
本次以探索鸢尾花 (iris)数据集为例子,数据集详细介绍👉👉鸢尾花数据集详细介绍,大概是这样autoviz使用,
from autoviz.AutoViz_Class import AutoViz_Class
#AutoViz实例化
AV = AutoViz_Class()
#一行代码实现数据探索
dft = AV.AutoViz(
filename='/Users/xmy/Desktop/jobs/py/iris.csv', #读入数据集,注意和dfte的区别
sep=",", #设置数据集分隔符,默认为逗号
depVar="species", #设置因变量
dfte=None, #传入一个pandas.DataFrame,如果filename已设置,此处为None,反之亦然
header=0,
verbose=0, #可选0, 1或者2,设置图形的保存形式
lowess=False, #是否启用lowess回归,适合小数据量数据集,100,000行以上数据不建议用
chart_format="svg", #设置图形保存格式
max_rows_analyzed=150000, #设置数据集待分析的行数
max_cols_analyzed=30, #设置数据集待分析的列数
)
结果输出一部分为Dataset的简单介绍
,结果输出另一部分为大量可视化图表
, 以上整个过程仅仅需要4.226秒
No categorical or boolean vars in data set. Hence no pivot plots...
No categorical or numeric vars in data set. Hence no bar charts.Time to run AutoViz \(in seconds\) = 4.226
###################### VISUALIZATION Completed ########################
参考:https://github.com/AutoViML/AutoViz
-END-
往期精彩回顾 本站qq群851320808,加入微信群请扫码:
评论