【Python工具箱】自动可视化任何数据集!!!

机器学习算法与Python实战

共 1747字,需浏览 4分钟

 ·

2021-09-14 05:09

↑↑↑点击上方蓝字,回复资料,10个G的惊喜

可视化是一种使用不同的图形和图来可视化数据的技术。在数据科学中,我们通常使用数据可视化技术来理解数据集,找到数据之间的关系。可视化还可以帮助找到用于进一步分析的数据集中的模式。

python中有不同的技术/库用于数据可视化,如Matplotlib, Seaborn, Plotly等。但是在使用所有这些库的同时,我们需要定义我们想要可视化的图的类型和我们需要可视化的参数。

在本文中,我们将学习一个python库AutoViz,它可以用一行代码自动完成数据可视化的整个过程。


AutoViz只需一行代码就可以自动显示任何数据集。AutoViz可以找到最重要的功能,并只使用那些自动选择的功能绘制有影响力的可视化。此外,AutoViz的速度非常快,几秒钟内就能实现可视化。

让我们在一些数据集的帮助下开始探索AutoViz。在使用AutoViz之前,我们需要安装它。

像任何其他python库一样,我们可以使用下面给出的pip install命令来安装AutoViz。

pip install autoviz

加载数据集和分析

在这里,我将使用不同的数据集来可视化/探索AutoViz可以生成的不同类型的图表/图。你可以从Github仓库中下载所有的数据集。https://github.com/hmix13/AutoViz

这个数据集包含不同汽车制造商的不同属性。让我们使用AutoViz来可视化这个数据集。

AutoViz可以通过以下3个简单步骤实现。

#importing Autoviz class
from autoviz.AutoViz_Class import AutoViz_Class#Instantiate the AutoViz class
AV = AutoViz_Class()

这些步骤将导入AutoViz类并实例化它。最后一步是创建可视化。仅仅这一行代码就可以创建所有的可视化,其中包含计数中的所有属性。

df = AV.AutoViz('car_design.csv')

直方图(KDE图)

连续变量的小提琴图

连续变量的热图

正如您在上面所看到的,这些是使用AutoViz在一行代码中生成的不同绘图。

让我们再分析一个数据集,在这个数据集中,有4个属性描述了一个公司的广告支出和销售。我们将通过创建上面使用的修改数据集的步骤来分析这个问题。

在这里,我们将传递另一个参数depVar,它是因变量,以便AutoViz相应地创建可视化。在这个数据集中,我们知道“销售”是因变量。

df = AV.AutoViz('Advrtising.csv', depVar='Sales')

销售变量散点图

同样地,您将看到它将创建直方图、小提琴图、热图等,并将“销售”作为一个因变量。

我们在调用AutoViz时可以传递的其他参数有:

Sep 分隔数据的分隔符,默认为','。

target 它是数据集中的目标变量。

Chart_format 显示的图表格式。

Max_row_analyzed  用于定义要分析的行数

Max_cols_analyzed用于定义要分析的列的数量。

在本文中,我们看到只需一行代码就可以可视化数据集,并且可以相应地找到数据集中的模式。

AutoViz能够适应任何数量的不同数据上下文,如回归、分类,甚至时间序列数据。继续使用不同的数据集探索这个库,并在响应部分分享您的经验。

作者:Himanshu Sharma deephub翻译组

原文地址:https://hmix13.medium.com/autoviz-automatically-visualize-any-dataset-75876a4eede4


推荐阅读

(点击标题可跳转阅读)

23个优秀的机器学习数据集

6行代码!用Python将PDF转为word

台大美女教授陈缊侬:《应用深度学习》

李宏毅《机器学习》视频教程 PPT

老铁,三连支持一下,好吗?↓↓↓


浏览 33
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报