太硬核!只需一行代码就可以在Python中创建数据可视化!
共 2471字,需浏览 5分钟
·
2021-06-25 20:15
相信每个人都听说过这句话:一图胜千言,这就是为什么数据可视化对于任何项目或报告都是一个重要的环节。但是我们都知道,创建数据可视化有时候可能很耗时都。
今天本篇文章会介绍一个 Python 工具包:QuickDA,它可以很容易解决这个问题。
安装
要安装 QuickDA,在终端并输入如下命令
pip install QuickDA
就这么简单。你现在可以使用它了。
现在我们把我们需要的都导入
# Importing libraries
from quickda.explore_data import *
from quickda.clean_data import *
from quickda.explore_numeric import *
from quickda.explore_categoric import *
from quickda.explore_numeric_categoric import *
from quickda.explore_time_series import *
创建可视化数字特征
正如我在标题中提到的,你可以用一行代码创建可视化。有几种方法都可以做到,我们会检查每一种方法。第一个是为数值数据创建多个可视化。代码如下:
eda_num(data)
如上图所见,使用一行代码,我创建了多个数据可视化。QuickDA 为每个特征创建箱线图和直方图。通常,只有一个或两个数据可视化就可以完成这项工作。幸运的是,QuickDA 能够使用以下代码为选定的数据创建可视化效果:
eda_num(data[['column_1', 'columns_2', 'column_n']])
相关矩阵
需要相关矩阵吗?没问题。你可以键入以下代码,并检查功能的关联程度。
eda_num(data, method="correlation")
说实话,我不喜欢 QuickDA 的相关矩阵的风格,但它确实起到了作用。我们可以很容易地看到哪些特征与红色高度相关。
分类特征可视化
现在,让我们看一下如何为分类特性创建一些可视化效果。对于这个,你需要选择要学习的功能。
eda_cat(data, x='column_name')
我们可以看到 QuickDA 创建了一个好看的可视化功能,用于显示每个值的计数和一个带有数字描述的表。很酷,对吧?现在,假设你想了解数据是如何为每个性别分布的。你也可以这样做,只需添加一个y值。
eda_cat(data, x='column_name', y='column_name')
特征重要性
QuickDA 可以做的另一件很酷的事情是,我们可以快速获得特征的重要性以及特征如何预测特定目标。它对于机器学习非常方便,并且可以帮助你消除不相关的特性。
eda_numcat(data, method='pps', x='target_feature')
相关性
QuickDA 可以轻松地创建相关可视化。通常,使用 Matplotlib 很容易创建相关可视化,但是有其他方法可以很好地实现。
eda_numcat(data, x='x_value', y='y_value', hue='color_setup', method='relationship')
时间序列
时间序列可视化也可以很容易地完成。有趣的是,QuickDA 使用不同的库进行可视化,如 Matplotlib、Seaborn 和 plotlyexpress 。例如,对于时间序列,使用Plotly Express。
数据透视表
最后但并非最不重要的一点是,QuickDA 有一个很酷的特性,它不是一个很好的数据可视化,但是它非常酷。它使创建数据透视表成为可能。如果你已经工作或学习数据分析,那么你已经知道透视表的重要性。
eda_numcat(data, x=['column_1, column_2'], y=None, method='pivot')
结论
QuickDA 还可以做很多比较酷的事情。我建议你使用数据集进行尝试,我相信你会看到它有多么强大。你可以在这个笔记本上找到更多的代码。
https://github.com/ismael-araujo/Testing-Libraries/tree/main/QuickEDA
1. 关注下方公众号,点击右上角;
2. 在下方后台回复关键词「数据科学」快速下载: