【Python】安利一个超好用的Pandas数据挖掘分析神器
机器学习初学者
共 2620字,需浏览 6分钟
·
2021-12-18 16:31
大家可以将其理解为是Pandas
的GUI
扩展工具,所具备的功能有
查看DataFrame数据集与Series数据集
过滤数据
数据的统计分析
绘制交互式图表
文本数据的操作
数据清洗与类型转换
合并数据集
安装模块
在使用之前,我们先需要通过pip install
进行该模块的安装
pip install bamboolib
Jupyter Notebook
以及JupyterLab
上面用到该工具,因此还要安装额外的插件# Jupyter Notebook extensions
python -m bamboolib install_nbextensions
# JupyterLab extensions
python -m bamboolib install_labextensions
查看DataFrame数据集
bamboolib
,导入我们需要用到的模块import bamboolib as bam
import pandas as pd
读取数据
df = pd.read_excel(
io="supermarkt_sales.xlsx",
engine="openpyxl",
sheet_name="Sales",
skiprows=3,
usecols="B:R",
nrows=1000,
)
df
会弹出如下所示的界面,
我们先来简单介绍一下界面上的各个按钮,
Explore DataFrame:对数据集进行探索性分析的按钮 Create plot: 绘制交互性图表的按钮 Search Transformations:包含对数据集进行各项操作 Update: 过滤出指定的列 Export: 可以将处理完的数据集以及代码导出
Explore DataFrame
按钮来对数据先来一个大致的印象Correlation Matrix
按钮过滤数据
要是我们想要指定某一列数据的话,点击下拉框,选中select or drop columns
,
或者我们想要删掉某一列的话,也是相类似的操作
filter rows
按钮,然后我们给出特定的条件,在Bamboolib
模块当中有多种方式来过滤数据,有has values
、contains
、startswith
、endswith
等等,类似于Pandas
模块当中对于文本数据处理的方法,例如我们想要挑选出“省份”这一列当中的“浙江省”的数据,就这么来做sort rows
,例如我们以“毛利率”的大小来排序,并且是降序排序,就这么来做要是我们想要对某一列的列名进行重命名,点击rename columns
数据的清洗与类型转换
change column data dtype
drop missing values
或者是drop columns with missing values
find and replace missing values
数据的统计分析
bamboolib
模块来对数据进行统计分析,例如计算数值的变化(percent change),我们在下拉框中找到percent change
的选项,然后对指定的列计算当中数值的变化百分比cumulative product
或者是cumulative sum
group by and aggregate
按钮,例如我们以“省份”来分组,计算“总收入”的平均值,可以这么来操作合并数据集
join/merge dataframes
选项,当中有四种合并的方式,分别是inner join
、left join
、right join
和outer join
,然后我们选择合并的文本数据的操作
convert to lowercase
/convert to uppercase
Remove leading and trailing whitespaces
而要是我们需要对字符串做一个分割,就在下拉框中选中split text column
绘制交互式的图表
往期精彩回顾 本站qq群955171419,加入微信群请扫码:
评论