对比Excel,学习pandas数据透视表

大数据DT

共 3610字,需浏览 8分钟

 · 2021-06-08


导读:更简单了呢~


作者:黄同学
来源:凹凸数据(ID:alltodata)




01 Excel中做数据透视表


1. 选中整个数据源


2. 依次点击“插入”—“数据透视表”


3. 选择在Excel中的哪个位置,插入数据透视表


4. 然后根据实际需求,从不同维度展示结果


5. 结果如下



02 pandas用pivot_table()做数据透视表


1. 语法格式

pd.pivot_table(data,index=None,columns=None,
              values=None,aggfunc='mean',
              margins=False,margins_name='All',
              dropna=True,fill_value=None)

2. 对比excel,说明上述参数的具体含义


参数说明:

  • data 相当于Excel中的"选中数据源";
  • index 相当于上述"数据透视表字段"中的行;
  • columns 相当于上述"数据透视表字段"中的列;
  • values 相当于上述"数据透视表字段"中的值;
  • aggfunc 相当于上述"结果"中的计算类型;
  • margins 相当于上述"结果"中的总计;
  • margins_name 相当于修改"总计"名,为其它名称。

下面几个参数,用的较少,记住干嘛的,等以后需要就百度。

  • dropna 表示是否删除缺失值,如果为True时,则把一整行全作为缺失值删除;
  • fill_value 表示将缺失值,用某个指定值填充。



03 案例说明


1. 求出不同品牌下,每个月份的销售数量之和

① 在Excel中的操作结果如下


② 在pandas中的操作如下

df = pd.read_excel(r"C:\Users\黄伟\Desktop\pivot_table.xlsx")
display(df.sample(5))

df.insert(1,"月份",df["销售日期"].apply(lambda x:x.month))
display(df.sample(5))

df1 = pd.pivot_table(df,index="品牌",columns="月份",
                    values="销售数量",aggfunc=np.sum)
display(df1)

结果如下:


2. 求出不同品牌下,每个地区、每个月份的销售数量之和

① 在Excel中的操作结果如下


② 在pandas中的操作如下

df = pd.read_excel(r"C:\Users\黄伟\Desktop\pivot_table.xlsx")
display(df.sample(5))

df.insert(1,"月份",df["销售日期"].apply(lambda x:x.month))
display(df.sample(5))

df1 = pd.pivot_table(df,index="品牌",columns=["销售区域","月份"],
                    values="销售数量",aggfunc=np.sum)
display(df1)

结果如下:


3. 求出不同品牌不同地区下,每个月份的销售数量之和

① 在Excel中的操作结果如下


② 在pandas中的操作如下

df = pd.read_excel(r"C:\Users\黄伟\Desktop\pivot_table.xlsx")
display(df.sample(5))

df.insert(1,"月份",df["销售日期"].apply(lambda x:x.month))
display(df.sample(5))

df1 = pd.pivot_table(df,index=["品牌","销售区域"],columns="月份",
                    values="销售数量",aggfunc=np.sum)
display(df1)

结果如下:


4. 求出不同品牌下的“销售数量之和”与“货号计数”

① 在Excel中的操作结果如下


② 在pandas中的操作如下

df = pd.read_excel(r"C:\Users\黄伟\Desktop\pivot_table.xlsx")
display(df.sample(5))

df.insert(1,"月份",df["销售日期"].apply(lambda x:x.month))
display(df.sample(5))

df1 = pd.pivot_table(df,index="品牌",columns="月份",
                    values=["销售数量","货号"],
                    aggfunc={"销售数量":"sum","货号":"count"},
                    margins=True,margins_name="总计")
display(df1)

结果如下:



延伸阅读👇

利用Python进行数据分析》(原书第2版)

干货直达👇


更多精彩👇

在公众号对话框输入以下关键词
查看更多优质内容!

PPT | 读书 | 书单 | 硬核 | 干货 | 讲明白 | 神操作
大数据 | 云计算 | 数据库 | Python | 爬虫 | 可视化
AI | 人工智能 | 机器学习 | 深度学习 | NLP
5G | 中台 | 用户画像 1024 | 数学 | 算法 数字孪生

据统计,99%的大咖都关注了这个公众号
👇
浏览 6
点赞
评论
收藏
分享

手机扫一扫分享

举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

举报