用Python+PPT对某宝月饼数据进行可视化分析~

大邓和他的Python

共 3529字,需浏览 8分钟

 · 2021-09-18

腾讯课堂 | Python网络爬虫与文本数据分析

大家好!我是小刀!

过几天就中秋了,小刀还没收到公司送的月饼 ,只能用羡慕的眼神看着女朋友她们公司早在半个月前就送的广州酒家月饼,所以为了不羡慕,今天用python+ppt带大家看看淘宝的月饼怎么样,呃呃,只看不买...顺便想想怎么提醒公司

数据处理

导入包:

import pandas as pd
import numpy as np

读取数据并预览:

df = pd.read_csv('./月饼.csv', encoding='utf-8')
df.sample(10)
查看数据情况:
df.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex:
 1979 entries, 0 to 1978
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   旗舰店     1979 non-null   object 
 1   地址      1979 non-null   object 
 2   商品名称    1979 non-null   object 
 3   价格      1979 non-null   float64
 4   付款人数    1979 non-null   object 
dtypes: float64(1), object(4)
memory usage: 77.4+ KB

我们对数据集进行以下处理,以便我们后续的可视化分析工作:

  • 删除重复值
  • 付款人数需进行单位换算
  • 发货地址需做分割,提取省份和城市
  • 价格需进行分类
# 去除重复值
df.drop_duplicates(inplace=True)

# 重置索引
df_tb = df_tb.reset_index(drop=True)

# 提取数值
df['数值'] = df['付款人数'].str.extract('(\d+)').astype('int')
# 提取单位
df['单位'] = df.付款人数.str.extract(r'(万)'
df['单位'] = df.单位.replace('万'10000).replace(np.nan, 1)
# 重新计算销量
df['付款人数'] = df['数值'] * df['单位']
# 删除列 
df_tb = df_tb.drop(['数值''单位'], axis=1, inplace=True)

# 提取省份
df["省份"] = df["地址"].str.split(' ',expand=True)[0]  
df["城市"] = df["地址"].str.split(' ',expand=True)[1
df["城市"].fillna(df["省份"], inplace=True

# 价格区间分布
x = [0,50,100,150,200,500,50000]
e = ['50以下','50-100','100-150','150-200','200-500','500及以上']
df['价格区间']=pd.cut(df['价格'],bins=x,labels=e,include_lowest=True)
df.head(10)
经过处理之后的数据共1979条:

数据可视化

  铺地理分布

店铺只要分布在沿海地带,以上海、广东、浙江、北京居多,分别为529、456、321、207家。内陆中云南的店铺为83家,居内陆店铺数量之首。

  销量地理分布

北京、广东店铺的销量皆破百万,北京以1490782的销量遥遥领先于广东,广东以   1174473的销量仅次于北京,浙江、上海、山东、云南的销量皆破四十万,分别位居第三、四、五、六。而北京的店铺数量仅207家,销售量却遥遥领先于广东、上海、浙江。

北京店铺的销售量占全国总销量的25.38%,这在一定的情况下反映北京的店铺卖的产品更好。

  店铺销售价格区间

月饼卖多少钱算是消费者最关心的了,销价的高低也会在一定的程序下影响消费者的选择。

通过上面可以发现,价格在50元以下的占26.27%,占绝大多数;其次是200-500元,24.81%;超过500元仅有1.77%

  各个价格区间的销售量

什么价格的月饼卖的最好?哪个价格区间更受消费者欢迎呢?

分析发现,100元以下的销售量占86.21%,100元以上的销量仅占13.79%。50元以下的销售量占53.26%,50-100元的销售量占32.95%。最高价格区间500元及以上的销售量仅占0.18%,可以看出价格在100元以下的月饼更受消费者喜欢

  销售价格最高top10店铺

销售价格最高的店铺是哪几家?分布在哪?销量怎么样?

价格最高的十家店铺中,八家为上海店铺,两家为北京店铺,其中天猫超市以3280元的价格一骑绝尘,位居第一,但付款人数仅有5人。付款人数最多的为北京的“董到家旗舰店”,为183人,价格为898元。可以看出,除了“董到家旗舰店”的付款人数过百,其他店铺的付款人数都没超过100,价格的高低是会影响消费者对产品的购买

  销售价格最低top10店铺

销售价格高销量这么惨,那销售价格低呢?

价格最低的是广州酒家邮政速递专卖店,仅1元,是一个团购链接,付款人数15人;但从其它几家店铺中可以看出,价格低的销售量明显比价格高的销售量多

  销量最高top10店铺

销量最高的是哪家?地址在哪?销售价格是多少?

销售量最高的为稻香村食品旗舰店,为450000,占据全国10.44%的市场;其次是臻味食品旗舰店、五芳斋官方旗舰店、热购联华旗舰店,销量都超过200000。

销量前十的店铺中,北京的店铺居多;各个店铺的销售价格都在100元以下;销量最高的稻香村食品旗舰店在北京,销售价格为78.9元,看来该店铺买的产品也算是是物美价廉

  商品标题词云

通过对商品名称进行词云绘制,可以发现关于“送礼”的词就有3个:礼遇东西、送礼、礼品,而在其中长辈一词出现的频率也很高;其次是月饼的味道、品牌相关的词语。
完整PPT演示视频


                           

关注

                            重播                                                                                                                                                             赞                                                

                                 

Python与Excel之交关注已关注

分享点赞在看

已同步到看一看写下你的想法

分享视频

视频卡顿,建议切换到自动          立即切换

已成功切换至自动模式

,时长 01:28

0 / 0

00:00 / 01:28

继续播放

转载

,

用Python+PPT对某宝月饼数据进行可视化分析~

Python与Excel之交关注已关注

分享点赞在看

已同步到看一看写下你的想法

进度条,百分之0

播放

00:00

/

01:28

01:28

全屏

       倍速播放中

         0.5倍                  0.75倍                  1.0倍                  1.5倍                  2.0倍

         超清                  高清                  流畅

您的浏览器不支持 video 标签

继续观看

用Python+PPT对某宝月饼数据进行可视化分析~

   

                视频详情                    


结语

通过以上简单分析,方便对淘宝上的月饼店铺分布、价格、哪家的产品比较好等方面具有一定的认识,让我不再羡慕我女朋友了...

完整数据和PPT源文件已在公众号存着,

链接:https://pan.baidu.com/s/1HIVLfr2tPkVez79_t7wqNg

提取码:045c

近期文章

腾讯课堂 | Python网络爬虫与文本数据分析

预报名 | 结构模型、Stata实证前沿、Python数据挖掘国庆工作坊

读完本文你就了解什么是文本分析

文本分析在经管领域中的应用概述

综述:文本分析在市场营销研究中的应用

文本分析方法在《管理世界》(2021.5)中的应用

B站视频 | Python自动化办公

wordexpansion包 | 新增词向量法构建领域词典

语法最简单的微博通用爬虫weibo_crawler

hiResearch 定义自己的科研首页

大邓github汇总, 觉得有用记得star

whatlies包 | 简单玩转词向量可视化

multistop ~ 多语言停用词库

Jaal 库 轻松绘制动态社交网络关系图

SciencePlots | 科研样式绘图库

使用streamlit上线中文文本分析网站

爬虫实战 | 采集&可视化知乎问题的回答

Clumper | dplyr式的Python数据操作包

Clumper库 | 常用的数据操作函数

Clumper库 | Groupby具体案例用法

Clumper库 | 其他数据分析

plydata库 | 数据操作管道操作符>>

plotnine: Python版的ggplot2作图库

Wow~70G上市公司定期报告数据集

漂亮~pandas可以无缝衔接Bokeh  

YelpDaset: 酒店管理类数据集10+G

浏览 23
点赞
评论
收藏
分享

手机扫一扫分享

举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

举报