用Python+PPT对某宝月饼数据进行可视化分析~
共 3529字,需浏览 8分钟
· 2021-09-18
过几天就中秋了,小刀还没收到公司送的月饼 ,只能用羡慕的眼神看着女朋友她们公司早在半个月前就送的广州酒家月饼,所以为了不羡慕,今天用python+ppt带大家看看淘宝的月饼怎么样,呃呃,只看不买...顺便想想怎么提醒公司送!
数据处理
导入包:
import pandas as pd
import numpy as np
读取数据并预览:
df = pd.read_csv('./月饼.csv', encoding='utf-8')
df.sample(10)
df.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1979 entries, 0 to 1978
Data columns (total 5 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 旗舰店 1979 non-null object
1 地址 1979 non-null object
2 商品名称 1979 non-null object
3 价格 1979 non-null float64
4 付款人数 1979 non-null object
dtypes: float64(1), object(4)
memory usage: 77.4+ KB
我们对数据集进行以下处理,以便我们后续的可视化分析工作:
删除重复值 付款人数需进行单位换算 发货地址需做分割,提取省份和城市 价格需进行分类
# 去除重复值
df.drop_duplicates(inplace=True)
# 重置索引
df_tb = df_tb.reset_index(drop=True)
# 提取数值
df['数值'] = df['付款人数'].str.extract('(\d+)').astype('int')
# 提取单位
df['单位'] = df.付款人数.str.extract(r'(万)')
df['单位'] = df.单位.replace('万', 10000).replace(np.nan, 1)
# 重新计算销量
df['付款人数'] = df['数值'] * df['单位']
# 删除列
df_tb = df_tb.drop(['数值', '单位'], axis=1, inplace=True)
# 提取省份
df["省份"] = df["地址"].str.split(' ',expand=True)[0]
df["城市"] = df["地址"].str.split(' ',expand=True)[1]
df["城市"].fillna(df["省份"], inplace=True)
# 价格区间分布
x = [0,50,100,150,200,500,50000]
e = ['50以下','50-100','100-150','150-200','200-500','500及以上']
df['价格区间']=pd.cut(df['价格'],bins=x,labels=e,include_lowest=True)
df.head(10)
数据可视化
店铺地理分布
销量地理分布
北京、广东店铺的销量皆破百万,北京以1490782的销量遥遥领先于广东,广东以 1174473的销量仅次于北京,浙江、上海、山东、云南的销量皆破四十万,分别位居第三、四、五、六。而北京的店铺数量仅207家,销售量却遥遥领先于广东、上海、浙江。
店铺销售价格区间
各个价格区间的销售量
销售价格最高top10店铺
销售价格最低top10店铺
销量最高top10店铺
销量最高的是哪家?地址在哪?销售价格是多少?
销售量最高的为稻香村食品旗舰店,为450000,占据全国10.44%的市场;其次是臻味食品旗舰店、五芳斋官方旗舰店、热购联华旗舰店,销量都超过200000。
销量前十的店铺中,北京的店铺居多;各个店铺的销售价格都在100元以下;销量最高的稻香村食品旗舰店在北京,销售价格为78.9元,看来该店铺买的产品也算是是物美价廉!
商品标题词云
关注
重播
退出全屏 切换到竖屏全屏
Python与Excel之交关注已关注
分享点赞在看
已同步到看一看写下你的想法
分享视频
视频卡顿,建议切换到自动 立即切换
已成功切换至自动模式
,时长 01:28
0 / 0
00:00 / 01:28
继续播放
转载
,
用Python+PPT对某宝月饼数据进行可视化分析~
Python与Excel之交关注已关注
分享点赞在看
已同步到看一看写下你的想法
进度条,百分之0
播放
00:00
/
01:28
01:28
全屏
倍速播放中
0.5倍 0.75倍 1.0倍 1.5倍 2.0倍
超清 高清 流畅
您的浏览器不支持 video 标签
继续观看
用Python+PPT对某宝月饼数据进行可视化分析~
视频详情
通过以上简单分析,方便对淘宝上的月饼店铺分布、价格、哪家的产品比较好等方面具有一定的认识,让我不再羡慕我女朋友了...
完整数据和PPT源文件已在公众号存着,
链接:https://pan.baidu.com/s/1HIVLfr2tPkVez79_t7wqNg
提取码:045c
近期文章
预报名 | 结构模型、Stata实证前沿、Python数据挖掘国庆工作坊