我用Python分析1585家电商车厘子销售数据,发现这些秘密

共 6605字,需浏览 14分钟

 ·

2021-02-11 15:24

   
↑↑↑关注后"星标"简说Python
    
人人都可以简单入门Python、爬虫、数据分析
 简说Python推荐 
来源:Python中文社区
作者:巩庆奎


图片来源:互联网


大家好,我是J哥~

众所周知,中国是智利车厘子最主要的出口对象,占据了其95%的市场份额

智利驻华大使馆商务参赞娜塔曾表示:“2020-2021产季车厘子实现了丰收,预计今年有50万吨左右的车厘子进入中国市场。”自2020年12月中旬开始,智利海运车厘子陆续到达中国,运输成本较此前空运方式大幅下滑。这意味着,国内消费者将能以更低的价格买到车厘子。然而,近日国内已有多地进口车厘子核酸检测结果阳性在这种情况下,你还敢大呼车厘子自由”吗?



01

数据获取


本文利用Python采集了淘宝网1585个商家车厘子销售数据,获取到车厘子的商品名称、商品价格、付款人数、店铺名称、发货地址等字段。限于篇幅,爬虫代码仅给出主函数


def main():
    browser.get('https://www.taobao.com/')
    page = search_product(key_word)
    print(page)
    get_data()
    page_num = 70
    while int(page) != page_num:
        print("-" * 100)
        print("正在爬取第{}页数据".format(page_num + 1))
        browser.get('https://s.taobao.com/search?q={}&s={}'.format(key_word, page_num*44))
        browser.implicitly_wait(10)
        get_data()
        page_num += 1
    print("数据抓取完成")

if __name__ == '__main__':
    key_word = "车厘子"
    browser = webdriver.Chrome("./chromedriver")
    main()




02

数据处理


1.数据读取并预览


import pandas as pd
import numpy as np
df = pd.read_csv('/菜J学Python/淘宝/车厘子.csv',header=None,
                 names=['商品名称','商品价格','付款人数','店铺名称','发货地址']) #添加字段名称

df.sample(5



2.查看数据信息


df.info()


<class 'pandas.core.frame.DataFrame'>
Int64Index:
 1595 entries, 0 to 1674
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   商品名称    1595 non-null   object 
 1   商品价格    1595 non-null   float64
 2   付款人数    1595 non-null   object 
 3   店铺名称    1595 non-null   object 
 4   发货地址    1585 non-null   object 
dtypes: float64(1), object(4)
memory usage: 74.8+ KB


发现数据存在以下几个问题:


(1)发货地址有缺失值

(2)付款人数需做提取

(3)发货地址需做分割

(4)自定义索引并降序


3.数据清洗


#剔除缺失记录
df.dropna(axis=0, how='any', inplace=True)

#从发货地址字段中切分出省份和城市
df["省份"] = df["发货地址"].str.split(' ',expand=True)[0]  #expand=True可以把用分割的内容直接分列
df["城市"] = df["发货地址"].str.split(' ',expand=True)[1#提取城市
df["城市"].fillna(df["省份"], inplace=True#城市字段空值用省份非空值填充

#用正则表达式从付款人数中提取数字
import re
df['数字'] = [re.findall(r'(\d+\.{0,1}\d*)', i)[0for i in df['付款人数']]  # 提取数值
df['数字'] = df['数字'].astype('float')  # 转化数值型
df['单位'] = [''.join(re.findall(r'(万)', i)) for i in df['付款人数']]  # 提取单位(万)
df['单位'] = df['单位'].apply(lambda x:10000 if x=='万' else 1)
df['付款人数'] = df['数字'] * df['单位'# 计算付款人数
df.drop(['发货地址''数字''单位'], axis=1, inplace=True# 删除多余的列

#按商品价格降序并重置索引
df = df.sort_values(by="商品价格", axis=0, ascending=False#降序
df = df.reset_index(drop=True#重置索引


清洗后,数据预览如下:





03

数据可视化


在以往的数据可视化中,常常以Python可视化库作图。而本文将尝试用Excel进行车厘子数据可视化,因为在绘图方面,Excel完全不输Python!


1.国内哪些地方车厘子卖的最火?



利用省份和付款人数字段数据制作地图,发现上海、浙江和广东等地车厘子销售量最大,西藏、青海和内蒙古销量较小。沿海地区的经济和人口优势,成为车厘子主要的消费市场。


车厘子作为“明星水果”,不菲的价格常常让打工人望而却步。根据国家统计总局发布的最新数据,上海人均可支配收入居首,超过7万元,自然更容易实现“车厘子自由”。北京虽然收入较高,但可能受疫情影响较大,车厘子销量并不多。



2.车厘子到底有多贵?


由上图可知,40%的车厘子价格在201-500元之间(淘宝挂牌价,非每斤价格),50元以下的车厘子占比不到4%,我表示有被贵到,你呢?如果你不嫌贵,那我帮你找到一家,可能符合你的需求,如下:



3.哪些店铺卖的最好?



从销量较高的淘宝店铺来看,基本都是旗舰店,看来大家对店铺品牌度关注较多。福瑞达旗舰店月销量超6万,名副其实车厘子销冠,百果园紧随其后。


4.在售的车厘子具有哪些特点?



为了了解车厘子的特点,对商品名称字段做了文本分析,以果篮为背景绘制了车厘子词云图。主要的特点还是可以看出来的,新鲜、智利、当季、特大等词都是水果店家推销的点。至于孕妇提及频率这么高,有点纳闷,于是百度之:



那么问题来了,特殊时期,我们打工人能不能剁手买车厘子?截至目前,根据中国疾控中心公布的消息,目前并没有发现因为食用进口冷链食品而感染新冠肺炎的病例。因此对于普通消费者来说,无须过于恐慌。当然如果你确实非常焦虑的话,疫情期间也可以多选择国内生产的食品。



结语


1.本数据分析只做学习研究之用途,提供的结论仅供参考,还请独立思考。


2.公众号后台回复「车厘子可自动获取本文数据集


3.过年开始一起学,8周掌握Python自动化,扫下方二维码购买后,私聊我进专属群一起学(我可能会直播监督学习哈哈哈)。


购买后,扫下方二维码加我微信,备注:自动化 即可。

扫码回复:2021

获取最新学习资源

长按扫码关注,一起学Python

                        

学习更多:
整理了我开始分享学习笔记到现在超过250篇优质文章,涵盖数据分析、爬虫、机器学习等方面,别再说不知道该从哪开始,实战哪里找了

干货文章,点个”不过分吧 

浏览 37
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报