爬取了20W+条猫咪数据,awsl……

Crossin的编程教室

共 2095字,需浏览 5分钟

 ·

2021-04-12 13:45



大家好,欢迎来到 Crossin的编程教室 !


不知道是否有人和我一样,每次看到可爱的猫咪表情包,总是会忍不住收藏。


身边也有许多朋友都养了猫,看着他们整天在朋友圈发撸猫视频,我十分心动。于是找到了一个专门交易猫猫的网站:


猫咪交易网

www.maomijiaoyi.com



这个网站上可以查看各种猫猫的品种介绍和交易信息。


于是,我从上面爬取了 20W+ 条数据,以此来了解一下可爱的猫咪。


获取数据后,我从以下维度进行了探索性分析:

1、猫猫都有哪些品种,词云图
2、原产地,世界地图
3、体型占比,圆环图
4、外观描述词云
5、交易猫猫分布地图
6、交易品种占比树状图
7、每种品种平均价格排名,条形图
8、浏览次数是否跟价格成正比,散点图
9、年龄分布,柱状图
10、价格是否与年龄有关,箱型图
11、价格是否与预防有关,箱型图
12、价格是否与异地运费有关,箱型图
13、价格是否与是否纯种有关,箱型图
14、价格是否与能否视频有关,箱型图


接下来就给大家分享一下抓取和分析的过程以及结果。


数据获取


打开猫咪交易网,先爬取猫猫品种数据,打开页面可以看到猫猫品种列表:



但只显示了每种猫猫的品种名,参考价格,这些数据还不够,所以点进去,爬取更加详细的数据。


品种名,参考价格,中文学名,基本信息,性格特点,生活习性,优缺点,喂养方法等:


爬取的代码不算难,但这次特意加了进度条功能,可以显示爬取进度:




以上就是猫猫品种的数据来自哪里,接下来是获取猫猫交易数据,进入到买猫卖猫页面:



滑到最底下,可以看到显示有多少页数据,共多少条,此时显示的是 31W,使用多进程爬取了 20W:



当然,爬取的数据是进入详情页后进行爬取的,包含价格,标题,在售只数,猫龄,预防等:



由于数据太多,所以选择了分步爬取:先爬取每一页中的所有猫猫详情交易链接的 url 保存进 csv,在读取 csv 一次爬取每条交易数据,于是乎 20W 数据的来源就有了。


数据探索


在这之前呢,我对猫的品种并不是很清楚,只知道几个经常听见布偶猫、橘猫等。


于是画个了词云,来直观的瞅一瞅猫猫还有哪些品种:



了解了品种后,想知道这些品种的猫猫原产地都是来自哪里。看了下数据,除了橘猫是世界各地都有的,其他品种猫猫的主要分布如下图:



加拿大、美国、英国、埃及、泰国、阿富汗是大多数猫猫品种们的原产地。


那猫猫品种的体型分布如何呢,我们一起来看看呗:



在所有品种中,大型的只有一个品种:布偶猫。其他品种都是中小型的类型。


猫猫们很多品种都很可爱,那大家一般都喜欢从什么角度来描述呢:


从颜色方面,蓝色,黑色,红色形容猫猫的次数最多;

性格方面,对人友善;

观看角度方面从侧面看,后面看最合适。



了解了品种之后,再一起来看看交易的数据吧。


首先来看看交易主要分布在哪些区域:



四川,重庆,广东是猫猫交易最多的省份。


主要的交易品种:



橘猫最多(果然世界各地都有橘猫……),其次是咖啡猫,布偶猫,英短蓝白猫。


要买猫当然还得看看价格,对于每种品种的猫猫来说,买的时候有个平均价格参考,心中有个数才好把握:




缅因猫均价最高。不过我对它不是很了解,倒是觉得第2的布偶猫非常可爱。


这些猫猫一般猫龄是多大呢?



主要分布在 1-9 个月之间,都是刚出生未满一岁的小猫咪,等待有缘人成为它们的主人铲屎官。


那在这些数据中,影响猫猫价格的因素有哪些?


我先从浏览次数与价格进行分析,浏览次数一定程度上反映了猫猫的热度,所以绘制散点图:



从结果上看浏览次数与价格并不存在明显的相关性。


那时候跟猫猫年龄有关呢?通过箱型图来查看一下:



可以看到年龄是影响价格的一个因素,1-9 个月的猫猫价格分布在 500-1700 之间,而大于 9 个月的猫猫价格都在 1300 以上,且价格分布明显不同。


在确定与年龄有关后,是否与预防针次数有关呢?



预防针次数也是与价格相关的,0针,1-2针,3针的价格区间分布明显不同,多以预防针次数也是一个影响因素。


是否包邮,是否能视频看猫猫,是否纯种都是影响价格的因素,且三者存在共线性:





所以影响价格的因素猫猫价格的相关因素主要有年龄、预防次数、邮费、是否纯种、能否看视频等。


数据及源码


数据:

https://www.kesci.com/mw/project/6018ba26a93d4a001538992b/dataset


分析源码:

https://www.kesci.com/mw/project/6018ba26a93d4a001538992b


(为避免影响对方网站正常运行,这里我给大家提供了我采集好的数据。爬虫部分代码恕不提供,望理解)


以上便是我对20w猫咪数据的整理分析。如果文章对你有帮助,欢迎转发/点赞/收藏~

作者:木下瞳

来源:木下学Python


_往期文章推荐_

一线城市的房租在工资中占比高吗?




如需了解付费精品课程教学答疑服务
请在Crossin的编程教室内回复: 666

浏览 20
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报