分析了 40000+ 条内衣数据,我终于发现了罩杯的秘密...

数据管道

共 2400字,需浏览 5分钟

 · 2020-12-27

大家好,我是宝器


这篇内容是想教大家如何优雅地爬取天猫评论相关数据,以及怎么样去做些不一样的有趣的分析,奈何一直没想好合适的主题。


该用什么样的主题,才能把粉丝吸引进来呢?正想着,旁边同事的目光被从工位走过的一位妹子所吸引,我顺着看去...



灵光一闪,便有了主题——咱们这次就老老实实分析下内衣的数据吧!


数据爬取


很久前写过用selenium和requests爬取评论的教程,但时间久远,后台有不少小伙伴反馈已经被ban了,在网上其他地方也没找到合适的代码。所以,今天小z特来更新一波。


天猫评论反爬几经更迭,从最开始的什么都不用伪装,到后面要加上cookies才能访问,再到现在的headers构造,一定一定一定要加referer参数才能返回想要的数据结果。


具体怎么爬取呢?非常简单,只需3步:


第一步,定位目标网址


打开具体商品链接,点击累计评价页面,同时F12呼出开发调试工具:



评论翻页,动态加载找到评论数据所在的网址:



别被这巨长的一段网址唬住,真正有用的网址小z已经用红框标出来了,通过修改currentPage参数,轻松实现评论翻页。


第二步,实现单页爬取,为循环全量爬取打好基础


要顺利获取评论数据,需要构造好headers和cookies,经过反复测试,headers中的User-Agent,referer,还有cookies,3个核心参数缺一不可,根据自己的实际情况来构造即可:



评论数据中,我们感兴趣的主要是4个字段:评论内容,评论时间,SKU(款式尺码)和用户昵称。



数据本身是json格式的,所以解析起来非常容易:



最后,批量构造网址,实现循环爬取。

温馨提示:文明人,文明爬,控制好访问间隔时间


Easy~


接下来,我们参考销量排名,分别爬取了9款内衣产品共44832条评论数据,来一探内衣究竟。


注:上面已经把爬取的核心逻辑和代码做了展示,完整代码和本次爬取的评论数据已经整理好,放在文末。为节省篇幅,本次故意略去清洗数据,感兴趣的同学可自行尝试。


数据分析


我们已经成功爬到了此次分析的全部数据:



款式,买家昵称(加密过的),评论内容,评价日期全都健在。


按常规套路来说,做评价分析有三板斧:


先按时间维度来统计评价发布规律,再调用官方情感API做个简单情感分析,最后来一波词云图,美滋滋收工~



我本来也打算这样分析,但这种做法像是分析了很多,又好像没分析什么,对于内衣数据,未免太暴殄天物。


本次评论分析,小z不打算分析文本本身,毕竟大家关注的,貌似都是size数据啊!


有两个关于size的观点,困扰了我很久,今天就来逐一验证一波。


1、人人都是C-CUP?


之前逛某乎,看到过一篇不太正经的科普,讲的是经济发展,提升了人民的生活水平。


人民生活水平提升了,各种营养补充就更充分了,人们关注的身体特征也得到了充分的发展,像身高啊,胸围啊等等。里面印象比较深的一个观点,是作者认为目前c-cup已经是主流了。


凭借多年对生活细致入微的观察,我对这个观点表示严重怀疑。


Talk is cheap,几行Python,便统计出了罩杯分布:



数据不吹牛,C罩杯远远还没成为主流!


从数据上看,B罩杯44.61%的占比,体现了数量上毫无疑问的优势,C罩杯排名第二,占比24.41%,随后是A罩杯的18.50%,最后是不到十位数占比的D、E、F。


说实话,我是看了型号统计数据,才知道还有F...


注:百分比为各自罩杯下的占比,柱高表示数量的多少


对三大罩杯型号做进一步分析,可以看到,罩杯往大了走,下围也往大了走。同时,我们也能发现,不同消费者对于“松紧程度”也有不同的偏好,像C罩杯竟然还有2%选择70下围的。


2、消费力越强,罩杯越大?


我曾经还听过一个沙雕论证:


多吃木瓜会变大


木瓜不便宜,所以经常吃木瓜的人(更rich)也会买更高档的内衣


由此可得,买越高档内衣的人,平均罩杯也就越大


眼尖的同学看数据源的时候已经发现了,我在爬取数据的时候特意通过价格对内衣做了区分。爬取的44832条评价,来源于9款产品。其中3款价格低于100元,定义为平价款;3款中端型内衣价格介于100-200元,200元以上则是高端款。


一波可视化,数据会说话



不用做严谨的什么相关分析我们就能看出:


  • 内衣平价,但不平庸。平价内衣呈现出一种类钟型分布,以B罩杯为主,A和C在两侧均匀分布,值得注意的是,D和E罩杯合计占比也接近7%。


  • 中端内衣,波涛汹涌。C罩杯诚不欺我,已然成为主力,D及以上的罩杯,占比竟然超过了30%。


  • 高端内衣,并不高耸。A和B占去了83%的份额,竟然没有C以上的...


瞎BB:难道平价型内衣以学生为主,还处在进一步发育阶段。而买高端内衣的人,大多追求的是“高级”感、性冷淡风。


以上,是关于如何爬取评论数据,并基于评论附带的款式数据,做一些另类角度的沙雕趣味分析,重在抛砖引玉,感兴趣的同学还可进一步深挖。


拿到数据,把目光仅仅局限在现有数据维度,硬怼分析逻辑,是很多刚入行同学的误区。


在接下来不定期的趣味分析内容中,我会尝试解构如何预设分析方向,如何拆解分析方向,如何让数据源服务于分析本身这些命题,希望对大家有所帮助。


最后,完整爬取代码已经打包好,获取地址如下

下载链接:

https://pan.baidu.com/s/1faLPDuw794qee1qZRf0oZg 

提取码:1qdc

·················END·················

推荐阅读

  1. 说说心里话

  2. 写给所有数据人。

  3. 从留存率业务案例谈0-1的数据指标体系

  4. NB,真PDF神处理工具!

  5. 超级菜鸟如何入门数据分析?


欢迎长按扫码关注「数据管道」

浏览 40
点赞
评论
收藏
分享

手机扫一扫分享

举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

举报