上海市携程酒店数据采集及可视化

月小水长

共 3468字,需浏览 7分钟

 ·

2023-08-16 16:18

欢迎关注公众号「月小水长」,唯一笔者是 BuyiXiao,又名小布衣、肖不已。 

BuyiXiao,何许人也?本衡州一乡野村夫,身高八尺不足,年方二十有余;弱冠之年曾求学于潭州,为谋生计,背井离乡,远赴京畿,我本南人,不习北土,兼有故友,威逼利诱,急于星火,遂下岭南,打工未半,中道创业,所为何业?赛博朋克,智能硬件;假工程师之名,行农民工之实,满腹经纶,无用书生,善于自黑,贻笑大方。 

笔者水平有限,可能暂时无法将非常干货的教程讲的不拖泥带水又不哗众取宠,公众号文章诸多遗漏或不妥之处,可以加月小水长微信「2391527690」备注「学校专业/研究方向/工作岗位」进行交流。

另外,文末点下「」和「在看」,这样每次新文章推送,就会第一时间出现在你的订阅号列表里。

酒店的数量、价格、评分和人流量是衡量一个城市消费水平的指标,也间接反映出城市的经济发展水平和居民的生活水平。

我抓取了整个上海的携程酒店数据,一共 6000 余个酒店,包含几十个字段,主要的字段信息如下,并进行了简要的分析。

d1929d1416842ddbc1a7686cbdc12e5c.webp

第一步,先来看看这个 dataframe 的整体分析 df.describle():

      
             discounted_price  entity_score         star          lng          lat
count       5712.000000   6013.000000  6203.000000  6203.000000  6203.000000
mean         460.375875      4.216498     2.035467   121.418132    31.220763
std          900.588455      0.664155     1.213317     0.163744     0.191488
min           19.000000      1.000000     0.000000   120.914303    30.707439
25%          152.000000      4.000000     2.000000   121.323827    31.128369
50%          253.000000      4.400000     2.000000   121.432059    31.218784
75%          429.000000      4.700000     3.000000   121.491432    31.292182
max        25017.000000      5.000000     5.000000   121.918401    31.827032

酒店价格最贵 25000 一晚,最低 19 块一晚(可能是青旅),

不愧是魔都,让月薪 1k 的不至于流落街头,年入千万的天天七星级,挺好的。

从价格的中位数来看,只平平无奇,但是从平均价格来看,上海的酒店价格至少是我老家,湖南一个省内著名省外无名三线城市价格的 2 倍。

剔除价格的极端值后,再看可视化看看上海酒店价格的主要分布区间。

7148e2b5307cf64d757528b5059f96e4.webp

可以这么说,至少绝大部分的酒店价格都在 750 以下。

再来看看上海分区的价格情况。

c900f1613a82315f6ffbe40fe1166bbb.webp

最贵的是黄埔区、徐汇区、杨浦区,最便宜的是嘉定区、奉贤区。

然后看看各字段的相关性分析

ad7649e23bdf3f46fce3667bd31cbc6f.webp

这张图信息量说大也大,毕竟有 16 个图。

说小也小,拆成一个个小图,每一个图都是一个变量关于其他变量的散点图(主对角线上的除外)看 x、y 坐标,同时注意 label 是酒店星级

其中经纬度和其他变量相关性太小,可以忽略,所以只看左上角四个小图构成的方块即可。

这样一来,可以很快得出一些无用的结论。

  • 价格多分布在区间的下行,即大部分酒店价格较低,评分则多分布在区间上行,大部分酒店评分较高,这反映了上海市酒店服务业的整体水平较高。

  • 图例表示酒店星级,颜色越深,等级越高,在图中的位置越靠右、越靠上,也就是价格越高、评分越高

  • 价格越低,消费者评分的方差就越大,1-5 分都有分布,价格越高,评分越高,几乎都在 4 分以上。我觉得这有两个原因,第一,价格高的酒店数量远远不如酒店低的数量,第二,花了 2w 块住一晚酒店,那体验能不好吗?

最后,把酒店价格可视化地展示在上海地图上。

柱子颜色深浅代表酒店人气,柱子高度代表酒店价格。

2e3fd6a2dddb05fe616c7f7012b7edc6.webp

最后一个无用的结论,即大部分高价酒店人气低,大部分低价酒店人气高。

欢迎关注小号「知书客栈」,以后主要灰分享闲言碎语、上游的数据采集、下游的数据分析,以及各种黑科技。


往期精选


复杂网络 | 社交媒体话题和人物共现
复杂网络建模 | 构建 M 层 N 节点的微博深度转发网络

自研小红书评论区自动回复软件,于繁杂的客服流水作业中抽身
小红书帖子和评论自助提取工具
浏览 87
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报