Python分析13万条微博热搜,快来看看2021年的年度回忆!
共 2831字,需浏览 6分钟
· 2022-01-21
“菜鸟学Python”,第“550”篇原创
大家好,我是菜鸟哥!
数据抓取
数据的来源,是通过抓取《微博热搜搜索引擎》平台来获取的数据,其网址为:
https://weibo.zhaoyizhe.com/。
通过在开发者模式下,对网页进行分析,我们就可以轻松的找到其对应的数据接口。
分析其接口请求的链接可以发现:
https://google-api.zhaoyizhe.com/google-api/index/mon/sec?date=2022-01-13
其中最关键的便是“date”请求参数的变化,只需要在程序中通过循环的方式来改变date的数据,便可以抓取到2021年整年的热搜数据。
上述的程序是抓取数据的核心程序。
get_date_list函数的作用是用来产生日期数据,通过设置起始时间和终止时间,来产生标准的时间格式。例如“2021-01-01"。
第13行中的self.dates变量中,保存的是2021年每一天的日期数据。
第13-32行程序,通过for循环的方式,来提取每一天的热搜数据。并将数据保存到本地。
抓取到的数据内容如下图所示。
抓取到每天的热搜数据后,通过下面的程序来将所有的数据进行合并。
程序利用pandas库,来读取每一个子文件,并通过concat函数合并数据后,将数据重新保存到csv文件当中。
数据分析
在合并数据后,接下来就是对于数据的清洗和简要的分析。
首先将读取进来的数据,通过深拷贝来复制一份后,利用drop_duplicates函数去除重复行。
del_day和day_convert函数分别用来生成保留年月的数据,和转变日期格式。
通过上述程序清洗后的数据如下图所示。
热搜日历
首先,我们通过日历的形式,来观察哪一个月份的热搜最为密集。
热搜指数前十的新闻
当年新闻最多的关键词
回顾2021年的点点滴滴,我们可以通过热搜关键词来帮助我们回忆,这一年来的关键事件。
每个月的热搜之王
年度热搜人物
而关于年度人物的热搜排行榜,如下图所示:
年度热搜的人物冠军,归属于王一博。纵观整年的热搜人物,可以发现,既有常见的娱乐明星,也不乏像是苏炳添、马龙等体育明星。当然我们更不能忘记的,是敬爱的袁隆平院士。
总结
最后新年来了,说一下我们的新动作
我们理财交流小分队成立了,新的一年来啦,一起提高自己的理财技能,互相切磋抱团取暖,交流信息。去年没有抓住新能源这个大腿,错过一大波的红利,可见信息差有多重要,如何把握热点,如何提高整体的理财策略,如何降低分险,仓位如何控制,都需要好好研究。今年赶紧成了一个小分队,一起共商大计。
推荐阅读:
入门: 最全的零基础学Python的问题 | 零基础学了8个月的Python | 实战项目 |学Python就是这条捷径
干货:爬取豆瓣短评,电影《后来的我们》 | 38年NBA最佳球员分析 | 从万众期待到口碑扑街!唐探3令人失望 | 笑看新倚天屠龙记 | 灯谜答题王 |用Python做个海量小姐姐素描图 |碟中谍这么火,我用机器学习做个迷你推荐系统电影
趣味:弹球游戏 | 九宫格 | 漂亮的花 | 两百行Python《天天酷跑》游戏!
AI: 会做诗的机器人 | 给图片上色 | 预测收入 | 碟中谍这么火,我用机器学习做个迷你推荐系统电影
小工具: Pdf转Word,轻松搞定表格和水印! | 一键把html网页保存为pdf!| 再见PDF提取收费! | 用90行代码打造最强PDF转换器,word、PPT、excel、markdown、html一键转换 | 制作一款钉钉低价机票提示器! |60行代码做了一个语音壁纸切换器天天看小姐姐!|
年度爆款文案
点阅读原文,看200个Python案例!