中国各城市首轮感染高峰期再预测!(更新版)

Python绿色通道

共 2225字,需浏览 5分钟

 ·

2023-01-03 22:25

每天学Python新技能

后台回复【大礼包】送你Python自学大礼包

原作者:chenqin@知乎,经济学研究者

近日,我对中国台湾地区、中国香港特别行政区和日本的感染情况与 “发烧” 搜索指数进行了分析,发现一个可能可以帮助预测感染高峰期的方法。

将 Google 搜索指数分为疫情期间和非疫情期间,非疫情期间的发烧指数平均数为:
将疫情期间的搜索指数做以下处理后加总,计算一个数值:
其中 S 的含义是这样的:如果发烧的搜索是发烧人口的一个相对稳定的比例,且在非疫情期间发烧人口是总人口的相对稳定的比例。
那么 S 就正比于疫情感染的人口占总人口的比例,我们把它叫做 “超额发烧搜索指数累计面积”。
下图列出了台湾地区、香港特别行政区以及日本的 “超额发烧搜索指数累计面积”,即下图橙色面积、蓝色面积和灰色面积。

我们发现在这三个地区,当疫情达到顶峰时,这个“超额发烧搜索指数累计面积” 的数值全部刚好达到 80。
这两个地区第一波疫情结束时,香港特别行政区的面积达到了 160,台湾地区的面积达到了 200,日本的最终面积是 250。
如果用百度搜索指数做类似的研究会有什么效果呢?我使用了本轮疫情进入群体感染最快、最早的石家庄、邢台和保定做了计算:

可以算出,从疫情开始后计算,石家庄的 “超额发烧搜索指数累计面积” 已经达到了 76,邢台已经达到了 67,保定也达到了 71。
由此来看,百度搜索指数和 Google 指数分别算出的“超额发烧搜索指数累计面积”,至少是在一个差不多的数量级上。
考虑到保定、石家庄、邢台等地的发烧指数仍然在上升,以及百度搜索指数和 Google 指数的差异。
我们比较保守地将 100 作为疫情达峰时的 “超额发烧搜索指数累计面积”,将 250 作为第一轮疫情结束时的 “超额发烧搜索指数累计面积”。
那么我们通过每个城市的搜索指数累计增长,累计速度,就可以算出现在每一个有疫情的城市疫情达峰的时间,以及疫情结束的时间。
这是计算的结果,列出了所有能在明年春节前达峰的城市以及这些城市在达峰前已经感染的人口比例(截止至 12 月 10 日)。

12 月 12 日更新:
12 月 13 日更新:

12 月 14 日更新:
今天的更新有三个大的改动。
第一是加入了巨量算数指标修正了一些城市,加入了一些之前数据不足的城市。
第二是我将过峰的“超额发烧搜索累计面积”修正回了 80。之前的几张表格中,保守起见,这个数值我使用的是 100,他会使一些城市过峰偏慢。
但从这几天的数据看,石家庄、保定等地已经过峰,这说明中国内地城市居民,在非疫情-疫情的变化中,搜索行为的变化上和香港特别行政区、台湾地区的居民在同样时期的变化是非常类似的。因此一些城市会在今天的表格中有所提前。

第三是加入了“结束进度条”这一变量,代表已经度过疫情顶峰的城市在第一波疫情结束前可能还要走的路程。

“达峰进度条”说明的是在疫情达到日增顶峰前已经感染了多少人,这是城市疫情逐渐加剧,院感增加,医疗资源逐渐挤兑的一段日子,数字达到 100 时日增感染者就达到了顶峰。

而“结束进度条”说明的是在疫情过峰后,在这一波疫情结束前已经感染了多少人,这段时间的疫情虽然整体缓解,但感染还是会继续增加,并且大部分死亡会出现在这个阶段。在数字达到 100 时,城市的这一波疫情就基本结束了。

疫情达峰时间的推算,原本只是搜索指数的一次尝试,初衷是觉得有趣,但无心插柳,竟然能帮助许多人缓解焦虑。

焦虑来自哪里?来自未知。既然和疫情共存了,那么不怕他不来,肯定得来,就怕它在计划外乱来。

那么有一个数据,虽然简陋,但也比没有数据好,至少大致上是和真实趋势吻合的。

既然如此,在卫健委有能力提供真实数据之前,我还是会希望继续更新下去,让这份粗糙的数据陪伴大家渡过第一次冲击。

12 月 15 日更新:
今天按照行政区划代码的顺序做了排序,增加了一个变量“累计感染占总人口比值”。
这个数值也是根据累计的超额搜索面积计算的。在“数据团+”小程序中也做了相应更新。一些人口较少的城市的搜索指数变化幅度较大,可能会导致数据波动。


12 月 16 日更新:
今天修改了许多之前计算的 bug,比如多段疫情被合并计算(例如新疆的一些城市被合并三个月疫情后出现了超过 100 的感染率),疫情结束时间的算法尾部过宽,一些小城市的缺失(比如济源、仙桃、吉林省吉林市)以及巨量算数的权重。
头条系产品的许多数据来自被动推送,比如点击搜索框,出现一个“内马尔发烧了”,吸引用户点击后,可能就会造成一些地方的“发烧”搜索异常。
我使用百度的全国指数作为基准整体修正了巨量算数,得到了一个更为稳健的结果。
有些读者可能会注意到今天有一些城市的疫情过峰时间、结束时间都变长了,这一方面来自上面的几项 bug 修改的结果。
当然,更重要的一方面原因是一些城市确实在压平曲线,尽量降低疫情的增速。
快速过峰当然会使得这个城市能够较快地离开第一波疫情,但是同样也会造成医疗资源大量挤兑。
力所能及地增加一些社交距离,虽然会让这个城市的疫情更持久,但总死亡也会降低,在第一波感染中,还是值得的。
这也是我们的模型最后一次大幅度修改,之后的数据就能保持相对稳定了。

数据不足,方法简陋,仅供参考。

  1. 美化 Jupyter Notebook 格式就没输过谁!

  2. 9个技巧使你的Python代码更Pythonic

  3. Jupyter Notebook 五大效率插件


浏览 28
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报