教你使用 3 行 Python 代码获取海量数据

共 2991字,需浏览 6分钟

 ·

2020-12-23 21:00


一谈起数据分析,首先想到的就是数据,没有数据,谈何分析


毕竟好的菜肴,没有好的原材料,是很难做的~


所以就给大家分享一个获取数据的方法,只需 3 行代码就能搞定


「GoPUP」,大佬造的轮子,大概有 100+ 的免费数据接口



GitHub:https://github.com/justinzm/gopup


使用文档:http://doc.gopup.cn/#/README


主要有指数数据、宏观经济数据、新经济数据、微博KOL数据、信息数据、生活数据、疫情数据等


# 安装gopup
pip install gopup  --upgrade


安装成功后,就能使用了


01 微博指数


获取指定关键词的微博指数


# 微博指数
import gopup as gp
df_index = gp.weibo_index(word="马保国", time_type="1month")
print(df_index)


time_type="1month"; 1hour, 1day, 1month, 3month 选其一



三行 Python 代码实现数据获取


02 百度指数


获取指定关键词的百度搜索指数


# 百度指数
import gopup as gp
cookie = "此处输入您在网页端登录百度指数后的 cookie 数据"
index_df = gp.baidu_search_index(word="马保国", start_date='2020-11-15', end_date='2020-11-25', cookie=cookie)
print(index_df)


需要登陆百度指数,获取你的Cookie



设置关键词,时间起始,就能获取到马保国老师的热度数据了



后面还有百度资讯、媒体、需求图谱、人群年龄、性别、兴趣分布数据接口,就不一一介绍了


感兴趣的同学可以自行去查看文档。


03 头条指数



获取指定关键词的头条指数


# 头条指数
import gopup as gp
index_df = gp.toutiao_index(keyword="马保国", start_date='20201115', end_date='20201125')
print(index_df)


接口挂了,不知为何~


还有相关性、情感、地域、城市、年龄、性别、用户阅读兴趣分析数据等接口


04 谷歌数据


需要通过代理才能使用,不过上面这三类已经完全够用了


# 谷歌数据
import gopup as gp
index_df = gp.google_index(keyword="马保国", start_date='2020-11-15T10', end_date='2020-11-25T23')
print(index_df)


05 宏观经济数据


有一个杠杆率的数据可以使用


# 杠杆数据
import gopup as gp
df_index = gp.marco_cmlrd()
print(df_index)


不懂经济学,所以不明觉厉



06 新经济数据


这个数据倒是蛮有趣的,主要是公司数据


比如独角兽和倒闭公司的数据


# 独角兽公司数据
import gopup as gp
df_index = gp.nicorn_company()
print(df_index)


一共是 240 家独角兽公司



蚂蚁、字节、阿里云、滴滴,都是行业中的大佬


# 倒闭公司数据
import gopup as gp
df_index = gp.death_company()
print(df_index)


倒闭的公司一共有 6921 家



看到不少 P2P 的公司


剩下还有有一个特许经营许可数据,好像是吊牌销售的意思


前段时间看到一篇文章,讲的就是南极人吊牌销售的事情,南极人都不自己搞生产,而是代工


07 KOL数据&信息数据


主要是微博的 KOL,所以没啥用


# KOL数据
import gopup as gp
g = gp.pro_api(token = "……")
df_index = g.weibo_user(keyword="雷军")
print(df_index)


信息数据是新闻联播文字稿


08 中国油价数据


包含汽油和柴油的调价信息数据


# 油价数据
import gopup as gp
df_index = gp.energy_oil_hist()
print(df_index)


时间从 2000 年直到 2020 年,细数 20 年油价变化



09 百度迁徙数据


可以用来做飞线图或者 OD 图


# 迁徙数据
import gopup as gp
migration_area_baidu_df = gp.migration_area_baidu(area="湖北省", indicator="move_in", date="20200201")
print(migration_area_baidu_df)

单次返回 100 个城市的数据



10 影视数据


实时电影票房数据,最近又有病例出现,数据应该也比较惨淡


这里需要一个 WebDES.js 文件,才能请求成功


# 实时电影票房数据
import gopup as gp
df_index = gp.realtime_boxoffice()
print(df_index)


「如果声音不记得」当日 1 千万的票房,太少了



单日影院数据,今年影院能倒闭一大堆


# 单日影院数据
import gopup as gp
df_index = gp.day_cinema(date="2020-12-08")
print(df_index)


得到票房前 100 的数据



最高应该是 8 万多的收入


实时电视剧播映指数,天气冷了选个好剧或者综艺,窝在被窝刷起来


# 电视剧数据
import gopup as gp
df_index = gp.realtime_tv()
print(df_index)


大秦赋,最近我也在看,感觉还不错



还有实时综艺播映指数、艺人商业价值、流量价值等数据


11 全国高等学校数据


普通高等学校名单,包含名称、主管部门,所在省市、所在地、办学层次等信息


# 普通高等学校数据
import gopup as gp
df_index = gp.university()
print(df_index)


一共是 2631 所高校。



还有成人高等学校以及高等学校详情数据


12 疫情数据


有网易、丁香园、百度三家的疫情数据


# 世界历史累计确诊数据
import gopup as gp
covid_163_df = gp.covid_163(indicator="世界历史累计数据")
print(covid_163_df)


目前,累计 207 个国家有疫情出现



全世界总共就 233 个国家和地区,快接近 90% 了


由于数据接口太多了,就不一一介绍了,可以点击左下角的阅读原文,查看官方文档




推荐阅读


Python 爬虫,推荐一款简单的抓包工具

Python 爬虫,推荐一款简单的抓包工具(续)

微软最强 Python 自动化工具开源了!不用写一行代码!



个人微信


添加个人微信即送 Python 资料


浏览 42
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报