2022 年微博签到数据集自助构建(包含经纬度)
共 815字,需浏览 2分钟
·
2022-11-02 02:18
一个在线工具,零配置,以城市为单位,用户可自行选择城市构建微博签到数据集。
选择构建的城市可以是北京、上海、广州、深圳这样的一线城市,也可以是海口、洛阳这样的三线城市。除了国内所有城市,还可以选择东京、巴黎等国外上百个主要城市。
是一个增量抓取微博城市签到数据的轻量级在线工具,每次增量抓取都会追加当前新的签到微博 ,如果之前不存在,则自动初始化该城市签到数据库。所有用户都可以在之前的抓取基础上继续追加当前最新签到微博,抓取结束后可下载最新的签到微博 CSV 文件。字段包括微博链接、微博内容、 用户主页链接、用户认证类型、转评赞数、图片链接、视频链接、签到地点、签到链接、签到经纬度(GCJ02 坐标系)等信息。注意:无法按照指定时间段抓取,如果你想要 2020 年的,如果当前数据库没有,那就没有;当前被其他用户选中抓取的城市无法选择,只有被其他释放后才能选中。
站点地址是(可点击阅读原文直达):
https://weibo-crawl-visual.buyixiao.xyz/location-checkin-dataset-generator
在站点可以选择查看当前城市最新条 100 条签到,可以查看所有已执行任务概览。
也可以执行一次增量更新,一次增量抓取结束,可点击页面最左下方的下载按钮,下载增量后的签到数据。下载完成后可用 Pycharm 或者 notepad++ 等编辑器查看 CSV~,如用 Excel 等软件打开乱码,可先用记事本另存文件为 CSV 时修改编码为带 BOM 头的 UTF-8。
执行增量更新只对授权用户开放,每一个授权用户都会有一个独一无二的授权码。截止发文关注本号超过 4 年或者累计留言超过 6 条,可后台私戳免费获得授权码,否则,请前往站点查看授权码生成方式。
没有选择自动增量更新的原因是所有城市执行一次增量更新太费时费力,把选择权交给用户,需求越多的城市增量更新的次数也越频繁,数据量也越多。