澎湃新闻网站全站新闻爬虫及各大新闻平台聚合爬虫发布-技术圈

这是月小水长的第 61 篇原创干货

idea of startproject

对于 web 开发者而言，目前各大新闻门户网站，新浪新闻，百度新闻，腾讯新闻，澎湃新闻，头条新闻并没有提供稳定可用的 feed api。
对于 nlper，缺乏足够的新闻语料数据集来供训练。
对于新闻传播/社会学/心理学等从业者，缺乏获取新闻数据的简单易用途径来供分析。
如果上面三点是某见识所限，其实并不存在的话，第 4 点，则是某的私心，某以为互联网的记忆太短了，热搜一浪盖过一浪，所以试图定格互联网新闻的某些瞬间，最后会以网站的形式发布出来。

这个 project 我几年前就有想法了，仓库两年前就推送到了 Github，只不过只有一个 readme 文件，昨晚跨年，清理 Github，这个想法就又强烈了起来，说干就干。

project 的 Github：https://github.com/Python3Spiders/AllNewsSpider

其实最开始并没有将澎拜新闻包括在内，某最近才开始重点关注澎湃新闻，相对于其它新闻的娱乐性，澎湃新闻的严肃活泼笔风，深得我意。

先说下这个爬虫的实用之处，罗列如下

再说说如何使用（默认读者均有 python3.6+ 环境）

将仓库 pengpai 文件夹下的 pengpai_news_spider.pyd 文件下载到本地，新建项目，把 pyd 文件放进去
项目根目录下新建 runner.py，写入以下代码即可运行并抓取
```
import pengpai_news_spider
pengpai_news_spider.main()
```

爬取过程中是下面这样的