新闻平台聚合之腾讯新闻爬虫发布

共 1244字，需浏览 3分钟

·

2021-03-03 10:10

点击上方月小水长并设为星标，第一时间接收干货推送

这是月小水长的第 64 篇原创干货

idea of startproject

对于 web 开发者而言，目前各大新闻门户网站，新浪新闻，百度新闻，腾讯新闻，澎湃新闻，头条新闻并没有提供稳定可用的 feed api。
对于 nlper，缺乏足够的新闻语料数据集来供训练。
对于新闻传播/社会学/心理学等从业者，缺乏获取新闻数据的简单易用途径来供分析。
如果上面三点是某见识所限，其实并不存在的话，第 4 点，则是某的私心，某以为互联网的记忆太短了，热搜一浪盖过一浪，所以试图定格互联网新闻的某些瞬间，最后会以网站的形式发布出来。

project 的 github 地址

https://github.com/Python3Spiders/AllNewsSpider

继承自澎湃新闻网站全站新闻爬虫及各大新闻平台聚合爬虫发布，本篇是新闻系列的第二篇，以腾讯新闻为目标网站

腾讯新闻爬虫

该爬虫实现的主要功能罗列如下：

全自动爬取腾讯新闻全站新闻内容，包括娱乐、军事、科技、财经四大 category。
可以自定义输入爬取的最大页码，默认是 20 页
字段信息齐全，如下表格

字段名	字段含义
recode_time	该条新闻被抓取的时间
news_title	新闻标题
news_summary	新闻概括
news_url	新闻链接
news_author	新闻作者
news_keywords	新闻关键词，以；分隔
news_time	新闻发布的时间
news_content	新闻具体内容
news_view_count	新闻浏览量
news_comment_count	新闻评论数

再说说如何使用（默认读者均有 python3.6+ 环境）

将仓库 tencent文件夹下的 tencent_news_spider.pyd 文件下载到本地，新建项目，把 pyd 文件放进去
项目根目录下新建 runner.py，写入以下代码即可运行并抓取
```
import tencent_news_spider
tencent_news_spider.main()
```

开始运行时会提示输入爬取到哪一页，默认是 20 页，爬取过程中是下面这样的。

爬取结束了，会在当前目录下生成一个 腾讯新闻.xlsx文件，里面保持了四个 category 的所有网站上可浏览的文本新闻，一个 category 对应一个 sheet_name。

预告

1、新浪新闻爬虫

2、nytimes 纽约时报爬虫

3、thetimes 泰晤士报爬虫

阅读原文即可直达该爬虫的 Github 地址。

浏览 58

点赞

收藏

分享

举报

评论

图片

表情

PlanetRSS 新闻聚合器

Planet 是一个用 Python 开发的 RSS 新闻聚合器。

pyAggr3g470r新闻聚合器

pyAggr3g470r 是一个用 Python 开发的多线程新闻聚合器，提供一个web接口和基于

JARRRSS 新闻聚合器

JARR(JustAnotherRSSReader)是一个基于Web的RSS新闻聚合器。isaweb-basednewsaggregator.

JARRRSS 新闻聚合器

JARR (Just Another RSS Reader) 是一个基于 Web 的 RSS 新闻聚

pyAggr3g470r新闻聚合器

pyAggr3g470r是一个用Python开发的多线程新闻聚合器，提供一个web接口和基于SQLite数据库（最新版本已改用MongoDB数据库）。

PlanetRSS 新闻聚合器

Planet是一个用Python开发的RSS新闻聚合器。

IXNA新闻聚合程序

IXNA是国内开源PHP新闻聚合程序，支持RSS多核心切换，默认支持lastrss、simplepi

Slash新闻与信息发布平台

Slash用perl编写，是一个数据库驱动的新闻与信息发布平台。运行环境(Apache+mysql+

Slash新闻与信息发布平台

Slash用perl编写，是一个数据库驱动的新闻与信息发布平台。运行环境(Apache+mysql+perl)。slash具有所有的公告板和新闻发布系统的特征。功能强大且易于定制。你可以很容易得完成适

IXNA新闻聚合程序

IXNA是国内开源PHP新闻聚合程序，支持RSS多核心切换，默认支持lastrss、simplepie、magpierss，支持RDF、RSS、ATOM，支持智能识别。

点赞

收藏

分享

举报