新闻平台聚合之新浪新闻爬虫发布

共 1118字，需浏览 3分钟

·

2021-03-11 21:16

点击上方月小水长并设为星标，第一时间接收干货推送

这是月小水长的第 65 篇原创干货

idea of startproject

对于 web 开发者而言，目前各大新闻门户网站，新浪新闻，百度新闻，腾讯新闻，澎湃新闻，头条新闻并没有提供稳定可用的 feed api。
对于 nlper，缺乏足够的新闻语料数据集来供训练。
对于新闻传播/社会学/心理学等从业者，缺乏获取新闻数据的简单易用途径来供分析。
如果上面三点是某见识所限，其实并不存在的话，第 4 点，则是某的私心，某以为互联网的记忆太短了，热搜一浪盖过一浪，所以试图定格互联网新闻的某些瞬间，最后会以网站的形式发布出来。

project 的 Github：https://github.com/Python3Spiders/AllNewsSpider

新浪新闻爬虫

该爬虫实现的主要功能罗列如下：

全自动爬取新浪新闻全站新闻内容，包括娱乐、军事、科技、财经四大 category。
可以自定义输入爬取的最大页码，默认是 20 页
字段信息齐全，如下表格

字段名	字段含义
recode_time	该条新闻被抓取的时间
news_title	新闻标题
news_summary	新闻概括
news_url	新闻链接
news_author	新闻作者
news_keywords	新闻关键词，以；分隔
news_time	新闻发布的时间
news_content	新闻具体内容

再说说如何使用（默认读者均有 python3.6+ 环境）

将仓库 sina 文件夹下的 sina_news_spider.pyd 文件下载到本地，新建项目，把 pyd 文件放进去
项目根目录下新建 runner.py，写入以下代码即可运行并抓取
```
import sina_news_spider
sina_news_spider.main()
```

开始运行时会提示输入爬取到哪一页，默认是 20 页

爬取结束了，会在当前目录下生成一个 新浪新闻.xlsx文件，里面保持了四个 category 的所有网站上可浏览的文本新闻，一个 category 对应一个 sheet_name。

本系列预告

1、nytimes 纽约时报爬虫

2、thetimes 泰晤士报爬虫

阅读原文即可直达该爬虫的 Github 地址。

浏览 100

点赞

收藏

分享

举报

评论

图片

表情

PlanetRSS 新闻聚合器

Planet 是一个用 Python 开发的 RSS 新闻聚合器。

pyAggr3g470r新闻聚合器

pyAggr3g470r 是一个用 Python 开发的多线程新闻聚合器，提供一个web接口和基于

JARRRSS 新闻聚合器

JARR(JustAnotherRSSReader)是一个基于Web的RSS新闻聚合器。isaweb-basednewsaggregator.

JARRRSS 新闻聚合器

JARR (Just Another RSS Reader) 是一个基于 Web 的 RSS 新闻聚

pyAggr3g470r新闻聚合器

pyAggr3g470r是一个用Python开发的多线程新闻聚合器，提供一个web接口和基于SQLite数据库（最新版本已改用MongoDB数据库）。

PlanetRSS 新闻聚合器

Planet是一个用Python开发的RSS新闻聚合器。

IXNA新闻聚合程序

IXNA是国内开源PHP新闻聚合程序，支持RSS多核心切换，默认支持lastrss、simplepi

Slash新闻与信息发布平台

Slash用perl编写，是一个数据库驱动的新闻与信息发布平台。运行环境(Apache+mysql+

Slash新闻与信息发布平台

Slash用perl编写，是一个数据库驱动的新闻与信息发布平台。运行环境(Apache+mysql+perl)。slash具有所有的公告板和新闻发布系统的特征。功能强大且易于定制。你可以很容易得完成适

IXNA新闻聚合程序

IXNA是国内开源PHP新闻聚合程序，支持RSS多核心切换，默认支持lastrss、simplepie、magpierss，支持RDF、RSS、ATOM，支持智能识别。

点赞

收藏

分享

举报