新闻聚源集成 BBC News-技术圈

idea of startproject

对于 web 开发者而言，目前各大新闻门户网站，新浪新闻，百度新闻，腾讯新闻，澎湃新闻，头条新闻并没有提供稳定可用的 feed api。
对于 nlper，缺乏足够的新闻语料数据集来供训练。
对于新闻传播/社会学/心理学等从业者，缺乏获取新闻数据的简单易用途径来供分析。
如果上面三点是某见识所限，其实并不存在的话，第 4 点，则是某的私心，某以为互联网的记忆太短了，热搜一浪盖过一浪，所以试图定格互联网新闻的某些瞬间，最后会以网站的形式发布出来。

https://github.com/Python3Spiders/AllNewsSpider

项目的 github 地址如上，于 2021 年跨年时发布了这个项目，一年间陆续发布了新浪，百度，腾讯，澎湃，泰晤士报，纽约时报等主流新闻媒体。

期间也上线过聚源新闻网站，集成了上述 feed 数据，可惜服务器过期导致网站下线。

restart

2022 年新的一年，又将这个项目拾掇起来了，并且顺带发布了新加入的 BBC News。

pyd 文件在：

https://github.com/Python3Spiders/AllNewsSpider/tree/master/bbc

点击文末阅读原文直达。

这个 bbc_news_spider 能按照指定的关键词(s)抓取 BBC 新闻网站上的数据，输出字段格式如下。

字段	说明
title	新闻标题
link	新闻链接
summary	新闻概述
head_img	头图
publish_time	发布时间
tags	标签
content	正文

single keyword


from bbc_news_spider import BBCNewsKeywordSearchsearch_worker = BBCNewsKeywordSearch()search_worker.setKeyword("mykeyword")search_worker.crawl()

batch keyword


from bbc_news_spider import BBCNewsKeywordSearchsearch_worker = BBCNewsKeywordSearch()keywords = ['mykeword1', 'mykeyword2', 'mykeyword3']search_worker.setKeywordListandRun(keywords)

todo

第一，bbc_bews_spider 只是打印到控制台，验证可行性，没有输出到 csv 文件，原来的几个爬虫可能由于某些原因失效了，可能需要重来。

第二，新闻网站重新上线。

第三，忙死，感慨时间太短，想做什么事情却也什么都做不了…

第四，以上三条不具有并列和先后关系…