新闻聚源集成 BBC News

共 1274字,需浏览 3分钟

 ·

2022-01-24 07:22

idea of startproject

  1. 对于 web 开发者而言,目前各大新闻门户网站,新浪新闻,百度新闻,腾讯新闻,澎湃新闻,头条新闻并没有提供稳定可用的 feed api。

  2. 对于 nlper,缺乏足够的新闻语料数据集来供训练。

  3. 对于新闻传播/社会学/心理学等从业者,缺乏获取新闻数据的简单易用途径来供分析。

  4. 如果上面三点是某见识所限,其实并不存在的话,第 4 点,则是某的私心,某以为互联网的记忆太短了,热搜一浪盖过一浪,所以试图定格互联网新闻的某些瞬间,最后会以网站的形式发布出来。

https://github.com/Python3Spiders/AllNewsSpider

项目的 github 地址如上,于 2021 年跨年时发布了这个项目,一年间陆续发布了新浪,百度,腾讯,澎湃,泰晤士报,纽约时报等主流新闻媒体。
期间也上线过聚源新闻网站,集成了上述 feed 数据,可惜服务器过期导致网站下线。

restart

2022 年新的一年,又将这个项目拾掇起来了,并且顺带发布了新加入的 BBC News。
pyd 文件在:
https://github.com/Python3Spiders/AllNewsSpider/tree/master/bbc
点击文末阅读原文直达。
这个 bbc_news_spider 能按照指定的关键词(s)抓取 BBC 新闻网站上的数据,输出字段格式如下。
字段说明
title新闻标题
link新闻链接
summary新闻概述
head_img头图
publish_time发布时间
tags标签
content正文

single keyword

from bbc_news_spider import BBCNewsKeywordSearchsearch_worker = BBCNewsKeywordSearch()search_worker.setKeyword("mykeyword")search_worker.crawl()

batch keyword

from bbc_news_spider import BBCNewsKeywordSearchsearch_worker = BBCNewsKeywordSearch()keywords = ['mykeword1', 'mykeyword2', 'mykeyword3']search_worker.setKeywordListandRun(keywords)

todo

第一,bbc_bews_spider 只是打印到控制台,验证可行性,没有输出到 csv 文件,原来的几个爬虫可能由于某些原因失效了,可能需要重来。
第二,新闻网站重新上线。
第三,忙死,感慨时间太短,想做什么事情却也什么都做不了…
第四,以上三条不具有并列和先后关系…
浏览 47
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报