如何利用Scrapy爬虫框架抓取网页全部文章信息（上篇）-技术圈

点击上方“Python爬虫与数据挖掘”，进行关注

回复“书籍”即可获赠Python从入门到进阶共10本电子书

今

日

鸡

汤

孤灯不明思欲绝，卷帷望月空长叹。

/前言/

前一段时间小编给大家分享了Xpath和CSS选择器的具体用法，感兴趣的小伙伴可以戳这几篇文章温习一下，网页结构的简介和Xpath语法的入门教程，在Scrapy中如何利用Xpath选择器从HTML中提取目标信息（两种方式），在Scrapy中如何利用CSS选择器从网页中采集目标数据——详细教程（上篇）、在Scrapy中如何利用CSS选择器从网页中采集目标数据——详细教程（下篇）、在Scrapy中如何利用Xpath选择器从网页中采集目标数据——详细教程（下篇）、在Scrapy中如何利用Xpath选择器从网页中采集目标数据——详细教程（上篇），学会选择器的具体使用方法，可以帮助自己更好的利用Scrapy爬虫框架。在接下来的几篇文章中，小编将给大家讲解爬虫主体文件的具体代码实现过程，最终实现网页所有内容的抓取。

前一阶段我们已经实现了通过Scrapy抓取某一具体网页页面的具体信息，关于Scrapy爬虫框架中meta参数的使用示例演示（上）、关于Scrapy爬虫框架中meta参数的使用示例演示（下），但是未实现对所有页面的依次提取。首先我们理一下爬取思路，大致思想是：当获取到第一个页面的URL之后，尔后将第二页的URL发送给Scrapy，让Scrapy去自动下载该网页的信息，之后通过第二页的URL继续获取第三页的URL，由于每一页的网页结构是一致的，所以通过这种方式如此反复进行迭代，便可以实现整个网页中的信息提取。其具体的实现过程将通过Scrapy框架来进行实现，具体的教程如下。

/具体实现/

1、首先URL不再是某一篇具体文章的URL了，而是所有文章列表的URL，如下图所示，将链接放到start_urls里边，如下图所示。