如何利用Scrapy爬虫框架抓取网页全部文章信息（中篇）-技术圈

点击上方“Python爬虫与数据挖掘”，进行关注

回复“书籍”即可获赠Python从入门到进阶共10本电子书

今

日

鸡

汤

上有青冥之长天，下有渌水之波澜。

/前言/

在上一篇文章中：如何利用Scrapy爬虫框架抓取网页全部文章信息（上篇），我们已经获取到了文章的详情页链接，但是提取到URL之后，如何将其交给Scrapy去进行下载呢？下载完成之后又如何去调用我们自己定义的解析函数呢？此时就需要用到Scrapy框架中的另外一个类Request。具体教程如下。

/具体实现/

1、这个Request存放的位置在scrapy.http下，如下图所示，可以直接导入即可。

我们需要将这个Request对象交给Scrapy，尔后Scrapy爬虫框架就会帮助我们去进行下载了。

2、Request对象里有初始化参数url以及回调函数callback，当然还有其他的参数，这里不铺开讲。我们将获取到的文章链接URL传给这个初始化参数url，之后就可以构建Request啦。在这里需要说明的是，这个Request是文章详情页的页面，而不是文章的列表页。对于文章详情页，那么接下来，我们需要对每篇文章的具体信息进行提取。

3、基于之前文章的铺垫，提取网页的目标信息，可以将提取目标信息的表达式部分封装成一个函数parse_detail()，其作为一个callback回调函数，用于提取文章的具体字段。这里以CSS选择器为例，如下图所示。如果想以Xpath选择器进行提取的话也没有问题，具体实现可以参考历史文章中关于CSS和Xpath选择器用法的文章。具体的实现过程，在此暂不赘述。

4、尔后将Request类完善一下，加入callback参数，记得在parse_detail前边加入self，表示在当前类当中的，不然的话就会报错的。此外，parse_detail虽然为函数，但是在此处务必不要加括号，这就是回调函数的特色。

5、细心的小伙伴可能已经注意到上图中Request类中的url部分很复杂，加入了parse.urljoin()函数，其实这个也是个小技巧，这里简单说一下，希望对小伙伴们有帮助。parse.urljoin()函数的作用是将相对的地址组合成一个完整的url，有的时候网页标签中给我们呈现的并不是一个完整的URL链接或者完整的域名，而是省去了网页的域名，如果没有域名的话，默认的域名是当前网页的域名（即response.url），此时我们就需要进行URL的拼接，形成一个完整的URL地址，以方便正常访问。