前言

作为冷数据启动和丰富数据的重要工具，爬虫在业务发展中承担着重要的作用，我们业务在发展过程中积累了不少爬虫使用的经验，在此分享给大家，希望能对之后的业务发展提供一些技术选型方向上的思路,以更好地促进业务发展

我们将会从以下几点来分享我们的经验

爬虫的应用场景
爬虫的技术选型
实战详解：复杂场景下的爬虫解决方案
爬虫管理平台

爬虫的应用场景

在生产上，爬虫主要应用在以下几种场景

1、搜索引擎，Google，百度这种搜索引擎公司每天启动着无数的爬虫去抓取网页信息，才有了我们使用搜索引擎查询资料的便捷，全面，高效

2、冷数据启动是丰富数据的主要工具，新业务开始时，由于刚起步，所以没有多少数据，此时就需要抓取数据

3、数据服务或聚合的公司，比如天眼查，企查查，西瓜数据等等

4、提供横向数据比较，聚合服务，比如说电商中经常需要有一种比价系统，从各大电商平台抓取同一个商品的价格信息，以给用户提供最实惠的商品价格。

爬虫的技术选型

接下来就由浅入深地为大家介绍爬虫常用的几种技术方案

简单的爬虫

说起爬虫，大家可能会觉得技术比较高深，会立刻联想到使用像 Scrapy 这样的爬虫框架，这类框架确实很强大，那么是不是一写爬虫就要用框架呢?非也！要视情况而定,如果我们要爬取的接口返回的只是很简单,固定的结构化数据(如JSON)，用 Scrapy 这类框架的话有时无异于杀鸡用牛刀,不太经济!

举个简单的例子，业务中有这么一个需求:需要抓取某某地方准妈妈从「孕4周以下」~「孕36个月以上」每个阶段的数据

对于这种请求，bash 中的 curl 足堪大任!

首先我们用 charles 等抓包工具抓取此页面接口数据,如下

通过观察，我们发现请求的数据中只有 month 的值（代表孕几周）不一样，所以我们可以按以下思路来爬取所有的数据：

1、找出所有「孕4周以下」~「孕36个月以上」对应的 month 的值，构建一个 month 数组 2、构建一个以 month 值为变量的 curl 请求，在 charles 中 curl 请求我们可以通过如下方式来获取

3、依次遍历步骤 1 中的 month,每遍历一次，就用步骤 2 中的 curl 和 month 变量构建一个请求并执行,将每次的请求结果保存到一个文件中（对应每个孕期的 month 数据），这样之后就可以对此文件中的数据进行解析分析。

示例代码如下，为了方便演示，中间 curl 代码作了不少简化，大家明白原理就好

#!/bin/bash

## 获取所有孕周对应的 month，这里为方便演示，只取了两个值
month=(21 24)
## 遍历所有 month，组装成 curl 请求
for month in ${month[@]};
do
    curl -H 'Host: xxxxx.xxxxx.com' 
    -H 'clientversion: 7.14.1' 
        ...
    -H 'birthday: 2018-08-07 00:00:00'  
    --data "body=month%22%3A$month"  ## month作为变量构建 curl 请求
    --compressed 'http://xxxx.xxxxxx.com/xxx-xxx-gateway/api/json/tools/getBabyChange' > $var.log ## 将 curl 请求结果输出到文件中以便后续分析
done

看了这个例子，是否觉得爬虫不过如此，没错，业务中很多这种简单的爬虫实现可以应付绝大多数场景的需求！

脑洞大开的爬虫解决思路

按以上介绍的爬虫思路可以解决日常多数的爬虫需求,但有时候我们需要一些脑洞大开的思路,简单列举两个

1、去年运营同学给了一个有关奶粉的 url 的链接

https://m.tmall.com/mblist/de_9n40_AVYPod5SU93irPS-Q.html,他们希望能提取此文章的信息,同时找到所有提到奶粉关键字的文章并提取其内容, 这就需要用到一些搜索引擎的高级技巧了, 我们注意到,url 是以以下形式构成的

https://m.tmall.com/mblist/de_ + 每篇文章独一无二的签名

利用搜索引擎技巧我们可以轻松搞定运营的这个需求

对照图片，步骤如下:

首先我们用在百度框输入高级查询语句「奶粉 site:m.tmall.com inurl:mblist/de_」，点击搜索，就会显示出此页中所有包含奶粉的文章 title
注意地址栏中浏览器已经生成了搜索的完整 url,拿到这个 url 后，我们就可以去请求此 url，此时会得到上图中包含有 3， 4 这两块的 html 文件
拿到步骤 2 中获取的 html 文件后，在区域 3 每一个标题其实对应着一个 url（以 ..... ）的形式存在，根据正则表达式就可以获取每个标题对应的 url，再请求这些 url 即可获取对应的文章信息。
同理，拿到步骤 2 中获取的 html 文件后，我们可以获取区域 4 每一页对应的 url，再依次请求这些 url，然后重复步骤 2，即可获取每一页包含有奶粉的文章

通过这种方式我们也巧妙地实现了运营的需求，这种爬虫获取的数据是个 html 文件，不是 JSON 这些结构化数据，我们需要从 html 中提取出相应的 url 信息（存在标签里）,可以用正则，也可以用 xpath 来提取。

比如 html 中有如下 div 元素

<div id="test1">大家好！div>

可以用以下的 xpath 来提取

data = selector.xpath('//div[@id="test1"]/text()').extract()[0]

就可以把「大家好！」提取出来，需要注意的是在这种场景中，「依然不需要使用 Scrapy 这种复杂的框架」，在这种场景下，由于数据量不大，使用单线程即可满足需求。

2、某天运营同学又提了一个需求，想获取某个视频

通过抓包我们发现每个视频的 url 都很简单，输入到浏览器查看也能正常看视频，于是我们想当然地认为直接通过此 url 即可下载视频,但实际我们发现此 url 是分片的(m3u8,为了优化加载速度而设计的一种播放多媒体列表的档案格式),下载的视频不完整,后来我们发现打开`http://www.flvcd.com/`网站

输入原地址转化一下就能拿到完整的视频下载地址