手把手教你,抓取美女图片(批量下载)—

前言

你还在为一个一个下载壁纸而烦恼吗。那有没有更加简单的方法呢？跟着我，一起来看看我是如何批量下载美女图片呢，我们以美桌壁纸为例，下载全部美女图片。

首先，你要安装pycharm软件，具体操作可以参考这篇文章：Pycharm安装及创建项目教程，爬虫主要工具可以参考这篇文章：Python主要爬虫工具

今天介绍如何在Pycharm安装lxml模块和requests模块

依次点击Project: (这里是你创建的名字)，在点下面的Project Interpreter，点击 + 号进行添加模块

打开后，在空格里添加你要下载的模块，点击Install Package 进行下载，下载过程会很慢，这时候我们添加国内镜像源

清华：https://pypi.tuna.tsinghua.edu.cn/simple

爬虫思路分析，进入我们要分析的网页，第一张图片。右键检查，到下面页面。点击连接，到下一个网页

这是链接下的高清图片

该地址就是我们想要的数据，我们发现data-original就是高清图片地址

找到需要下载的链接地址，我们要把所有的高清图片全部下载下来，接下来就是最重要的时刻了，编写代码过程

链接地址：

http://www.win4000.com/meinvtag4_1.html

1. 导入requests，lxml模块包

import requestsfrom lxml import etree

2. 确定url地址和请求头

url = "http://www.win4000.com/meinvtag4_1.html"headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.163 Safari/537.36'}

什么是请求头

简单来说就是模拟浏览器

User-Agent：浏览器类型，如果Servlet返回的内容与浏览器类型有关则该值非常有用。

3. 请求数据并解析数据

def get_data(imgs):    # 解析数据    html = etree.HTML(imgs)    href_list = html.xpath('//div[@class="Left_bar"]//ul/li/a/@href')    for href in href_list:        response01 = requests.get(href, headers=headers).text        html01 = etree.HTML(response01)        img_list = html01.xpath('//div[@class="pic-meinv"]/a/img/@data-original')[0]        # 请求图片数据        img_url = requests.get(img_list, headers=headers).content

这里使用了嵌套循环，因为你访问的是原网页，网页下还有，一个图片专辑那里才是，我们的想要的高清图片，所以要使用嵌套循环

4. 保存数据

def save_data():    file_name = img_list.split('/')[-1]     with open(r'Q:\xing\img\\' + file_name , mode="wb") as f:        print("正在下载图片：" + file_name)        f.write(img_url)