手把手教你使用Python网络爬虫下载一本小说（附源码）-技术圈

点击上方“Python爬虫与数据挖掘”，进行关注

回复“书籍”即可获赠Python从入门到进阶共10本电子书

今

日

鸡

汤

随山将万转，趣途无百里。

大家好，我是Python进阶者。

前言

前几天【磐奚鸟】大佬在群里分享了一个抓取小说的代码，感觉还是蛮不错的，这里分享给大家学习。

一、小说下载

如果你想下载该网站上的任意一本小说的话，直接点击链接进去，如下图所示。

只要将URL中的这个数字拿到就可以了，比方说这里是951，那么这个数字代表的就是这本书的书号，在后面的代码中可以用得到的。

二、具体实现

这里直接丢大佬的代码了，如下所示：

# coding: utf-8'''笔趣网小说下载仅限用于研究代码勿用于商业用途请于24小时内删除'''import requestsimport osfrom bs4 import BeautifulSoupimport time

def book_page_list(book_id):    '''    通过传入的书号bookid，获取此书的所有章节目录    :param book_id:    :return: 章节目录及章节地址    '''    url = 'http://www.biquw.com/book/{}/'.format(book_id)    headers = {        'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.71 Safari/537.36'}    response = requests.get(url, headers)    response.encoding = response.apparent_encoding    response = BeautifulSoup(response.text, 'lxml')    booklist = response.find('div', class_='book_list').find_all('a')    return booklist

def book_page_text(bookid, booklist):    '''    通过书号、章节目录，抓取每一章的内容并存档    :param bookid:str    :param booklist:    :return:None    '''    try:        for book_page in booklist:            page_name = book_page.text.replace('*', '')            page_id = book_page['href']            time.sleep(3)            url = 'http://www.biquw.com/book/{}/{}'.format(bookid,page_id)            headers = {                'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.71 Safari/537.36'}            response_book = requests.get(url, headers)            response_book.encoding = response_book.apparent_encoding            response_book = BeautifulSoup(response_book.text, 'lxml')            book_content = response_book.find('div', id="htmlContent")            with open("./{}/{}.txt".format(bookid,page_name), 'a') as f:                f.write(book_content.text.replace('\xa0', ''))                print("当前下载章节：{}".format(page_name))    except Exception as e:        print(e)        print("章节内容获取失败，请确保书号正确，及书本有正常内容。")

if __name__ == '__main__':    bookid = input("请输入书号(数字)：")    # 如果书号对应的目录不存在，则新建目录，用于存放章节内容    if not os.path.isdir('./{}'.format(bookid)):        os.mkdir('./{}'.format(bookid))    try:        booklist = book_page_list(bookid)        print("获取目录成功！")        time.sleep(5)        book_page_text(bookid, booklist)    except Exception as e:        print(e)        print("获取目录失败，请确保书号输入正确！")