爬虫| 东鸽再出新书,Python 网络爬虫宝典来袭!
反爬虫的春风还没过,爬虫宝典的秋风就来了。东鸽真滴是高产啊,年初刚出版主打反爬虫和逆向的《Python3 反爬虫原理与绕过实战》,年末又推出了主打爬虫进阶的《Python3 网络爬虫宝典》。反爬虫这本书不仅常常占据京东新书版,而且还加印了两次。更可喜的是这本书已经远销宝岛台湾省,直达台北中心。
由于宝岛台湾长期以来的奔放风格,名字也是相当唬——《偏不让你抓 zui 强 Python 爬虫 VS 反爬虫大战实录》,东鸽表示看到后也觉得很惊喜,书名有点刺激。
当我们以为反爬虫这本书已经掏空东鸽的时候,他又掏出了另外一本主要介绍分布式爬虫、增量爬取、分布式定时调度、网页正文智能解析的《Python3 网络爬虫宝典》。
直击工作痛点
当市面上没有专门介绍反爬虫的内容时,东鸽专门写了《Python3 反爬虫原理与绕过实战》;当市面上没有专门介绍分布式爬虫、分布式调度和网页正文智能解析的内容时,东哥特地写了《Python3 网络爬虫宝典》;次次都直击我们这些爬虫工程师的工作痛点,让我们现学现用,解决工作中遇到的问题。
我们来看看这本书里到底写了些什么内容。
《Python3 网络爬虫宝典》针对不了解爬虫链条、不会编写爬虫程序的外行朋友编写了第一章,帮助你了解爬虫程序的构成和完整链条,学会使用爬虫工程师常用的网络请求库、文本解析库和数据存储,将数据存储到文件或数据库。第一章结尾以实际的新闻资讯页爬虫作为目标,助你掌握爬虫基础知识。
第二章针对一些前后分离或者部分数据采用 JavaScript 内容渲染的网站进行了爬取演示,同时使用新兴游戏测试框架 AirTest 来爬取 APP 中的文字内容和图片内容,体验了一把图码混编的骚操作。
针对不知道如何做技术选型、不了解增量原理细节和具体代码实现以及增量空间复杂度优化的初级工程师编写了第三章,帮助你落地增量爬取,将其应用在工作当中,在提升性能的同时还保证了最小资源的开销。
针对不了解分布式爬虫或只知道 Scrapy Redis 的初级工程师编写第四章,帮助你深入了解分布式爬虫的构成和分类,并分别使用 Redis 和消息队列构建分布式爬虫。我相信在你学习本章之前,大概率不知道分布式爬虫还分为主从分布式和对等分布式。
针对需要大规模爬取文本内容的中高级爬虫工程师编写了第五章,助你掌握智能提取算法的数学理论和具体的代码实现,轻轻松松征服万千站点,再也不用为了站点 XPATH 适配而头疼。这套算法是网络舆情公司、新闻资讯类公司和内容类公司的强大助力,使用后的数据量或将成倍提升。
当然,项目肯定是要部署到服务器上的。有时候你需要 Linux 的 Crontab 作为定时器,但有时候你需要在程序里设定定时函数,而有时候你则想在不同服务器之间实现定时调度,针对这些需求和工作场景编写的第六章,帮助你了解不同的调度方法及其优缺点,同时探究多服务器场景下的分布式爬虫部署与调度流程。
相信你在掌握这些知识后,技术能力和工资都将更上一层楼。
这本书写得怎么样
当大家以为它只是肤浅地介绍一个库怎么使用的时候,实际上它写的是这个库产生的背景,它背后的理论知识和它的具体代码实现;当大家以为它只是用 DEMO 稍稍讲解的时候,实际上它手把手教你设计并用 Python 编写一个调度平台的代码;
当大家以为它只是讲讲 Scrapy 框架和 Scrapy Redis 的时候,实际上它从 Scrapy Redis 的源码入手,以此引出分布式爬虫的基本原理,再从需求场景延伸出增量爬取和对等分布式、主从分布式的技术点,并教你如何设计和编码实现。
你可能平时就积攒了很多关于爬虫的问题,例如:
增量爬取方面
1.指纹存在哪里更合适?2.Redis 会丢失数据吗?3.MySQL 的 io 性能跟得上吗?4.作为 NoSQL 排面的 MongDB 合适吗?为什么?5.你该如何判断,又如何选择呢?
智能解析方面
1.网页正文智能解析算法是如何诞生的呢?2.它如何知道哪些是正文、哪些不是正文?3.想法有了,怎么根据想法来编写代码呢?4.真的能够自动适配成百上千个网站吗?
分布式爬虫方面
1.主从分布式和对等分布式是什么?2.爬虫工作一定要选用 Scrapy 框架吗?3.为什么基于 Redis 设计分布式爬虫,而不是 MySQL 和 MongoDB?4.如果不用 Redis,那应该基于什么设计分布式爬虫?
作者东鸽是谁
东鸽指的是 2019 华为云云享专家、畅销新书《Python3 反爬虫原理与绕过实战》作者、夜幕团队成员、多个技术社区的优秀作者韦世东。韦世东现就职于北京某上市公司,从事逆向和爬虫架构相关的工作。
送书活动
谢谢大家长期以来对我的支持和信赖,特意找东鸽 Py 交易了一波,评论区留言获得点赞数排名前 4 的朋友将获得 1 本《Python3 网络爬虫宝典》或 1 本《Python3 反爬虫原理与绕过实战》(俩书各2 本,获奖人点赞排名靠前的先选),活动结束时间为 2020-11-07 20:00:00。
活动结束后,我会联系中奖的粉丝获取收货地址,7 个工作日左右,出版社会将书邮寄给你。
参与要求:
1、在公众号下方留言评论,说说你对爬虫工程师岗位的看法或对上面两本书的期盼;
2、转发下方海报,在活动到期时小助手会去朋友圈检查哦,没有转发海报的,奖品顺延到下一名。
Python所有的内置函数 , 都帮你整理好了!
爬虫 | JS逆向某验滑动加密分析