让你眼前一亮长见识的反爬虫策略

GitHub精选

共 853字,需浏览 2分钟

 ·

2020-08-17 23:52

【公众号回复 “1024”,免费领取程序员赚钱实操经验】

大家好,我是你们的章鱼猫。

今天要给大家介绍一个非常牛逼的爬虫和反爬虫的策略,看完觉得让我眼前一亮,同时不得不感叹着都是咋想出来的。小编本人因为之前从事过爬虫和反爬虫相关的工作,所以对这一行也多少有些了解。各个互联网公司其实都少不了有这样的一支团队,尤其是针对竞对,能够及时的了解竞对的情况能够及时的做出相应的调整。而今天推荐的,多少还是有点让小编眼前一亮的,他就是斗鱼关注人数爬取 ── 通过字体来反爬虫。

有人肯定会问,字体怎么用来做反爬虫呀?

我们来看看作者是怎么解释的。

什么是字体反爬?也就是通过自定义字体来自定义字符与渲染图形的映射。比如,字符 1 实际渲染的是 9,那么如果 HTML 中的数字是 111,实际显示就是 999。

在这种技术下,传统的通过解析 HTML 文档获取数据的方式就失效了,因为获取到的数据并不是真实数据。

想明白了是怎么回事了么?如果没有,可能你需要再仔细琢磨一下了。

作者的大概思路是:结合 OCR 来反向解析字体和实际数字的真实映射关系,从而爬取到想要的内容。详细步骤如下:

作者非常的细心通过博客记录了整个心路历程:https://cjting.me/2020/07/01/douyu-crawler-and-font-anti-crawling/  (阅读原文可以查看),简直就像是看到了高手在过招。

更多项目代码详情请查看如下链接。同时欢迎大家留言讨论你都见过哪些牛逼的爬虫或者反爬虫策略?

开源项目地址:https://github.com/cj1128/douyu-crawler-demo

---特别推荐---

特别推荐:一个新的优质的推荐高效工具,软件,插件的公众号,每天给大家分享优秀的效率工具,「程序员掘金」,专门为程序员挖掘好东西的一个公众号,非常值得大家关注。


浏览 28
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报