Python 爬虫进阶必备 | 某菠菜网站请求验证码 data 参数加密逻辑分析
今日网站
这个网站同样来自群友投稿
aHR0cDovL ViMy5pZ3V aS5jb20vIy8=
需要分析的是刷新验证码提交的 data 参数
加密定位
先搜索 data 参数,结果里检索的到 200+ 的匹配项,所以暂时跳过这种定位方式
不过这个页面的请求是 xhr 请求,所以还是用老方法 xhr 断点看看
打上断点之后重新刷新页面
断点是断在y.send
的位置,这个是请求发出的地方,网上看堆栈可以看到堆栈里大多都是angular.js
相关的内容
“Angular 是一款十分流行且好用的 Web 前端框架,目前由 Google 维护
既然是框架内容,先暂时不看继续向上看,可以看到下面几个需要注意的堆栈
这里有好几个vm
,点击eval
对应的堆栈点进去可以看到下面这样的代码
虽然这样里的代码经过了混淆,不过还是可以通过关键字,分析出这里是一个post
请求构造的代码
1 的位置可以看出这是一个 post 方法
2 的位置是构建参数 packet
3 的位置可以看出是完成上面packet
参数提交并完成请求提交,回调的地方
分析到这,打上断点重新刷新看看
url 不是验证码请求的链接就放过
ps:其他请求可能也会走这个接口,为了准确性我们只分析需要的链接
直到这个位置的 url 显示的是我们需要的链接
可以看到这里的参数 packet 是下面这样的
经过cp
之后,经过几层逻辑
传到下面的结果和前面分析的请求提交的是类似的
这样我们就找到了加密的位置了。
加密分析
根据上面的操作找到加密的位置了,就继续放过全部断点重新进一次加密逻辑
这次要跟一次逻辑,看看经过 cp
之后都经过了什么操作,全部抠出来就完事了
先看cp
cp
这个方法里先做了一次判断,进到JSON.stringify
之后传入到下面的逻辑中
lz[_$_480d[1704]](data_to_cp, 3, on_finish, on_progress)
这里的lz[_$_480d[1704]]
是yt
函数,经过yt
函数之后得到的结果是bit array
之后又进入到bth
这个方法中
得到bth
的结果后,将这个结果hash
然后将hash
的结果与原结果拼接
var data = hex + md5(hex)
这样我们就要扣出yt
与bth
即可,得出运行的结果如下
好了,今天的文章就到这里了,咱们下次再会~
对了,看完记得一键四连,这个对我真的很重要。