ghost-login网络爬虫模拟登陆-技术圈

ghost-login

此处所说的模拟登录不是指利用网站本身提供的认证API接口进行登录，主要是通过分析前端代码，摸清登录认证原理、核心加密代码，然后程序模拟，来实现自动登录网站的过程；
专门用来解决爬虫采集相关网站数据时模拟登录，验证码自动识别的问题；

Specifically designed to solve the crawler when collecting Internet web data who need to login the web-site by useing some Simulated ways. The Ghost-login will verificate the captcha code automatically; Welcome to join in together to develop and improve it.

主要基于以下第三方lib及技术

1. httpclient HTTP请求以及响应
2. selenium 模拟自动登录
3. bouncycastle 加密解密
4. tesseract-ocr 验证码Tesseract识别
5. captcha-Recognize验证码LibSVM识别

模拟登录一些常见的网站Done

百度(已实现)
知乎(已实现)
豆瓣(已实现)
QQ微博 (已实现)
Sina微博 (已经实现)
京东(已实现)
淘宝(已实现)
新浪邮箱(已实现)
QQ邮箱(已实现)
126邮箱(还有点问题)
163邮箱(还有点问题)
支付宝(还有点问题)

Todolist

重构代码，增加可扩展性
增加简单验证码识别模块;
重新组织文件结构和代码风格;
增加可扩展性，方便添加新的功能;

tips of pull request

欢迎大家一起来 pull request

兼容JDK1.8版本；
自动模拟登录新的网；
改进bug, 完善代码；
增加新的模拟自动登录的方法；

something to add

网站的前端更新、验证、变化较快，若不能用了请及时告知，我会定期修改完善，同时热烈欢迎有兴趣的加入我们。
接下来最重要的是重构代码，让大家可以更容易的做出一些满足个性需求的功能。
如果你觉得某个网站的登录很有代表性，欢迎在 issue 中提出，如果你感觉网站的模拟自动登录很有意思，加入我们吧。
验证码的识别模块还有待完善...

除责申明

本开源项目仅为技术交流此一目的，严禁用于其他任何商业、违法犯罪、恶意攻击等行为；
若第三者用此项目侵犯相关网站权益，一切责任自负；
若本项目侵犯相关网站、个人，组织机构权益，请及时联系；

使用帮助

1.eliteqing
2.tigerxue

交流讨论

本项目会不断更新，欢迎提交有难度的登录网站；
Email address: liinux at qq.com