CatGate基于浏览器的爬虫框架
CatGate 是一个基于浏览器插件的数据抓取工具。做成浏览器插件无需模拟登入,能最真实的模仿用户行为和特征。
演示视频
http://weibo.com/1088413295/F9P1izhY2
功能
-
① CatGate 会访问这个URL,这个URL应该返回一个Json格式的数组,每一个元素一个字符串(即网址)。点 ② 按钮即可载入数据,并可按 ③ 进行查看,会自动排重。
-
⑤ CatGate 抓取到数据后,会直接 POST 给这个URL,key 为 content , 通过 $_REQUEST['content'] 即可获取抓取内容。
-
⑥ 默认一秒抓取一次,如果抓取失败太多,可以增加秒数。
-
④ 这是一个高级用法,就是 ① 这个 URL 可以不停的新增 URL,CatGate 会自动每隔一秒(可设置)去抓取并合并进来。
Demo
进入 php
目录,运行 php -S localhost:8000
即可测试。
-
list.php 这个页面生成了要抓取的页面列表,默认是微博收藏的页面。
-
save.php 这个页面定义了如何处置抓到的数据,默认是保持成为文件。
安装插件
如果你不想或不能在Chrome商店安装插件,可手工安装。
chrome > extentsion > load unpacked extension > ./ext
License
CC,保留签名、非商用。
评论
cetty基于事件分发的爬虫框架
一个轻量级的基于事件分发的爬虫框架。功能介绍基于完全自定义事件处理机制的爬虫框架。模块化的设计,提供强大的可扩展性。基于HttpClient支持同步和异步数据抓取。支持多线程。基于Jsoup页面解析框
cetty基于事件分发的爬虫框架
0
WebCollector基于 Java 的开源网络爬虫框架
爬虫简介:WebCollector 是一个无须配置、便于二次开发的 Java 爬虫框架(内核),它提
WebCollector基于 Java 的开源网络爬虫框架
0
WebCollector-Python基于 Python 的开源网络爬虫框架
WebCollector-PythonWebCollector-Python是一个无须配置、便于二次开发的Python爬虫框架(内核),它提供精简的的API,只需少量代码即可实现一个功能强大的爬虫。W
WebCollector-Python基于 Python 的开源网络爬虫框架
0
WebCollector-Python基于 Python 的开源网络爬虫框架
WebCollector-PythonWebCollector-Python 是一个无须配置、便于二
WebCollector-Python基于 Python 的开源网络爬虫框架
0
TensorFire基于 WebGL 的浏览器端神经网络框架
TensorFire是基于WebGL的,运行在浏览器中的神经网络框架。使用TensorFire编写的应用能够在实现前沿深度学习算法的同时,不需要任何的安装或者配置就直接运行在现代浏览器中。与之前某些浏
TensorFire基于 WebGL 的浏览器端神经网络框架
0
TensorFire基于 WebGL 的浏览器端神经网络框架
TensorFire 是基于 WebGL 的,运行在浏览器中的神经网络框架。使用 TensorFir
TensorFire基于 WebGL 的浏览器端神经网络框架
0