爬虫平台
一个java语言实现的WEB爬虫平台,以图形化方式定义爬虫流程,无需代码即可实现一个爬虫。
功能特性
1、支持css选择器、正则提取
2、支持JSON/XML格式
3、支持Xpath/JsonPath提取
4、支持多数据源、SQL select/insert/update/delete
5、支持爬取JS动态渲染的页面
6、支持代理
7、支持二进制格式
8、支持保存/读取文件(csv、xls、jpg等)
9、常用字符串、日期、文件、加解密、随机等函数
10、支持流程嵌套
11、支持插件扩展(自定义执行器,自定义函数、自定义Controller、类型扩展等)
12、支持HTTP接口
一、准备环境
1、安装JDK
2、安装MYSQl数据库服务器,建议使用5.7版本
3、安装maven3.0服务
二、运行项目
1、前往码云下载页面(https://gitee.com/jmxd/spider-flow)下载解压到工作目录
2、设置Eclipse仓库,菜单Window->Preferences->Maven->User Settings->User Settings 后边的Browse,然后导入自己的Maven目录的conf目录下的settings.xml文件,然后点Apply,在点OK
3、导入到Eclipse,菜单file->Import,然后选择Maven->Existing Maven Projects,点击Next>按钮,选择工作目录,然后点击Finish按钮,即可导入成功
4、导入数据库,基础表:spider-flow/db/spiderflow.sql
5、打开并运行org.spiderflow.SpiderApplication.java
6、打开浏览器,输入(http://localhost:8088/)
网盘地址
https://pan.baidu.com/s/1STAAis6o6qvJZimLzKRRuA
提取码:n6yv