网站首页 > 精选文章 正文
spider-flow简介
spider-flow是一个爬虫平台,以可视化推拽方式定义爬取流程,无需代码即可实现一个爬虫服务。
spider-flow特性
- 支持css选择器、正则提取
- 支持JSON/XML格式
- 支持Xpath/JsonPath提取
- 支持多数据源、SQL select/insert/update/delete
- 支持爬取JS动态渲染的页面
- 支持代理
- 支持二进制格式
- 支持保存/读取文件(csv、xls、jpg等)
- 常用字符串、日期、文件、加解密、随机等函数
- 支持流程嵌套
- 支持插件扩展(自定义执行器,自定义函数、自定义Controller、类型扩展等)
- 支持HTTP接口
插件
- redis插件
- mongodb插件
- IP代理池插件
- OSS插件
- OCR插件
- Selenium插件
安装部署
1.使用git下载项目源码(也可以下载zip包)。
git clone https://gitee.com/ssssssss-team/spider-flow.git
项目目录结构如下图所示,其中db文件夹存放有数据库初始化脚本,spider-flow-web文件夹下为启动程序。
2.初始化数据库
使用Navicat打开“根目录\db\spiderflow.sql”下的sql文件并运行,检查数据表是否初始化成功。
3.修改配置
用IntelliJ IDEA打开项目,修改spider-flow-web下面的配置文件,主要修改数据库配置,包括连接字符串和账户密码。
application.properties
spring.datasource.driver-class-name=com.mysql.jdbc.Driver
spring.datasource.username=root
spring.datasource.password=123456
spring.datasource.url=jdbc:mysql://localhost:3306/spiderflow?useSSL=false&useUnicode=true&characterEncoding=UTF8&autoReconnect=true
4.运行
编译,IDE会自动下载依赖包,运行SpiderApplication,等待程序启动成功,然后打开浏览器,在地址栏输入:http://localhost:8088/ 运行程序,如下图所示。
简单使用
如上图所示,点击“爬取码云GVP”进入测试界面,点击工具栏上的“运行”按钮即可看到测试结果。
具体语法请参考:
https://www.spiderflow.org/intro.html
免责声明
请勿将spider-flow应用到任何可能会违反法律规定和道德约束的工作中,请友善使用spider-flow,遵守蜘蛛协议,不要将spider-flow用于任何非法用途。如您选择使用spider-flow即代表您遵守此协议,作者不承担任何由于您违反此协议带来任何的法律风险和损失,一切后果由您承担。
猜你喜欢
- 2025-05-22 保姆级教程!全面掌握ComfyUI插件的下载和安装
- 2025-05-22 Ubuntu 22.04安装MySQL : Qwen2.5 模型对话数据收集与微调教程
- 2025-05-22 Windows上的程序、服务安装监控程序
- 2025-05-22 Docker 部署高性能抖音 TikTok数据爬取工具,支持无水印视频下载
- 2025-05-22 Java:实现文件批量导入导出实践(兼容xls,xlsx)
- 2025-05-22 MiniGPT-4,开源了
- 2025-05-22 【推荐】一个基于 Vue3 开源免费、高颜值的中后台模版,开箱即用
- 2025-05-22 心心念念的前端代码生成利器,前后端一网打尽
- 2025-05-22 若依
- 2025-05-22 开源零代码平台 敲敲云, Docker 一键安装启动
- 05-22如何基于Docker和Jenkins打造面向初创公司的持续集
- 05-22Flutter无脑入门-从零到第一个APP
- 05-22git 子模块
- 05-22我见过的最糟糕代码
- 05-22掌握这 20 个 Git 命令,成为团队协作高手!
- 05-22gitflow的工作流
- 05-22Git详细使用教程
- 05-22git版本管理总有问题,建议使用git flow
- 最近发表
- 标签列表
-
- 向日葵无法连接服务器 (32)
- git.exe (33)
- vscode更新 (34)
- dev c (33)
- git ignore命令 (32)
- gitlab提交代码步骤 (37)
- java update (36)
- vue debug (34)
- vue blur (32)
- vscode导入vue项目 (33)
- vue chart (32)
- vue cms (32)
- 大雅数据库 (34)
- 技术迭代 (37)
- 同一局域网 (33)
- github拒绝连接 (33)
- vscode php插件 (32)
- vue注释快捷键 (32)
- linux ssr (33)
- 微端服务器 (35)
- 导航猫 (32)
- 获取当前时间年月日 (33)
- stp软件 (33)
- http下载文件 (33)
- linux bt下载 (33)