自定义爬虫

自定义爬虫是指用户可以添加的任何语言任何框架的爬虫,高度自定义化。当用户添加好自定义爬虫之后,Crawlab就可以将其集成到爬虫管理的系统中来。

自定义爬虫的添加有两种方式:

  1. 通过Web界面上传爬虫
  2. 通过创建项目目录

通过Web界面上传

在通过Web界面上传之前,需要将爬虫项目文件打包成zip格式。

然后,在侧边栏点击爬虫导航至爬虫列表,点击添加爬虫按钮,选择自定义爬虫,点击上传按钮,选择刚刚打包好的zip文件。上传成功后,爬虫列表中会出现新添加的自定义爬虫。这样就算添加好了。

这个方式稍微有些繁琐,但是对于无法轻松获取服务器的读写权限时是非常有用的,适合在生产环境上使用。

通过添加项目目录

Crawlab会自动发现CRAWLAB_SPIDER_PATH目录下的所有爬虫目录,并将这些目录生成自定义爬虫并集成到Crawlab中。

这种方式非常方便,但是需要获得主机服务器的读写权限,因而比较适合在开发环境上采用。

配置爬虫

在定义爬虫中,我们需要配置一下执行命令(运行爬虫时后台执行的shell命令)和结果集(通过环境变量CRAWLAB_COLLECTION传递给爬虫程序,爬虫程序存储结果的地方),然后点击保存按钮保存爬虫信息。

接下来,我们就可以部署、运行自定义爬虫了。

results matching ""

    No results matching ""