可配置爬虫

注意: v0.3.0版本也就是Golang版本暂时不支持可配置爬虫

可配置爬虫是版本v0.2.1开发的功能。目的是将具有相似网站结构的爬虫项目可配置化,将开发爬虫的过程流程化,大大提高爬虫开发效率。

Crawlab的可配置爬虫是基于Scrapy的,因此天生支持并发。而且,可配置爬虫完全支持自定义爬虫的一般功能,因此也支持任务调度、任务监控、日志监控、数据分析。

添加爬虫

侧边栏点击爬虫导航至爬虫列表,点击添加爬虫按钮。

爬虫列表

点击可配置爬虫

爬虫列表-添加爬虫

输入完基本信息,点击添加

爬虫列表-爬虫信息

配置爬虫

添加完成后,可以看到刚刚添加的可配置爬虫出现了在最下方,点击查看进入到爬虫详情

点击配置标签进入到配置页面。接下来,我们需要对爬虫规则进行配置。

这里已经有一些配置好的初始输入项。我们简单介绍一下各自的含义。

抓取类别

这也是爬虫抓取采用的策略,也就是爬虫遍历网页是如何进行的。作为第一个版本,我们有仅列表仅详情页列表+详情页

  • 仅列表页。这也是最简单的形式,爬虫遍历列表上的列表项,将数据抓取下来。
  • 仅详情页。爬虫只抓取详情页。
  • 列表+详情页。爬虫先遍历列表页,将列表项中的详情页地址提取出来并跟进抓取详情页。

这里我们选择列表+详情页

列表项选择器 & 分页选择器

列表项的匹和分页按钮的匹配查询,由CSS或XPath来进行匹配。

开始URL

爬虫最开始遍历的网址。

遵守Robots协议

这个默认是开启的。如果开启,爬虫将先抓取网站的robots.txt并判断页面是否可抓;否则,不会对此进行验证。用户可以选择将其关闭。请注意,任何无视Robots协议的行为都有法律风险。

列表页字段 & 详情页字段

这些都是再列表页或详情页中需要提取的字段。字段由CSS选择器或者XPath来匹配提取。可以选择文本或者属性。

在检查完目标网页的元素CSS选择器之后,我们输入列表项选择器、开始URL、列表页/详情页等信息。注意勾选url为详情页URL。

点击保存、预览,查看预览内容。

results matching ""

    No results matching ""