可配置爬虫

注意: v0.3.0版本也就是Golang版本暂时不支持可配置爬虫

可配置爬虫是版本v0.2.1开发的功能。目的是将具有相似网站结构的爬虫项目可配置化，将开发爬虫的过程流程化，大大提高爬虫开发效率。

Crawlab的可配置爬虫是基于Scrapy的，因此天生支持并发。而且，可配置爬虫完全支持自定义爬虫的一般功能，因此也支持任务调度、任务监控、日志监控、数据分析。

在侧边栏点击爬虫导航至爬虫列表，点击添加爬虫按钮。

点击可配置爬虫。

输入完基本信息，点击添加。

添加完成后，可以看到刚刚添加的可配置爬虫出现了在最下方，点击查看进入到爬虫详情。

点击配置标签进入到配置页面。接下来，我们需要对爬虫规则进行配置。

这里已经有一些配置好的初始输入项。我们简单介绍一下各自的含义。

这也是爬虫抓取采用的策略，也就是爬虫遍历网页是如何进行的。作为第一个版本，我们有仅列表、仅详情页、列表+详情页。

这里我们选择列表+详情页。

列表项的匹和分页按钮的匹配查询，由CSS或XPath来进行匹配。

爬虫最开始遍历的网址。

这个默认是开启的。如果开启，爬虫将先抓取网站的robots.txt并判断页面是否可抓；否则，不会对此进行验证。用户可以选择将其关闭。请注意，任何无视Robots协议的行为都有法律风险。

这些都是再列表页或详情页中需要提取的字段。字段由CSS选择器或者XPath来匹配提取。可以选择文本或者属性。

在检查完目标网页的元素CSS选择器之后，我们输入列表项选择器、开始URL、列表页/详情页等信息。注意勾选url为详情页URL。

点击保存、预览，查看预览内容。

results matching ""