候补种子URL 是除了项目追踪URL外另一条我们会开始爬取的URL。

为什么我们需要这个功能

一般情况下,这个功能是不需要开启的,一些会用到这个功能的情况有:

情况 1:项目的追踪URL没有页面或重定向存在

这是一个真实用户的案例。因为用户希望追踪 harrywinston.de 下所有子域名的排名,他将项目的URL设定为 http://harrywinston.de,但是这个页面是返回 404 错误的,它不会被重定向到 http://www.harrywinston.de。因此当 Dragonbot 尝试从这个 URL 爬取网站时,我们会在首页便停止爬取。但是因为用户仍希望网站能被爬取,这个情况他用了候补种子URL http://harrywinston.de 作为爬取的第二个起点,这样问题便能解决。

情况 2:深入的爬取

网站的URL是 http://www.example.com。这个网站非常大,Dragonbot 在爬取它的 "prodcuts" 子目录前就已经到达爬取限额了,因为这个子目录与主页的直接链接较少。因此这个子目录没有被爬取,若用户仍希望我们能爬取这个子目录,他可以将候补种子URL设定为 "http://www.example.com/products" ,这样我们便可以从主页和 "products" 子目录同时开始爬取,确保限额用于前有一部份的子目录URL能够被爬取。虽然用户也可以用 URL 排除来达到同样的目的,但这个方法要简单得多。

情况 3:孤岛页面

网站的URL是 http://example.com,会被重定向到 网站的URL是 http://www.example.com。域名还有一个 http://support.example.com 子域名用户希望被爬取,但 www 域名没有任何页面链到 http://support.example.com ,所以 Dragonbot 不能爬取到 support 子域名,不过用户可以将 http://support.example.com 加到候补种子URL,确保我们同时爬取这个子域名。

如何设定候补种子URL

设定候补种子URL的方法有两种,你可以在项目设定页或创建新项目时的快速设置向导设置。

在项目设置页加入

在项目设置页选择需要加入候补种子URL的项目:

输入候补种子URL后点击"保存"

在快速设置向导加入

在创建新项目的第一步,选择"高级设置":

在接下来的爬取设置页面中,点开高级选项后输入候补种子URL,输入完成后按继续完成项目创建。

Did this answer your question?