什么是Robots.txt档?

robots.txt档是一个位于网站根目录的纯文字档,它包含了指引 机器人 (搜索引擎 或任何其他 爬虫)该网站它们应与不应查看的页面。正确的使用这个档案,你可以防止搜索引擎或其他爬虫抓取或 收录 你网站的指定部分。

一般的robots.txt档:

User-agent: *
Disallow: /temp/
Disallow: /private/
Disallow: /user/

排除规则必须使用特定语法指定。你可以单独或统一给予爬虫指引。你可以排除单独页面或整个子目录,甚至用通配符对URL参数进行简单的模式匹配或部分匹配。

这个档案必须命名为"robots.txt"及位于网站的根目录。因为这样,每个子域名都会被分开处理并需要单独你robots.txt档。(例:你需要 http://www.example.com/robots.txthttp://sub.example.com/robots.txt 以确保它们被正确的处理。

robots.txt档是对爬虫的指引,但档案本身并不会执行这些指引。大部分的搜索引擎和守规矩的爬虫都会配合robots.txt档的指引,但这并不能保证所有爬虫都遵从这些指示。

当URL被robots.txt阻挡会怎样?

当URL被robots.txt档阻挡,比示这条URL的爬取将按robots.txt档内的指引排除,搜索引擎将不会关注该页面内的内容,不会被收录到它们的索引内,也意味这条URL将不会拥有直接的自然流量。

我应该如何利用这些数据?

看看这些URL中有没有你想被自然搜索到的页面,如果你发现在这些URL中有你无意阻挡的页面,你应该修改robots.txt档以确保它们不被阻挡。

或许你也应该看看有没有你认为应被阻挡但却不在这列表中存在的页面。有可能你的robots.txt 档的编写不正确。(也有机会是Dragon Metrics并没有爬取这个页面。)

一些编写优质Robots.txt档的建议:

  • 不要disallow任何你希望有搜索排名的URL。
  • 用robots.txt来排除有重复页面内容的URL。
  • 学习使用通配符来规律匹配URL,这个技巧对大型或使用大量 URL参数的网站非常有用。 因为使用URL参数 经常会导致重复内容的问题
  • 谨记robots.txt的页面排除并不能保证页面不被爬取或收录,隐私资料请保存在线下或用安全登入保密。
  • 留意每个子域都需要单独的robots.txt档。
  • 在上传robots.txt档前先进行测试,一个失误可以令数以月计的SEO成果付之流水。

我可以如何测试Robots.txt档?

谷歌网站管理员工具 提供了一个非常好用的robots.txt调试工具。登入你的谷歌网站管理员工具 帐号后进入抓取> 封锁URL,在这里你可以贴上你的robots.txt档和你想要测试的URL,以验证这些页面是否按你的意愿被封锁。

Did this answer your question?