dev

Robots.txt 生成器指南:上线前先检查爬虫规则和误封风险

使用 Robots.txt 生成器时,先理解 User-agent、Disallow、Allow 和 Sitemap 规则,再测试首页、文章页、工具页和静态资源是否被误封,区分 robots.txt、meta robots、canonical 和 sitemap 的职责,避免上线后阻断抓取。

Robots.txt 生成器可以帮你快速写出爬虫规则,但这个文件很容易被误用。一条错误的 Disallow 可能让重要页面无法被搜索引擎抓取;漏掉 Sitemap 也可能降低页面发现效率。更重要的是,robots.txt 不是隐私保护工具,它只是给爬虫看的抓取指令。

Robots.txt 控制抓取,不控制隐私

Robots.txt 告诉遵守规则的爬虫哪些路径可以抓、哪些路径不应该抓。它不能阻止用户打开 URL,不能保护私密文件,也不能替代登录权限或服务器访问控制。

如果某个页面真的不能公开访问,应该用认证、服务器规则或访问权限保护,而不是只写进 robots.txt。可以用 Robots.txt Generator 生成初稿,但上传前必须理解每条规则的含义。

先理解四个核心指令

大多数 robots.txt 问题都和这四个指令有关:

| 指令 | 作用 | |---|---| | User-agent | 指定规则适用于哪个爬虫 | | Disallow | 告诉爬虫不要抓取某个路径 | | Allow | 在被禁止的路径中设置例外 | | Sitemap | 告诉爬虫 sitemap 的位置 |

例如 `Disallow: /` 可能会阻止整个站点被抓取。`Disallow: /admin` 也可能影响比你想象更多的 URL。生成规则后,必须拿真实 URL 做测试。

常见误封问题

上线前重点检查这些情况:

  • 不小心封掉 `/` 或主要内容目录;
  • 封掉 CSS 或 JavaScript,影响搜索引擎理解页面;
  • 封掉本来要排名的分类页、文章页、产品页或工具页;
  • 用 robots.txt 隐藏私密文件;
  • 忘记不同爬虫对规则的处理可能不同;
  • 把测试环境规则带到正式站。

如果你在排查收录或抓取问题,robots.txt 只能算其中一项。还要一起看 meta robots、canonical、sitemap、HTTP 状态码和页面是否可访问。

更安全的生成流程

推荐按这个顺序做:

  • 先列出应该被抓取的公开页面类型。
  • 再列出后台、搜索页、临时页、重复页等可能要屏蔽的路径。
  • 生成尽量短的 robots.txt,不要堆复杂规则。
  • 加上正确的 Sitemap URL。
  • 用几个重要 URL 手动测试规则。
  • 上线后在站长工具里复查抓取状态。

如果一个 robots.txt 文件需要很多例外,问题可能不在文件本身,而在 URL 结构、重复页面或页面级 robots 设置上。

什么时候用 meta robots

Robots.txt 主要控制“能不能抓取”。Meta robots 更适合控制单个页面“是否允许索引”。如果页面可以被抓取,但不希望出现在搜索结果里,页面级 `noindex` 通常更合适。

如果你需要生成页面级 SEO 标签,可以使用 Meta Tag Generator。但最终仍然要检查生成后的 HTML,确认 robots 指令真的出现在目标页面里。

FAQ

robots.txt 应该放在哪里?

应该放在站点根路径,例如 `https://example.com/robots.txt`。

robots.txt 能把页面从搜索结果删除吗?

不能可靠删除。它主要控制抓取。如果页面已经被索引,通常需要 noindex 或搜索引擎移除流程。

应该屏蔽 JavaScript 和 CSS 吗?

一般不建议。搜索引擎可能需要这些文件来理解渲染后的页面。

为什么要写 Sitemap 行?

Sitemap 行可以帮助爬虫发现 sitemap 地址,尤其当 sitemap 路径不是默认位置时更有用。

继续阅读