Robots.txt 协议分析器

智能解析网站爬虫协议,帮助您快速了解网站的爬取规则

什么是 robots.txt?

协议文件

robots.txt 是网站根目录下的一个文本文件,用于告诉搜索引擎哪些页面可以抓取,哪些不可以。

Allow(允许)

表示允许爬虫访问指定的路径。绿色标记的规则表示这些路径可以被爬取。

Disallow(禁止)

表示禁止爬虫访问指定的路径。红色标记的规则表示这些路径不允许被爬取。

User-Agent(爬虫标识)

指定规则适用于哪个爬虫。* 表示适用于所有爬虫,也可以针对特定爬虫设置不同规则。

提示:选择协议后输入域名,支持自动从剪贴板提取URL

正在获取并分析 robots.txt 文件,请稍候...

关于本工具

本工具用于在线获取并解析网站根目录下的 robots.txt 文件内容。robots.txt 是网站告知搜索引擎爬虫哪些路径可抓取、哪些禁止抓取的协议文件。输入域名后即可查看原始内容、按 User-Agent 分组的 Allow/Disallow 规则、Sitemap 声明,并可检测任意路径是否被允许抓取。

使用步骤

  1. 在输入框选择协议(http 或 https)并输入域名(如 www.example.com),点击「开始分析」。
  2. 等待获取并解析 robots.txt,页面会显示原始文件、规则解析、爬虫规则组与允许/禁止规则数量。
  3. 在「路径爬取检测工具」中选择 User-Agent 并输入路径,可检测该路径是否被允许抓取。
  4. 若网站声明了 Sitemap,会在「网站地图」区域列出。

结果说明

爬虫规则组:按 User-Agent 划分的规则组数量。允许/禁止规则:Allow 与 Disallow 的条数。规则详细解析:每条规则的路径与含义。路径检测:输入路径后根据当前解析结果判断是否允许抓取(最长匹配优先)。

适用场景

SEO 与运营人员查看自家或竞品的爬虫规则;开发者在写爬虫前确认可抓取范围;排查收录问题时检查 robots 是否屏蔽了重要路径。本工具不存储您输入的网址或分析结果,所有请求与解析在浏览器或代理端完成。

常见问题

为什么分析失败?

可能原因:域名无法访问、网站未提供 robots.txt、或跨域/网络限制导致无法获取。请确认域名可访问且存在 /robots.txt。

路径检测的结果可靠吗?

本工具按标准最长匹配规则计算,结果供参考。实际抓取还受爬虫实现、缓存等影响,请以各搜索引擎说明为准。

数据会上传到服务器吗?

本工具不存储您输入的网址或分析结果;获取 robots.txt 可能经第三方代理,请勿输入敏感或私密域名。

相关工具推荐