Robots.txt 协议分析器

智能解析网站爬虫协议 · 可视化规则 · 路径检查 · sitemap 提取

robots.txt SEO crawler sitemap

Robots.txt 协议分析器

智能解析网站爬虫协议,帮助您快速了解网站的爬取规则

什么是 robots.txt?

协议文件

robots.txt 是网站根目录下的一个文本文件,用于告诉搜索引擎哪些页面可以抓取,哪些不可以。

Allow(允许)

表示允许爬虫访问指定的路径。绿色标记的规则表示这些路径可以被爬取。

Disallow(禁止)

表示禁止爬虫访问指定的路径。红色标记的规则表示这些路径不允许被爬取。

User-Agent(爬虫标识)

指定规则适用于哪个爬虫。* 表示适用于所有爬虫,也可以针对特定爬虫设置不同规则。

提示:选择协议后输入域名,支持自动从剪贴板提取URL

正在获取并分析 robots.txt 文件,请稍候...

相关工具推荐

Robots.txt 协议分析器 - 帮助您了解网站的爬虫规则

免责声明

1. 本工具仅供学习和研究使用,旨在帮助用户了解网站的 robots.txt 协议内容。

2. 用户在使用本工具获取的信息时,应遵守相关法律法规及目标网站的使用条款。

3. 本工具不对用户基于分析结果所采取的任何行为承担责任,包括但不限于爬取数据、访问受限页面等。

4. robots.txt 协议仅为建议性协议,网站所有者可能通过其他技术手段限制访问,请尊重网站所有者的意愿。

5. 本工具不存储任何用户输入的网址或分析结果,所有数据仅在本地处理。

6. 如有任何问题或建议,请联系网站管理员。使用本工具即表示您同意以上条款。

© 2024 Robots.txt 协议分析器 | 保留所有权利

功能说明

智能解析

自动拉取目标网站 robots.txt,解析 Allow/Disallow 规则。

可视化展示

按 User-Agent 分组展示,颁色区分允许/禁止。

路径检查

输入路径可检查其是否允许被指定爬虫访问。

Sitemap 提取

自动提取 robots.txt 中声明的 Sitemap 地址。

常见问题

为什么某些网站拉不到 robots.txt?

网站未提供该文件 (404)、跨域限制或服务器超时。

路径检查准确吗?

遵循标准 robots.txt 语义。多规则冲突时采用最严格匹配。

是否上传查询记录?

不上传。拉取请求由后端代理转发,不保存任何查询记录。