Robots.txt 协议分析器
智能解析网站爬虫协议 · 可视化规则 · 路径检查 · sitemap 提取
什么是 robots.txt?
协议文件
robots.txt 是网站根目录下的一个文本文件,用于告诉搜索引擎哪些页面可以抓取,哪些不可以。
Allow(允许)
表示允许爬虫访问指定的路径。绿色标记的规则表示这些路径可以被爬取。
Disallow(禁止)
表示禁止爬虫访问指定的路径。红色标记的规则表示这些路径不允许被爬取。
User-Agent(爬虫标识)
指定规则适用于哪个爬虫。* 表示适用于所有爬虫,也可以针对特定爬虫设置不同规则。
提示:选择协议后输入域名,支持自动从剪贴板提取URL
正在获取并分析 robots.txt 文件,请稍候...
分析结果摘要
0
爬虫规则组
0
允许爬取规则
0
禁止爬取规则
原始文件内容
规则详细解析
路径爬取检测工具
输入一个路径,检查该路径是否允许被爬虫抓取
网站地图 (Sitemap)
该网站未在 robots.txt 中声明 Sitemap 地址
相关工具推荐
功能说明
智能解析
自动拉取目标网站 robots.txt,解析 Allow/Disallow 规则。
可视化展示
按 User-Agent 分组展示,颁色区分允许/禁止。
路径检查
输入路径可检查其是否允许被指定爬虫访问。
Sitemap 提取
自动提取 robots.txt 中声明的 Sitemap 地址。
常见问题
为什么某些网站拉不到 robots.txt?
网站未提供该文件 (404)、跨域限制或服务器超时。
路径检查准确吗?
遵循标准 robots.txt 语义。多规则冲突时采用最严格匹配。
是否上传查询记录?
不上传。拉取请求由后端代理转发,不保存任何查询记录。