Robots.txt 协议分析器

智能解析网站爬虫协议,帮助您快速了解网站的爬取规则

什么是 robots.txt?

协议文件

robots.txt 是网站根目录下的一个文本文件,用于告诉搜索引擎哪些页面可以抓取,哪些不可以。

Allow(允许)

表示允许爬虫访问指定的路径。绿色标记的规则表示这些路径可以被爬取。

Disallow(禁止)

表示禁止爬虫访问指定的路径。红色标记的规则表示这些路径不允许被爬取。

User-Agent(爬虫标识)

指定规则适用于哪个爬虫。* 表示适用于所有爬虫,也可以针对特定爬虫设置不同规则。

提示:选择协议后输入域名,支持自动从剪贴板提取URL

正在获取并分析 robots.txt 文件,请稍候...