robots.txt
是一个文本文件,网站管理员通过它来告诉网络爬虫哪些页面可以抓取,哪些页面不能抓取。这个文件通常位于网站的根目录下。
Allow
指令。Disallow
指令。Crawl-delay
指令。假设你想禁止所有爬虫访问 subdomain.example.com
,你可以在根目录下的 robots.txt
文件中添加以下内容:
User-agent: *
Disallow: /subdomain/
Disallow
指令的路径不正确。robots.txt
文件没有正确配置权限。robots.txt
文件。Disallow
指令的路径正确。例如,如果你想禁止访问 subdomain.example.com
,应该使用 /subdomain/
而不是 /subdomain.example.com/
。robots.txt
文件的权限设置正确,通常是 644
(即 -rw-r--r--
)。robots.txt
文件。假设你的网站结构如下:
example.com/
├── robots.txt
└── subdomain/
└── index.html
在 robots.txt
文件中添加以下内容:
User-agent: *
Disallow: /subdomain/
通过以上配置,所有爬虫都将被禁止访问 subdomain.example.com
下的所有页面。
领取专属 10元无门槛券
手把手带您无忧上云