robots协议是搜索引擎抓取协议,放在网站的根目录下,也是搜索引擎在抓取网站的时候,抓取的第一个文件,文件名是robots.txt
我们可以通过robots协议来引导搜索引擎抓取程序文件。不想展示给用户的文件和不需要参与排名的文件我们可以通过robots协议来禁止搜索引擎抓取,从而节省搜索引擎的抓取时间来抓取站内更需要被抓取的文件。
robots协议写法要注意以下几点:
User-agent: * 文件第一行,允许所有搜索引擎抓取,如只允许某个搜索引擎抓取,把名字替换掉*号即可;
首字母大写;
冒号后面要有空格;
Allow: / 允许抓取的内容;
文件地址不需要写主域名;
Disallow: / 不允许抓取的内容;
* 号可代替任何字符;
$ 是结束符,用于相同后缀名的文件,例如不允许抓取的图片文件以$结束行;
/ 表示根目录;
/plus 表示以plus单词开始的文件和文件夹,以及文件夹下的所有文件都不可以抓取;
/plus/ 表示plus目录下的文件不可以抓取,子文件夹下的也不可以抓取,但是以plus单词开始的是可以抓取的;
写时要认真检查,写法不能有错,/ 层级一定要把握好,不然会导致想要被抓取的文件设置了禁止。