robots.txt?协议

1. 什么是robots.txt?
　　robots.txt 是网站和搜索引擎的协议的纯文本文件。当一个搜索引擎蜘蛛来接见站点时，它首先爬行来检查该站点根目录下是否存在robots.txt，若是存在，凭证文件内容来确定接见局限，若是没有，蜘蛛就沿着链接抓取。robots.txt 放在项目的根目录下。
2. robots.txt语法
1) 允许所有搜索引擎接见网站的所有部门
robots.txt写法如下：
User-agent: *
Disallow:
或者
User-agent: *
Allow: /
注重： 1. 第一个英文要大写，冒号是英文状态下，冒号后面有一个空格，这几点一定不能写错。
2) 阻止所有搜索引擎接见网站的所有部门
robots.txt写法如下：
User-agent: *
Disallow: /
3) 只需要阻止蜘蛛接见某个目录，好比阻止admin、css、images等目录被索引
robots.txt写法如下：
User-agent: *
Disallow: /css/
Disallow: /admin/
Disallow: /images/
注重：路径后面有斜杠和没有斜杠的区别：好比Disallow: /images/ 有斜杠是阻止抓取images整个文件夹， Disallow: /images 没有斜杠意思是通常路径内里有/images关键词的都市被屏障
4）屏障一个文件夹/templets，然则又能抓取其中一个文件的写法:/templets/main
robots.txt写法如下：
User-agent: *
Disallow: /templets
Allow: /main
5) 阻止接见html/目录下的所有以”.php”为后缀的URL(包罗子目录)
robots.txt写法如下：
User-agent: *
Disallow: html/*.php
6) 仅允许接见某目录下某个后缀的文件,则使用“$”
robots.txt写法如下：
User-agent: *
Allow: .html$
Disallow: /
7）阻止索引网站中所有的动态页面
好比这里限制的是有“?”的域名，例如index.php?id=1
robots.txt写法如下：
User-agent: *
Disallow: /*?*

8) 阻止搜索引擎抓取我们网站上的所有图片(若是你的网站使用其他后缀的图片名称，在这里也可以直接添加)
有些时刻，我们为了节约服务器资源，需要阻止各种搜索引擎来索引我们网站上的图片，这里的设施除了使用“Disallow: /images/”这样的直接屏障文件夹的方式之外，还可以接纳直接屏障图片后缀名的方式。
robots.txt写法如下：
User-agent: *
Disallow: .jpg$
Disallow: .jpeg$
Disallow: .gif$
Disallow: .png$
Disallow: .bmp$
写robots.txt要注重的地方
1. 第一个英文要大写，冒号是英文状态下，冒号后面有一个空格，这几点一定不能写错。
　　2. 斜杠：/ 代表整个网站
　　3.若是“/”后面多了一个空格，则屏障整个网站
　　4.不要阻止正常的内容
　　5.生效时间是几天到两个月