什么是robots.txt
robots.txt(统一小写)是一种存放于网站根目录下的ASCII编码的文本文件,它告诉抓取工具是否要抓取网站的某些部分。该文件使用简单的语法,以便爬虫可以放置到位。
为什么要使用robots.txt
第一是防止Spider去访问一些无关的页面,造成服务器的压力。
第二可以防止搜索引擎索引一些重复的页面,使网站的权重更加集中,提高网站的排名。
第三有了这个文件,蜘蛛就会按照你的引导来进行爬行和收录。尽量是直接将自己的网站地图也设定进去,这样能够让蜘蛛看到我们网站的更新信息情况,还可以节省不少的时间。
WordPress博客怎么使用robots.txt
下面这个是本人使用的robots.txt文件:
- User-agent:*
- Disallow:/cgi-bin/
- Disallow:/wp-admin/
- Disallow:/wp-includes/
- Disallow:/wp-content/plugins/
- Disallow:/wp-content/cache/
- Disallow:/wp-content/themes/
- Disallow:/author/
- Disallow:/trackback/
- Disallow:/feed/
- Disallow:/comments/
- Disallow:*/trackback/
- Disallow:*/feed/
- Disallow:*/comments/
简单说下,它只列了禁止访问的目录:
/cgi-bin/:这个是服务器的cgi目录,所以肯定不能索引。
/wp-admin/:WordPress后台目录,无需索引。
/wp-includes/:WordPress程序运行的一些必须库,都无需索引。
/wp-content/目录下的/plugins/(插件),/themes/(主题)和/cache/(缓存)都不应该索引的。
/wp-content/目录下剩下主要的是/uploads/目录是存放图片和附件,是应该让搜索引擎,特别是图片搜索引擎索引。剩下你自定义的一些目录,就看你自己需求来设置是否让搜索引擎索引。
/author/是某个作者的所有文章列表,基本都是重复内容了,所以也不让索引。
/trackback/和*/trackback/,trackback目录和原来的文字基本一样,完全的重复内容。
/feed/和*/feed/,Feed中也是重复内容。
/comments/和*/comments/,留言页面也是重复内容。
你可以自己根据网站的特点定制修改这个文件的内容,然后保存为robots.txt,然后上传到网站的根目录下。
微信扫描下方的二维码阅读本文