首页 > WordPress > 巧设robots.txt,优化WordPress

巧设robots.txt,优化WordPress

在国内,站长们似乎对robots.txt并没有引起多大重视,看了下卢松松等一些博客,都没有放robots.txt。

            robots.txt是一种存放于网站根目录下的ASCII编码的文本文件,它通常告诉网络搜索引擎的漫游器(又称网络蜘蛛/爬虫机器人),此网站中的哪些内容是不能被搜索引擎的漫游器获取的,哪些是可以被(漫游器)获取的。 robots.txt应放置于网站的根目录下。如果想单独定义搜索引擎的漫游器访问子目录时的行为,那么可以将自定的设置合并到根目录下的robots.txt,或者使用robots元数据。                                                                                        (资料来源 维基百科)

重视robots.txt,一定程度上提升网站对搜索引擎友好度。让Google、百度等搜索引擎更多的收录你的站点,也减少网络蜘蛛工作量,提高它们的效率;同时也会带来更多的访问量。

这是我的写法,仅供参考,请根据网站情况增减条目

   User-agent: *
   Disallow: /cgi-bin
   Disallow: /wp-
   Disallow: /feed/
   Disallow: /comments/feed
   Disallow: /trackback
   Disallow: /comments
   Sitemap: http://yeaher.net/sitemap.xml
   Sitemap: http://yeaher.net/sitemap.xml.gz
   Sitemap: http://yeaher.net/sitemap_baidu.xml

稍微解释下
    Disallow参数是禁止爬虫机器人访问该页面

关于禁用的原因

cgi-bin 提供CGI程序存放的目录

wp-

WP核心目录,必须禁止访问
feed 避免文章页面重复

comments/feed

避免评论页面重复

trackback

避免垃圾引用

comments

避免垃圾评论

有3个sitemap文件,因为我装了Google XML Sitemaps 插件和Baidu Sitemap插件,这样文章一更新或者爬虫机器人一过来。就可以被收录,间接提升搜索引擎友好度。

弄好之后,上传到网站根目录下,最好使用Google网站管理员工具测试下效果。

不足之处,请指正,谢谢!