SEO-搜索引擎优化实验室

上海SEO顾问(中国最具原创精神的SEO博客)

« 手动做了个“网站地图”KYW-汽车音响网站关键词策划与思考-红擎案例研讨(五) »

robots.txt一分钟教程

首先要说:

robots.txt很简单


学习robots主要搞明白下面3个问题:
1. robots是什么?
2. robots有什么作用?
3. 如何写robots.txt?

robots是什么?

kyw的回答: robots就是一个必须放在网站根目录、让搜索蜘蛛读取的txt文件,文件名必须是小写的"robots.txt"。

robots有什么作用?

kyw的回答:通过robots.txt可以控制SE收录内容,告诉蜘蛛哪些文件和目录可以收录,哪些不可以收录。

如何写robots.txt

用几个最常见的情况,直接举例说明:
1. 允许所有SE收录本站:robots.txt为空就可以,什么都不要写。

2. 禁止所有SE收录网站的某些目录:

User-agent: *
Disallow: /目录名1/
Disallow: /目录名2/
Disallow: /目录名3/


3. 禁止某个SE收录本站,例如禁止百度:

User-agent: Baiduspider
Disallow: /


4. 禁止所有SE收录本站:

User-agent: *
Disallow: /


5. 加入sitemap.xml路径,例如:

Sitemap: http://www.seotest.cn/sitemap.xml


参考资料:常见搜索引擎机器人Robots名字
名称 搜索引擎
Baiduspider http://www.baidu.com
Googlebot http://www.google.com
MSNBOT http://search.msn.com
ia_archiver http://www.alexa.com


一个在线写robots.txt的工具。
http://www.clickability.co.uk/robotstxt.html


推荐2篇robots教程,我也是看了这些学会的:
如何写robots.txt?
ROBOTS.TXT语法和作用

 作者:Kyw@上海SEO搜索引擎优化实验室
 原文链接:http://www.seotest.cn/blog/seo-jiaocheng-robots.html
 版权所有,转载请以链接形式注明作者及原始出处。

好文章就要收藏:


  • quote 1.mj
  • 3q~
    还有一个疑问:我管理的网站,由于以前不了解robots.txt,所以到现在还没有用,页面里也没有加“<META NAME="ROBOTS" CONTENT="NONE"> ”等代码,但是通过site:发现,不该收录的页面都没有收录,难道蜘蛛已经智能到如此程度了?
    山寨站长站 于 2009-8-6 13:17:26 回复
    山寨站长站 www.800home.cn支持了!
  • 2007-4-25 14:30:01 回复该留言
  • quote 2.mj
  • 另外提一点,要求登录才能浏览的页面头部都加有这样一段:
    &amp;lt;% String Name = (String)session.getValue(&amp;quot;user&amp;quot;);
    String flag = (String)session.getValue(&amp;quot;flag&amp;quot;);
    //检查用户是否已经完成登录
    if(Name == null||Name.equals(&amp;quot; &amp;quot;)||(!flag.equals(&amp;quot;4&amp;quot;)&amp;amp;&amp;amp;!flag.equals(&amp;quot;2&amp;quot;)))
    { //若Name变量为null代表尚未完成登录
    response.sendRedirect(&amp;quot;../login.jsp&amp;quot;);
    //将浏览器导向login.jsp文件, 要求用户重新登录
    }
    %&amp;gt;
    会不会是这里的原因?
    Kyw 于 2007-4-25 15:19:14 回复
    1. “&lt;META NAME=&quot;ROBOTS&quot; CONTENT=&quot;NONE&quot;&gt; ”放与不放基本一样,我都没用这个。
    2. 蜘蛛的权限是和普通用户一样的,需要登录才能看见的内容,蜘蛛自然无法收录。
    mj 于 2007-4-25 18:31:52 回复
    这样啊。。
  • 2007-4-25 18:31:52 回复该留言
  • quote 4.ui
  • http://www.uuuuiiii.com
  • 仅当您的网站包含不希望被搜索引擎收录的内容时,才需要使用robots.txt文件。如果您希望搜索引擎收录网站上所有内容,请勿建立robots.txt文件或者创建一个内容为空的robots.txt文件。
    Kyw 于 2008-3-26 14:19:14 回复
    是的。 一般不加robots也没问题。
  • 2008-3-26 14:19:14 回复该留言
  • quote 5.john
  • http://hi.baidu.com/john_xuster
  • 关于robots.txt,我认为也可有可无,毕竟对大多数网站来,都是希望收录的页面越多越好!
    当然,有不想被爬行的页面的时候就可有设置一下robots.txt。
  • 2008-3-27 8:31:50 回复该留言
  • quote 6.hat586
  • 建议设置robots.txt。是有利于搜索引擎收录的,因为搜索引擎默认先查询robots.txt文件。可以把网站地图包含进去。并非可有可无。
    Kyw 于 2008-4-7 20:08:47 回复
    新站第一次是会先找robots,老站到无所谓了。
  • 2008-4-7 14:46:52 回复该留言
  • quote 7.笨猴
  • http://www.benhoo.net
  • 那就是说 新站一般也不要做无内容的 robots了哦?
    就是你不想让搜索引擎搜索的再做限制?
    主要是限制作用?
    Kyw 于 2008-5-10 23:15:10 回复
    robots就是限制蜘蛛的,如果你不想限制,不需要这个文件也一样。
  • 2008-5-10 18:30:49 回复该留言
  • quote 8.SEMjimmy
  • http://www.sem-jimmy.cn
  • robet.txt
    对于百度与google来讲还是非常重要.
    如果设置的不好.什么都收录.
    造成收录的信息 没多久又会被搜索引擎给K掉

    这样往往会造成网站收录量急剧下滑,
    严重的甚至影响收录与排名.

    Kyw 于 2008-6-6 18:07:46 回复
    一般来说,如果不希望限制收录,robots有没有都一样。
  • 2008-6-6 17:44:49 回复该留言
  • quote 15.请教
  • http://www.lvxingdingfang.cn
  • 5. 加入sitemap.xml路径,例如:

    Sitemap: http://www.seotest.cn/sitemap.xml


    这个是什么意思,把Sitemap: http://www.seotest.cn/sitemap.xml放在robots.txt里面有什么作用?
  • 2009-11-22 12:56:20 回复该留言
  • quote 16.请教
  • http://www.lvxingdingfang.cn
  • # Robots.txt file from http://www.lvxingdingfang.cn
    # All robots will spider the domain

    User-agent: *
    Disallow:

    写上面这个在robots.txt里面和什么都不写保持空的那个好啊?还是一样?
  • 2009-11-22 13:25:53 回复该留言
  • quote 18.test09
  • 天啊!哪里转载过来的,都看N遍了!
    Kyw 于 2009-12-1 16:11:12 回复
    我这是原创 :0
  • 2009-11-27 17:59:52 回复该留言

发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

Auto Publisher ©2007-2009 上海SEO|搜索引擎优化实验室 版权所有  沪ICP备07005018号

Powered By Z-Blog