成都网站推广
 

中联无限-服务热线:028-86637122 工作时间:9:00-18:00 星期一-星期五

 
首页 | 关于我们 | 新闻动态 | 成都网站建设 | 成都网站推广 | 成都微信营销 | 网站制作案例 | 软件开发 | 常见问题 | 域名注册 | 虚拟主机
  网站知识
     推荐工具 / Tools
     网站运营/Operation
  
  客户案例
·巨丰达人减肥训练营
·成都写意经典家具有限公司
·成都卡姆士安防设备有限公司
·新千里装饰集团
·成都吕氏三才中医博爱堂
·泊菲特语言学校
·四川高地易景园林工程公司
·成都烽火建筑装饰设计有限公司
·优尼客酒店
·成都杜嘉机电有限公司
·菲颖1购
·成都安东尼体育文化传播有限公
·四川九章生物化工科技发展有限
·成都环球体育文化传播有限公司
·万友爱淘网上商城
·四川省斯博兰德建筑装饰设计有
·肥犇仔
·成都市猛追湾游泳场
  网站运营
·企业新站推广中存在的六大误区
·网站运营之八大要素
·怎么区别网站运营与网络运营
·怎样区分网站运营和网络运营
·SQL Server 200
·新网站运营后如何迅速增加网站
·减肥网站是怎样提高收入的
·个人网站赢利模式的拓展方向
·商业门户网站运营模式探讨
·成都地方门户网站运营模式
·网站策划人如何盈利
·网站运营模式观察与分析
  最新资讯
·成都网络推广公司介绍的六种推
·分析导致成都网络推广效果差的
·成都网站优化:企业网站关键词
·成都网站优化初期企业应该需要
·浅析成都网站优化中企业如何建
·分析企业在做成都网站优化过程
·短视频营销可以为成都网络推广
·小品牌怎么样才能既省钱又省力
·分析成都网络推广中企业需要注
·如何根据成都网络推广的营销周
·成都网站优化需要遵循哪些规则
·成都SEO网站优化过程中如何
 
   您的位置在:成都网站推广 > 网站知识 > 网站教程 /Tutorial > 正文
   网站教程 /Tutorial

robots.txt和Robots META标签

[ 来源:中联无限科技有限公司   发布日期:2010/10/8 15:07:54 ]
我们知道,搜索引擎都有自己的“搜索机器人”(ROBOTS),并通过这些ROBOTS在网络上沿着网页上的链接(一般是http和src链接)不断抓取资料建立自己的数据库。 对于网站管理者和内容提供者来说,有时候会有一些站点内容,不希望被ROBOTS抓取而公开。为了解决这个问题,ROBOTS开发界提供了两个办法:一个是robots.txt,另一个是The Robots META标签。

中联无限科技公司提供专业的成都网站建设成都网站设计成都网站制作成都网站推广

我们知道,搜索引擎都有自己的“搜索机器人”(ROBOTS),并通过这些ROBOTS在网络上沿着网页上的链接(一般是http和src链接)不断抓取资料建立自己的数据库。 对于网站管理者和内容提供者来说,有时候会有一些站点内容,不希望被ROBOTS抓取而公开。为了解决这个问题,ROBOTS开发界提供了两个办法:一个是robots.txt,另一个是The Robots META标签。

  一、 robots.txt

  1、 什么是robots.txt?

  robots.txt是一个纯文本文件,通过在这个文件中声明该网站中不想被robots访问的部分,这样,该网站的部分或全部内容就可以不被搜索引擎收录了,或者指定搜索引擎只收录指定的内容。

  当一个搜索机器人访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果找到,搜索机器人就会按照该文件中的内容来确定访问的范围,如果该文件不存在,那么搜索机器人就沿着链接抓取。

  robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。

  网站 URL

  相应的 robots.txt的 URL

  http://www.w3.org/

  http://www.w3.org/robots.txt

  http://www.w3.org:80/

  http://www.w3.org:80/robots.txt

  http://www.w3.org:1234/

  http://www.w3.org:1234/robots.txt

  http://w3.org/

  http://w3.org/robots.txt

  2、 robots.txt的语法

  "robots.txt"文件包含一条或更多的记录,这些记录通过空行分开(以CR,CR/NL, or NL作为结束符),每一条记录的格式如下所示:

  "<field>:<optionalspace><value><optionalspace>"。

  在该文件中可以使用#进行注解,具体使用方法和UNIX中的惯例一样。该文件中的记录通常以一行或多行User-agent开始,后面加上若干Disallow行,详细情况如下:

  User-agent:

  该项的值用于描述搜索引擎robot的名字,在"robots.txt"文件中,如果有多条User-agent记录说明有多个robot会受到该协议的限制,对该文件来说,至少要有一条User-agent记录。如果该项的值设为*,则该协议对任何机器人均有效,在"robots.txt"文件中, "User-agent:*"这样的记录只能有一条。

  Disallow :

  该项的值用于描述不希望被访问到的一个URL,这个URL可以是一条完整的路径,也可以是部分的,任何以Disallow 开头的URL均不会被robot访问到。例如"Disallow: /help"对/help.html 和/help/index.html都不允许搜索引擎访问,而"Disallow: /help/"则允许robot访问/help.html,而不能访问/help/index.html。

  任何一条Disallow记录为空,说明该网站的所有部分都允许被访问,在"/robots.txt"文件中,至少要有一条Disallow记录。如果 "/robots.txt"是一个空文件,则对于所有的搜索引擎robot,该网站都是开放的。

  下面是一些robots.txt基本的用法:

  l 禁止所有搜索引擎访问网站的任何部分:

  User-agent: *

  Disallow: /

  l 允许所有的robot访问

  User-agent: *

  Disallow:

  或者也可以建一个空文件 "/robots.txt" file

  l 禁止所有搜索引擎访问网站的几个部分(下例中的cgi-bin、tmp、private目录)

  User-agent: *

  Disallow: /cgi-bin/

  Disallow: /tmp/

  Disallow: /private/

  l 禁止某个搜索引擎的访问(下例中的BadBot)

  User-agent: BadBot

  Disallow: /

  l 只允许某个搜索引擎的访问(下例中的WebCrawler)

  User-agent: WebCrawler

  Disallow:

  User-agent: *

  Disallow: /

3、 常见搜索引擎机器人Robots名字

  名称 搜索引擎

  Baiduspiderhttp://www.baidu.com

  Scooterhttp://www.altavista.com

  ia_archiverhttp://www.alexa.com

  Googlebothttp://www.google.com

  FAST-WebCrawlerhttp://www.alltheweb.com

  Slurphttp://www.inktomi.com

  MSNBOThttp://search.msn.com

  4、 robots.txt举例

  下面是一些著名站点的robots.txt:

  http://www.cnn.com/robots.txt

  http://www.google.com/robots.txt

  http://www.ibm.com/robots.txt

  http://www.sun.com/robots.txt

  http://www.eachnet.com/robots.txt

  5、 常见robots.txt错误

  l 颠倒了顺序:

  错误写成

  User-agent: *

  Disallow: GoogleBot

  正确的应该是:

  User-agent: GoogleBot

  Disallow: *

  l 把多个禁止命令放在一行中:

  例如,错误地写成

  Disallow: /css/ /cgi-bin/ /images/

  正确的应该是

  Disallow: /css/

  Disallow: /cgi-bin/

  Disallow: /images/

  l 行前有大量空格

  例如写成

  Disallow: /cgi-bin/

  尽管在标准没有谈到这个,但是这种方式很容易出问题。

  l 404重定向到另外一个页面:

  当Robot访问很多没有设置robots.txt文件的站点时,会被自动404重定向到另外一个Html页面。这时Robot常常会以处理robots.txt文件的方式处理这个Html页面文件。虽然一般这样没有什么问题,但是最好能放一个空白的robots.txt文件在站点根目录下。

  l 采用大写。例如

  USER-AGENT: EXCITE

  DISALLOW:

  虽然标准是没有大小写的,但是目录和文件名应该小写:

  user-agent:GoogleBot

  disallow:

  l 语法中只有Disallow,没有Allow!

  错误的写法是:

  User-agent: Baiduspider

  Disallow: /john/

  allow: /jane/

  l 忘记了斜杠/

  错误的写做:

  User-agent: Baiduspider

  Disallow: css

  正确的应该是

  User-agent: Baiduspider

  Disallow: /css/

  下面一个小工具专门检查robots.txt文件的有效性:

  http://www.searchengineworld.com/cgi-bin/robotcheck.cgi

 二、 Robots META标签

  1、什么是Robots META标签

  Robots.txt文件主要是限制整个站点或者目录的搜索引擎访问情况,而Robots META标签则主要是针对一个个具体的页面。和其他的META标签(如使用的语言、页面的描述、关键词等)一样,Robots META标签也是放在页面的中,专门用来告诉搜索引擎ROBOTS如何抓取该页的内容。具体的形式类似(见黑体部分):

  <html>
  <head>
  <title>时代营销--网络营销专业门户</title>
  <meta name="Robots" content="index,follow">
  <meta http-equiv="Content-Type" CONTENT="text/html; charset=gb2312">
  <meta name="keywords" content="营销… ">
  <meta name="description" content="时代营销网是…">
  <link rel="stylesheet" href="/public/css.css" type="text/css">
  </head>

  <body>
  …
  </body>
  </html>

  2、Robots META标签的写法:

  Robots META标签中没有大小写之分,name=”Robots”表示所有的搜索引擎,可以针对某个具体搜索引擎写为name=”BaiduSpider”。content部分有四个指令选项:index、noindex、follow、nofollow,指令间以“,”分隔。

  INDEX 指令告诉搜索机器人抓取该页面;

  FOLLOW 指令表示搜索机器人可以沿着该页面上的链接继续抓取下去;

  Robots Meta标签的缺省值是INDEX和FOLLOW,只有inktomi除外,对于它,缺省值是INDEX,NOFOLLOW。

  这样,一共有四种组合:

  <META NAME="ROBOTS" CONTENT="INDEX,FOLLOW">
  <META NAME="ROBOTS" CONTENT="NOINDEX,FOLLOW">
  <META NAME="ROBOTS" CONTENT="INDEX,NOFOLLOW">
  <META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">

   其中<META NAME="ROBOTS" CONTENT="INDEX,FOLLOW">可以写成<META NAME="ROBOTS" CONTENT="ALL">; <META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">可以写成<META NAME="ROBOTS" CONTENT="NONE">

  要注意的是:上述的robots.txt和Robots META标签限制搜索引擎机器人(ROBOTS)抓取站点内容的办法只是一种规则,需要搜索引擎机器人的配合才行,并不是每个ROBOTS都遵守的。

  目前看来,绝大多数的搜索引擎机器人都遵守robots.txt的规则,而对于Robots META标签,目前支持的并不多,但是正在逐渐增加,如著名搜索引擎GOOGLE就完全支持,而且GOOGLE还增加了一个指令“archive”,可以限制GOOGLE是否保留网页快照。例如:<META NAME="googlebot" CONTENT="index,follow,noarchive">

  表示抓取该站点中页面并沿着页面中链接抓取,但是不在GOOLGE上保留该页面的网页快照

  为网站的Web Robot 设计路标

  HTML文档中小meta的大作用

  Robots.txt指南

  Robots Meta Tag的使用

中联无限科技公司提供专业的成都网站建设成都网站设计成都网站制作成都网站推广


上一篇:ASP.NET入门之数据篇
下一篇:搜索引擎指南robots.txt文件
   相关网站教程 /Tutorial
·SEO之如何更好的布局?2011-08-11
·Ajax2011-05-26
·JSP的定义2011-05-26
·PHP是什么2011-05-26
·CSS教程:CSS背景全攻略2011-03-26
·javascript cookies 存2011-03-25
·网站外部链接的注意事项2011-03-24
·PHP防御木马攻击的技巧2011-03-11
·Apache服务器的配置与管理2011-03-11
·SQL Server数据库查询优化的常用2011-03-09
·SQL Server触发器2011-03-09
·ASP.NET JMAIL 发送邮件方法2011-03-09
首页 | 公司简介 |联系方式 |付款方式 |人才招聘 | 域名空间 | 网页设计案例 | 网站知识 | 解决方案 | 建站指南 | 网站地图
地址:成都市青羊区西大街1号   邮编:610041   E- Mail:619027769@qq.com   代理合作: 028-86637122
网站建设/推广咨询:028-86637122  86618860  传真:028-86637322   
成都中联无限科技有限公司 2004-2014    蜀ICP备05017733号