网站运营
位置:首页>> 网站运营>> 网站的规范标准化建设以及robots协议详解(2)

网站的规范标准化建设以及robots协议详解(2)

作者:张栋伟 来源:中国站长站 发布时间:2008-12-02 10:14:00 

标签:

3.常见搜索引擎机器人Robots名字

名称 搜索引擎

Baiduspider  http://www.baidu.com

ia_archiver http://www.alexa.com

bot http://www.google.com

FAST-WebCrawler http://www.alltheweb.com

Slurp http://www.inktomi.com

BOT http://search.msn.com

4.robots.txt举例

下面是一些著名站点的robots.txt:

http://www.google.com/robots.txt

http://www.alibaba.com/robots.txt

http://www.baidu.com/robots.txt

http://www.taobao.com/robots.txt

5.常见robots.txt错误

颠倒了顺序:

错误写成

User-agent: *

Disallow: Bot

正确的应该是:

User-agent: GoogleBot

Disallow: *

把多个禁止命令放在一行中:

例如,错误地写成

Disallow: /css/ /cgi-bin/ /images/

正确的应该是

Disallow: /css/

Disallow: /cgi-bin/

Disallow: /images/

行前有大量空格

例如写成

Disallow: /cgi-bin/

尽管在标准没有谈到这个,但是这种方式很容易出问题。

404重定向到另外一个页面:

当Robot访问很多没有设置robots.txt文件的站点时,会被自动404重定向到另外一个Html页面。这时Robot常常会以处理robots.txt文件的方式处理这个Html页面文件。虽然一般这样没有什么问题,但是最好能放一个空白的robots.txt文件在站点根目录下。

采用大写。例如

USER-AGENT: EXCITE

DISALLOW:

虽然标准是没有大小写的,但是目录和文件名应该小写:

user-agent:GoogleBot

disallow:

语法中只有Disallow,没有Allow!

错误的写法是:

User-agent: Baiduspider

Disallow: /john/

allow: /jane/

忘记了斜杠/

错误的写做:

User-agent: Baiduspider

Disallow: css

正确的应该是

User-agent: Baiduspider

Disallow: /css/

0
投稿

猜你喜欢

手机版 网站运营 asp之家 www.aspxhome.com