网站的规范标准化建设以及robots协议详解(2)
作者:张栋伟 来源:中国站长站 发布时间:2008-12-02 10:14:00
3.常见搜索引擎机器人Robots名字
名称 搜索引擎
Baiduspider http://www.baidu.com
ia_archiver http://www.alexa.com
bot http://www.google.com
FAST-WebCrawler http://www.alltheweb.com
Slurp http://www.inktomi.com
BOT http://search.msn.com
4.robots.txt举例
下面是一些著名站点的robots.txt:
http://www.google.com/robots.txt
http://www.alibaba.com/robots.txt
http://www.baidu.com/robots.txt
http://www.taobao.com/robots.txt
5.常见robots.txt错误
颠倒了顺序:
错误写成
User-agent: *
Disallow: Bot
正确的应该是:
User-agent: GoogleBot
Disallow: *
把多个禁止命令放在一行中:
例如,错误地写成
Disallow: /css/ /cgi-bin/ /images/
正确的应该是
Disallow: /css/
Disallow: /cgi-bin/
Disallow: /images/
行前有大量空格
例如写成
Disallow: /cgi-bin/
尽管在标准没有谈到这个,但是这种方式很容易出问题。
404重定向到另外一个页面:
当Robot访问很多没有设置robots.txt文件的站点时,会被自动404重定向到另外一个Html页面。这时Robot常常会以处理robots.txt文件的方式处理这个Html页面文件。虽然一般这样没有什么问题,但是最好能放一个空白的robots.txt文件在站点根目录下。
采用大写。例如
USER-AGENT: EXCITE
DISALLOW:
虽然标准是没有大小写的,但是目录和文件名应该小写:
user-agent:GoogleBot
disallow:
语法中只有Disallow,没有Allow!
错误的写法是:
User-agent: Baiduspider
Disallow: /john/
allow: /jane/
忘记了斜杠/
错误的写做:
User-agent: Baiduspider
Disallow: css
正确的应该是
User-agent: Baiduspider
Disallow: /css/
猜你喜欢
- 提高IIS网站服务器执行效率的第八种方法:静态网页采用HTTP 压缩静态网页采用HTTP 压缩,大约可以减少20%的传输量。HTTP压缩功能
- 前言在Linux系统内部缓存和内存容量都是有限的,更多的数据都是存储在磁盘中。对于Web服务器来说,经常需要从磁盘中读取数据到内存,然后再通
- 本篇只简单介绍安装步骤 1. 角色分配10.11.84.4 web-crawler--1.novalocal master/sla
- 老站长就不用说了,他们有丰富的经验,作为新站长辛辛苦苦挣钱上台服务器一定要注意以下几个问题:1、除非你确认自己掌握了,否则不要去试WIN20
- 木马是一种基于远程控制的病毒程序,该程序具有很强的隐蔽性和危害性,它可以在人不知鬼不觉的状态下控制你或者监视你。有人说,既然木马这么厉害,那
- 核心提示:根据网站网页关键词进行淘宝推广商品自动搜索、采集、显示,真真实现淘宝推广全自动化,推广信息永不失效。自淘宝网推出淘宝客以来,无数的
- Tools工具箱是为了方便广大站长日常维护论坛等程序而出的工具。工具箱只有单一的一个文件,便于上传和使用。比如找回管理员、修复数据库、导入数
- 今天介绍下Godaddy主机用户应该如何压缩文件。随着托管账户内容的增加,压缩及archive文档的能力对简化账户维护及文档储存大有裨益。另
- ASP.NET使用RewritePath重定向后,服务器响应的HTTP头会多个Content-Location:HTTP/1.1 200 O
- 前言在很多时候我们都会用到虚拟机,比如一些测试没检测,练习的东西可以在虚拟机上,不必担心会搞坏什么,本文主要给大家介绍了linux虚拟机配置
- Godaddy主机用户您假如发现需要更改您的主机操作系统,是可以随时进行。操作如下:首先. 登陆你的Account Manager.第二.
- 前言:本文将以 Ubuntu Server 22.04 LTS 为例,说明在 VMware 虚拟机中的安装和配置 Linux 操作系统的步骤
- 当您试图利用FTP连接到一台远程计算机时,远程系统会向您要求一个用户名及口令,而在浩如烟海的Internet中要求每个用户向每个服务器系统申
- 付款流程中有两个收入点需要注意,一个是 10 美元,一个是 100 美元。一.10美元,确认帐户信息当你的收入达到10美元时,系统会自动向你
- 今天我们来说说服务器基础知识方面的几个问题,也是困惑初涉服务器领域众“菜鸟”们的几个常见问题:1 双
- 提到FTP服务器,可能大家都会想到Serv-U、vs-FTP等软件,其实微软内置在IIS里的FTP服务已经够用,不信请往下看。实现对多用户的
- 前文所述SVN客户端使用的时候,用的SVN服务器通常为外部,例如Google Code的服务器,不过,做为一个程序开发人员,就算自己一个人写
- 大千世界、无奇不有,谁也想不到了,中国互联网发展到现在,有越来越多的互联网公司开始光明正大的利用“病毒”来致富,而且行为越来越过费,受害网友
- 康盛创想最新发布的Discuz! 7.0中,最大的界面风格改进之一就是边栏的使用,边栏可以在论坛页面的侧边显示自定义模块的资料,丰富论坛内容
- 网络在现今社会扮演着越来越重要的角色,在给人们生活带来极大便利的同时,衍生了一个个族群,而数量庞大的一群人的行为则构成一种种现象。最近,&a