网站的规范标准化建设以及robots协议详解(2)
作者:张栋伟 来源:中国站长站 发布时间:2008-12-02 10:14:00
3.常见搜索引擎机器人Robots名字
名称 搜索引擎
Baiduspider http://www.baidu.com
ia_archiver http://www.alexa.com
bot http://www.google.com
FAST-WebCrawler http://www.alltheweb.com
Slurp http://www.inktomi.com
BOT http://search.msn.com
4.robots.txt举例
下面是一些著名站点的robots.txt:
http://www.google.com/robots.txt
http://www.alibaba.com/robots.txt
http://www.baidu.com/robots.txt
http://www.taobao.com/robots.txt
5.常见robots.txt错误
颠倒了顺序:
错误写成
User-agent: *
Disallow: Bot
正确的应该是:
User-agent: GoogleBot
Disallow: *
把多个禁止命令放在一行中:
例如,错误地写成
Disallow: /css/ /cgi-bin/ /images/
正确的应该是
Disallow: /css/
Disallow: /cgi-bin/
Disallow: /images/
行前有大量空格
例如写成
Disallow: /cgi-bin/
尽管在标准没有谈到这个,但是这种方式很容易出问题。
404重定向到另外一个页面:
当Robot访问很多没有设置robots.txt文件的站点时,会被自动404重定向到另外一个Html页面。这时Robot常常会以处理robots.txt文件的方式处理这个Html页面文件。虽然一般这样没有什么问题,但是最好能放一个空白的robots.txt文件在站点根目录下。
采用大写。例如
USER-AGENT: EXCITE
DISALLOW:
虽然标准是没有大小写的,但是目录和文件名应该小写:
user-agent:GoogleBot
disallow:
语法中只有Disallow,没有Allow!
错误的写法是:
User-agent: Baiduspider
Disallow: /john/
allow: /jane/
忘记了斜杠/
错误的写做:
User-agent: Baiduspider
Disallow: css
正确的应该是
User-agent: Baiduspider
Disallow: /css/
猜你喜欢
- 对于URL渠道,大家可能比较熟悉,当您有多个网站的时候,URL渠道可以跟踪不同网站的表现。而对于自定义渠道,可能有些人还不太熟悉。自定义渠道
- 3、添加WEB服务扩展接着我们要在IIS6中为URL授权添加一个Web服务扩展。在Internet信息服务(IIS)管理器窗口中,依次展开&
- 最近想把自己的机器用做服务器,因为我对http.conf的内容不够了解,以至自己走了点弯路。现在把这个文件中需要经常修改的几个选项的意思解释
- 现在有关Windos server 2008的NAP(Network Access Protection网络访问保护)的文章可以说是多如牛毛
- 在各类会议上总有一些有趣的事情。会上,搜索引擎公司总会有重大的宣布,业界重要人物也总会发表主题演讲。在旧金山召开的“复制内容和多网站问题”大
- 一、软件的安装和卸载 1、安装前的准备(1)下载地址:http://gt.onlinedown.net/down/md600g_en.exe
- 如果你有自己的主页,需要经常将自己制作的网页文件上传到几个固定的站点,相信你一定会喜欢下面介绍的“可以编程序&r
- 多快好省地完成一件事是所有人都在追求的,所以就有了黑帽SEO。但俗话说:盗亦有道,如果把SEO黑帽做成黑客,就已经超出一个网络营销人员、SE
- 本教程为大家介绍 UCenter Home 1.5 的安装方法(以虚拟主机为例)。在安装 UCenter Home 1.5 之前,请确认在服
- 今天我们将介绍超链分析的颠峰之作:HillTop算法,作为现在Google现在最核心的排名算法之一,网上不乏大量介绍她的文献。本文侧重于原始
- 原来qmail系统的邮箱一天起码要收十几份垃圾、病毒邮件,实在是比较烦,不是很喜欢qmail,特别是日志,让人不知所云,所以干脆考虑更换邮件
- 作为一个高速发展而且看起来异常暴利的行业,网络游戏产业向来不缺乏新闻,而2009年可谓中国网游产业诞生以来最为热闹的一年。3月,九城和网易为
- 酒香不怕巷子深,这是国人对自己产品的一种评价方式。然而商业化气息越来越浓的今天,产品竞争越来越厉害的今天,恐怕就不是那么回事了,好的产品也需
- 核心提示:主要是告诉销售人员,不要把时间浪费在这些地方,因为不产生价值,有点甚至可能给自己带来麻烦。什么样的网站不需要SEO网站优化?SEO
- 1. Godaddy的webmail的登陆地址在哪?答:Godaddy的邮箱登录地址格式为,email.yourdomainname.com
- 对于一般的CMS用户,CMS系统默认的标签封装的越完整,使用越简单越受欢迎,但如果是个性化数据调用需求较多的用户,通常都会感觉系统内置的标签
- 四步轻松搞定阿里妈妈广告购买流程!第一步:选择投放广告位在首页点击买广告,进入以下页面:在这里,你可以根据需求选择目标网站类目,在类目中进行
- 北京时间11月11日消息,据国外媒体报道,关于谷歌以7.5亿美元收购手机广告网络AdMob引发了许多猜想,但最直接原因是谷歌希望更多介入自己
- 网站的定位跟网站的目标用户群,市场的潜力和竞争对手都相关,所以,它也不简单。做网站时,首先要解决两个问题:一是网站有没有定位,二是网站定位是
- 做SEO的一个基本工作就是每天都要关注自己的网站以及竞争对手网站的数据更新,今天我也是毫不例外的打开查询工具,赫然发现PR上升、百度大更新、