教你robots文件使用方法屏蔽搜索抓取方法
来源:中国站长站 发布时间:2009-02-06 14:18:00
搜索引擎通过一种程序robot(又称spider),自动访问互联网上的网页并获取网页信息。
您可以在您的网站中创建一个纯文本文件robots.txt,在这个文件中声明该网站中不想被robot访问的部分,这样,该网站的部分或全部内容就可以不被搜索引擎收录了,或者指定搜索引擎只收录指定的内容。robots.txt文件应该放在网站根目录下。
当一个搜索机器人(有的叫搜索蜘蛛)访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,那么搜索机器人就沿着链接抓取。
robots.txt文件的格式:
“robots.txt”文件包含一条或更多的记录,这些记录通过空行分开(以CR,CR/NL, or NL作为结束符),每一条记录的格式如下所示:
“<field>:<optionalspace><value><optionalspace>”。
在该文件中可以使用#进行注解,具体使用方法和UNIX中的惯例一样。该文件中的记录通常以一行或多行User-agent开始,后面加上若干Disallow行,详细情况如下:
User-agent:
该项的值用于描述搜索引擎robot的名字,在 ”robots.txt”文件中,如果有多条User-agent记录说明有多个robot会受到该协议的限制,对该文件来说,至少要有一条User- agent记录。如果该项的值设为*,则该协议对任何机器人均有效,在”robots.txt”文件中,”User-agent:*”这样的记录只能有一条。
Disallow:
该项的值用于描述不希望被访问到的一个URL,这个URL可以是一条完整的路径,也可以是部分的,任何以Disallow开头的URL均不会被robot 访问到。例如”Disallow:/help”对/help.html 和/help/index.html都不允许搜索引擎访问,而”Disallow:/help/”则允许robot访问/help.html,而不能访问 /help/index.html。任何一条Disallow记录为空,说明该网站的所有部分都允许被访问,在”/robots.txt”文件中,至少要有一条Disallow记录。如果”/robots.txt”是一个空文件,则对于所有的搜索引擎robot,该网站都是开放的。
robots.txt文件用法举例:
例1. 禁止所有搜索引擎访问网站的任何部分 下载该robots.txt文件 User-agent: * Disallow: /
例2. 允许所有的robot访问 (或者也可以建一个空文件 “/robots.txt” file) User-agent: *Disallow:
例3. 禁止某个搜索引擎的访问 User-agent: BadBotDisallow: /
例4. 允许某个搜索引擎的访问 User-agent: baiduspiderDisallow: User-agent: *Disallow: /
例 5.一个简单例子 在这个例子中,该网站有三个目录对搜索引擎的访问做了限制,即搜索引擎不会访问这三个目录。 需要注意的是对每一个目录必须分开声明,而不要写成 “Disallow: /cgi-bin/ /tmp/”。 User-agent:后的*具有特殊的含义,代表”any robot”,所以在该文件中不能有”Disallow: /tmp/*” or “Disallow:*.gif”这样的记录出现。 User-agent: *Disallow: /cgi-bin/Disallow: /tmp/Disallow: /~joe/
Robot特殊参数:
1. Google
允许 Googlebot:
如果您要拦截除 Googlebot 以外的所有漫游器访问您的网页,可以使用下列语法:
User-agent:Disallow:/
User-agent:Googlebot
Disallow:
Googlebot 跟随指向它自己的行,而不是指向所有漫游器的行。
“Allow”扩展名:
Googlebot 可识别称为”Allow”的 robots.txt 标准扩展名。其他搜索引擎的漫游器可能无法识别此扩展名,因此请使用您感兴趣的其他搜索引擎进行查找。”Allow”行的作用原理完全与 ”Disallow”行一样。只需列出您要允许的目录或页面即可。
您也可以同时使用”Disallow”和”Allow”。例如,要拦截子目录中某个页面之外的其他所有页面,可以使用下列条目:
User-Agent:Googlebot
Disallow:/folder1/
Allow:/folder1/myfile.html
这些条目将拦截 folder1 目录内除 myfile.html 之外的所有页面。
如果您要拦截 Googlebot 并允许 Google 的另一个漫游器(如 Googlebot-Mobile),可使用”Allow”规则允许该漫游器的访问。例如:
User-agent:Googlebot
Disallow:/
User-agent:Googlebot-Mobile
Allow:
使用 * 号匹配字符序列:
您可使用星号 (*) 来匹配字符序列。例如,要拦截对所有以 private 开头的子目录的访问,可使用下列条目:
User-Agent:Googlebot
Disallow:/private*/
要拦截对所有包含问号 (?) 的网址的访问,可使用下列条目:
User-agent:*
Disallow:/*?*
使用 $ 匹配网址的结束字符
您可使用 $ 字符指定与网址的结束字符进行匹配。例如,要拦截以 .asp 结尾的网址,可使用下列条目:
User-Agent:Googlebot
Disallow:/*.asp$
您可将此模式匹配与 Allow 指令配合使用。例如,如果 ? 表示一个会话 ID,您可排除所有包含该 ID 的网址,确保 Googlebot 不会抓取重复的网页。但是,以 ? 结尾的网址可能是您要包含的网页版本。在此情况下,可对 robots.txt 文件进行如下设置:
User-agent:*
Allow:/*?$
Disallow:/*?
Disallow:/ *?一行将拦截包含 ? 的网址(具体而言,它将拦截所有以您的域名开头、后接任意字符串,然后是问号 (?),而后又是任意字符串的网址)。
Allow: /*?$ 一行将允许包含任何以 ? 结尾的网址(具体而言,它将允许包含所有以您的域名开头、后接任意字符串,然后是问号 (?),问号之后没有任何字符的网址)。
Sitemap 网站地图:
对网站地图的新的支持方式,就是在robots.txt文件里直接包括sitemap文件的链接。
就像这样:
Sitemap: http://www.eastsem.com/sitemap.xml
目前对此表示支持的搜索引擎公司有Google, Yahoo, Ask and MSN。
不过,我建议还是在Google Sitemap 进行提交,里面有很多功能可以分析你的链接状态。


猜你喜欢
- 核心提示: 一个网站要建立好良好的形象,必定要“扬长避短”。通过robots.txt来限制蜘蛛的爬行
- 以Twitter为代表的微博客是今年非常火的社交网络,在国内的发展也在上半年一度非常迅猛,虽然现在大多数微博客都因为种种原因无法访问,但这并
- “网站黑客”、“奥运黑客”,似乎最近成为了互联网安全方面的一个热话题,从Google上搜索“奥运黑客”一词,竟达646,000多项,可见所受
- /*** 栏目名称调用标签* 标签编写:寂寞天涯* 时间:2008年12月13日* 标签使用说明:* {dede:channeltitle
- 网站的定位往往就是一句话的事情,但就是简单的一句话却来之不易。为了这简单的一句话,很多网站花了很长的时间,走了不少的曲折之路。网站的定位跟网
- 假设VPS的IP是58.130.17.168,有两个域名指向该IP,分别是domain1.com, domain2.com,&nb
- Keepass+PuTTYPortable+Winscp一键登录KeePass Password Safe(以下简称KeePass)是一套类
- 通常地,大多数Web站点的设计目标都是:以最易接受的方式,为访问者提供即时的信息访问。在过去的几年中,越来越多的黑客、病毒和蠕虫带来的安全问
- 目前大多数CPU都支持浮点运算单元FPU,FPU作为一个单独的协处理器放置在处理器核外,但是对于嵌入式处理器,浮点运算本来就少用,有些嵌入式
- 比如:运行一些像mount,halt,su之类的命令,或者编辑一些系统配置文件,像/etc/mtab,/etc /samba/smb.con
- 今天继续介绍Godaddy常见问题之托管帐户上使用的是什么版本的ColdFusion。我们用的是Macromedia ColdFusion
- 域名跟着关键词的拼音选取在SEO优化当中,域名所占之优势不容客观。大家也是经常会看到在搜索引擎搜索框内输入关键词的拼音搜出的结果往往都是相应
- 每一个“网络草根”,至少有10种方法,分别可以达到月赚3000。是的,月赚3000并没有什么,我现在也基本用不着这些方法,但对于某些有志之士
- 世界上没有绝对安全的系统,即使是普遍认为稳定的Linux系统,在管理和安全方面也存在不足之处。我们期望让系统尽量在承担低风险的情况下工作,这
- 以修改为8088端口和D:/workphp目录为例。修改为8088端口左键托盘图标,在“Apache”里可以直接打开httpd.conf,查
- 我们经常收到发布商来信询问为什么网站上的Google Adsense广告不显示了,今天我们就详细介绍一下可能造成广告不显示的原因,这样,如果
- 最近,搜索引擎战略会议在寒冷的芝加哥举行。许多谷歌参加者总是被问及关于重复内容的问题。对于这个话题,我们发现有许多破碎的并且有些混乱的理解。
- 近来群里经常有朋友问我做站的经验,每次都大概重复着同样的话题,其实做站没有什么经验,做站就和做人一样,厚道做人,老实做站,这就是我最深刻的体
- 《士兵突击》和去年的《疯狂的石头》很像,口碑传播,据说是从天涯开始热起来的,听同事说起,到百度贴吧去看,非常热。在电视,YOUKU上看了大部
- 最近一直都比较忙,所以也没有时间接各种各样的需求,WordPress 折腾得也少了,现在 WordPress 都已经升级到 3.2.1 了,